{
  "model.audio_tower.layers.5.lconv1d.linear_end.input_max": {
    "atom_offset": 1,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 3,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0107421875,
    "track": "int4"
  },
  "model.language_model.layers.15.self_attn.q_proj.weight": {
    "atom_offset": 32772,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0633370503783226,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_start.input_min": {
    "atom_offset": 57349,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.mlp.down_proj.weight": {
    "atom_offset": 57351,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0753348246216774,
    "track": "int4"
  },
  "model.language_model.layers.15.post_attention_layernorm.weight": {
    "atom_offset": 204808,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 204857,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.self_attn.k_proj.weight": {
    "atom_offset": 204859,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008440290577709675,
    "track": "int4"
  },
  "model.language_model.layers.22.mlp.down_proj.weight": {
    "atom_offset": 207932,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0708705335855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.down_proj.output_max": {
    "atom_offset": 355389,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.self_attn.k_proj.weight": {
    "atom_offset": 355391,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008684431202709675,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.q_proj.output_max": {
    "atom_offset": 358464,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.o_proj.input_max": {
    "atom_offset": 358466,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.self_attn.v_proj.weight": {
    "atom_offset": 358468,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008405412547290325,
    "track": "int4"
  },
  "model.language_model.layers.5.post_per_layer_input_norm.weight": {
    "atom_offset": 361541,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.post_attention_layernorm.weight": {
    "atom_offset": 361590,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.q_proj.output_min": {
    "atom_offset": 361615,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.q_proj.input_max": {
    "atom_offset": 361617,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 361619,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 361652,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.self_attn.q_proj.weight": {
    "atom_offset": 361654,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0887276753783226,
    "track": "int4"
  },
  "model.language_model.layers.28.post_per_layer_input_norm.weight": {
    "atom_offset": 386231,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.per_layer_input_gate.weight": {
    "atom_offset": 386280,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 398569,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_end.linear.weight": {
    "atom_offset": 398571,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.021484375,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 406764,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.post_attention_layernorm.weight": {
    "atom_offset": 406766,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.self_attn.v_proj.weight": {
    "atom_offset": 406815,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008405412547290325,
    "track": "int4"
  },
  "model.language_model.layers.6.layer_scalar": {
    "atom_offset": 409888,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.o_proj.input_max": {
    "atom_offset": 409890,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.v_proj.input_min": {
    "atom_offset": 409892,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.post_feedforward_layernorm.weight": {
    "atom_offset": 409894,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.self_attn.o_proj.weight": {
    "atom_offset": 409919,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0424107126891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.q_proj.linear.weight": {
    "atom_offset": 434496,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0552455373108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.down_proj.output_min": {
    "atom_offset": 439105,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.layer_scalar": {
    "atom_offset": 439107,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.v_proj.input_max": {
    "atom_offset": 439109,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.v_proj.output_max": {
    "atom_offset": 439111,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.o_proj.input_min": {
    "atom_offset": 439113,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.post.input_min": {
    "atom_offset": 439115,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.k_proj.output_max": {
    "atom_offset": 439117,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.self_attn.k_norm.weight": {
    "atom_offset": 439119,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 439128,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.q_proj.input_max": {
    "atom_offset": 439130,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.q_proj.input_min": {
    "atom_offset": 439132,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.mlp.up_proj.weight": {
    "atom_offset": 439134,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0876116082072258,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.v_proj.input_max": {
    "atom_offset": 586591,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 586593,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_end.input_min": {
    "atom_offset": 586595,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.k_proj.output_min": {
    "atom_offset": 586597,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.self_attn.k_norm.weight": {
    "atom_offset": 586599,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.up_proj.input_min": {
    "atom_offset": 586608,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.self_attn.v_proj.weight": {
    "atom_offset": 586610,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0407366082072258,
    "track": "int4"
  },
  "model.language_model.layers.21.input_layernorm.weight": {
    "atom_offset": 589683,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.k_proj.input_max": {
    "atom_offset": 589732,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.mlp.gate_proj.weight": {
    "atom_offset": 589734,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0571986623108387,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 663463,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.v_proj.output_min": {
    "atom_offset": 663496,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.v_proj.linear.weight": {
    "atom_offset": 663498,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.046875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.input_layernorm.weight": {
    "atom_offset": 668107,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.self_attn.v_proj.weight": {
    "atom_offset": 668132,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.0510602667927742,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 674277,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.per_layer_projection.weight": {
    "atom_offset": 674310,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.o_proj.output_min": {
    "atom_offset": 686599,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.o_proj.output_min": {
    "atom_offset": 686601,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.input_layernorm.weight": {
    "atom_offset": 686603,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.self_attn.q_norm.weight": {
    "atom_offset": 686652,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.post_feedforward_layernorm.weight": {
    "atom_offset": 686661,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 686710,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.conv_norm.weight": {
    "atom_offset": 686712,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.norm_pre_attn.weight": {
    "atom_offset": 686745,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 5.035714149475098,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.q_norm.weight": {
    "atom_offset": 686754,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.relative_k_proj.weight": {
    "atom_offset": 686757,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0262276791036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.down_proj.linear.weight": {
    "atom_offset": 694950,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0265066958963871,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_end.input_max": {
    "atom_offset": 713383,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.post.input_min": {
    "atom_offset": 713385,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.k_proj.input_min": {
    "atom_offset": 713387,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.k_proj.input_max": {
    "atom_offset": 713389,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 713391,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01374162919819355,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 746160,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.k_norm.weight": {
    "atom_offset": 746162,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.self_attn.q_proj.weight": {
    "atom_offset": 746165,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0697544664144516,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 795318,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.00830078125,
    "track": "int4"
  },
  "model.language_model.layers.27.per_layer_projection.weight": {
    "atom_offset": 828087,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.self_attn.v_proj.weight": {
    "atom_offset": 840376,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0404575876891613,
    "track": "int4"
  },
  "model.language_model.layers.0.mlp.down_proj.weight": {
    "atom_offset": 843449,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0786830335855484,
    "track": "int4"
  },
  "model.language_model.layers.4.per_layer_input_gate.weight": {
    "atom_offset": 917178,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.down_proj.output_min": {
    "atom_offset": 929467,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 929469,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.mlp.down_proj.weight": {
    "atom_offset": 929471,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0982142835855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.down_proj.input_max": {
    "atom_offset": 1076928,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.v_proj.output_min": {
    "atom_offset": 1076930,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.mlp.up_proj.weight": {
    "atom_offset": 1076932,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0697544664144516,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.k_proj.output_max": {
    "atom_offset": 1150661,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.post_feedforward_layernorm.weight": {
    "atom_offset": 1150663,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_start.output_min": {
    "atom_offset": 1150712,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.pre_feedforward_layernorm.weight": {
    "atom_offset": 1150714,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.o_proj.input_max": {
    "atom_offset": 1150763,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.v_proj.input_min": {
    "atom_offset": 1150765,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.k_proj.input_min": {
    "atom_offset": 1150767,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.self_attn.q_proj.weight": {
    "atom_offset": 1150769,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0627790167927742,
    "track": "int4"
  },
  "model.language_model.layers.12.post_feedforward_layernorm.weight": {
    "atom_offset": 1175346,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.post.output_max": {
    "atom_offset": 1175395,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.self_attn.o_proj.weight": {
    "atom_offset": 1175397,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.1294642835855484,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 1199974,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.013671875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.o_proj.linear.weight": {
    "atom_offset": 1232743,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.05078125,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_start.input_max": {
    "atom_offset": 1237352,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.up_proj.input_max": {
    "atom_offset": 1237354,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.mlp.gate_proj.weight": {
    "atom_offset": 1237356,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0876116082072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.o_proj.input_max": {
    "atom_offset": 1384813,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.post_per_layer_input_norm.weight": {
    "atom_offset": 1384815,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.input_layernorm.weight": {
    "atom_offset": 1384864,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_end.input_max": {
    "atom_offset": 1384913,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.o_proj.output_min": {
    "atom_offset": 1384915,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.v_proj.input_max": {
    "atom_offset": 1384917,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.q_proj.output_min": {
    "atom_offset": 1384919,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.self_attn.k_proj.weight": {
    "atom_offset": 1384921,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008335658349096775,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 1391066,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.v_proj.output_max": {
    "atom_offset": 1391099,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 1391101,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 1391103,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.per_layer_input_gate.weight": {
    "atom_offset": 1391105,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.v_proj.output_max": {
    "atom_offset": 1403394,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_start.output_min": {
    "atom_offset": 1403396,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.o_proj.linear.weight": {
    "atom_offset": 1403398,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0435267873108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.v_proj.output_min": {
    "atom_offset": 1408007,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.input_layernorm.weight": {
    "atom_offset": 1408009,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.per_layer_model_projection.weight": {
    "atom_offset": 1408034,
    "byte_length": 27525184,
    "num_atoms": 430081,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.self_attn.k_norm.weight": {
    "atom_offset": 1838115,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.input_layernorm.weight": {
    "atom_offset": 1838124,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.down_proj.linear.weight": {
    "atom_offset": 1838173,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.03055245615541935,
    "track": "int4"
  },
  "model.language_model.layers.2.self_attn.k_proj.weight": {
    "atom_offset": 1856606,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.048828125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.down_proj.input_min": {
    "atom_offset": 1859679,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.input_layernorm.weight": {
    "atom_offset": 1859681,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.input_layernorm.weight": {
    "atom_offset": 1859730,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.self_attn.k_norm.weight": {
    "atom_offset": 1859755,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.self_attn.v_proj.weight": {
    "atom_offset": 1859764,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008544921875,
    "track": "int4"
  },
  "model.language_model.layers.22.post_feedforward_layernorm.weight": {
    "atom_offset": 1865909,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.up_proj.output_min": {
    "atom_offset": 1865958,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.mlp.down_proj.weight": {
    "atom_offset": 1865960,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0998883917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_start.output_max": {
    "atom_offset": 2013417,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.norm_pre_attn.weight": {
    "atom_offset": 2013419,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.1785712242126465,
    "track": "int4"
  },
  "model.language_model.layers.23.layer_scalar": {
    "atom_offset": 2013428,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.q_proj.input_max": {
    "atom_offset": 2013430,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.k_proj.linear.weight": {
    "atom_offset": 2013432,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0630580335855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.o_proj.input_min": {
    "atom_offset": 2018041,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.self_attn.o_proj.weight": {
    "atom_offset": 2018043,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0485491082072258,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 2067196,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.post_attention_layernorm.weight": {
    "atom_offset": 2067198,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 2067247,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.norm_post_attn.weight": {
    "atom_offset": 2067249,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.1785714626312256,
    "track": "int4"
  },
  "model.language_model.layers.13.layer_scalar": {
    "atom_offset": 2067258,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.post.linear.weight": {
    "atom_offset": 2067260,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01583426259458065,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 2075453,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 2075455,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.o_proj.output_max": {
    "atom_offset": 2075457,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.self_attn.k_proj.weight": {
    "atom_offset": 2075459,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00847516767680645,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.post.input_max": {
    "atom_offset": 2078532,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.gate_proj.output_min": {
    "atom_offset": 2078534,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.post_attention_layernorm.weight": {
    "atom_offset": 2078536,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.self_attn.q_proj.weight": {
    "atom_offset": 2078585,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0714285746216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.q_proj.input_max": {
    "atom_offset": 2127738,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.o_proj.output_max": {
    "atom_offset": 2127740,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.up_proj.input_max": {
    "atom_offset": 2127742,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.post_attention_layernorm.weight": {
    "atom_offset": 2127744,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.post_feedforward_layernorm.weight": {
    "atom_offset": 2127793,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.self_attn.k_norm.weight": {
    "atom_offset": 2127842,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.mlp.gate_proj.weight": {
    "atom_offset": 2127851,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1244419664144516,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.k_proj.linear.weight": {
    "atom_offset": 2275308,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01520647294819355,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_end.output_max": {
    "atom_offset": 2283501,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.k_proj.input_min": {
    "atom_offset": 2283503,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 2283505,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_end.output_max": {
    "atom_offset": 2283507,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.self_attn.o_proj.weight": {
    "atom_offset": 2283509,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0970982164144516,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.q_proj.output_min": {
    "atom_offset": 2332662,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.self_attn.v_proj.weight": {
    "atom_offset": 2332664,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00812639482319355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.q_proj.input_min": {
    "atom_offset": 2335737,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.layer_scalar": {
    "atom_offset": 2335739,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.o_proj.input_max": {
    "atom_offset": 2335741,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 2335743,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 2335745,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.4241071343421936,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.q_proj.output_min": {
    "atom_offset": 2335786,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.self_attn.q_norm.weight": {
    "atom_offset": 2335788,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.mlp.up_proj.weight": {
    "atom_offset": 2335797,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1484375,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 2483254,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.9375,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.down_proj.linear.weight": {
    "atom_offset": 2483295,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0340401791036129,
    "track": "int4"
  },
  "model.language_model.layers.32.input_layernorm.weight": {
    "atom_offset": 2501728,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.down_proj.output_min": {
    "atom_offset": 2501777,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 2501779,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 2501781,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.post.output_min": {
    "atom_offset": 2501814,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.post_attention_layernorm.weight": {
    "atom_offset": 2501816,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_start.output_max": {
    "atom_offset": 2501865,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.v_proj.input_max": {
    "atom_offset": 2501867,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.input_layernorm.weight": {
    "atom_offset": 2501869,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 2501918,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.011090959422290325,
    "track": "int4"
  },
  "model.language_model.layers.5.mlp.down_proj.weight": {
    "atom_offset": 2534687,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0926339253783226,
    "track": "int4"
  },
  "model.language_model.layers.14.self_attn.q_norm.weight": {
    "atom_offset": 2608416,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.o_proj.input_min": {
    "atom_offset": 2608433,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 2608435,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.per_layer_input_gate.weight": {
    "atom_offset": 2608437,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.gate_proj.output_max": {
    "atom_offset": 2620726,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.self_attn.v_proj.weight": {
    "atom_offset": 2620728,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008510044775903225,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.v_proj.output_min": {
    "atom_offset": 2626873,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.gate_proj.input_min": {
    "atom_offset": 2626875,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.per_layer_input_gate.weight": {
    "atom_offset": 2626877,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 2639166,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01667131669819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.q_norm.weight": {
    "atom_offset": 2671935,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.post_attention_layernorm.weight": {
    "atom_offset": 2671938,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 2671963,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01457868330180645,
    "track": "int4"
  },
  "model.language_model.layers.27.input_layernorm.weight": {
    "atom_offset": 2704732,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.down_proj.output_max": {
    "atom_offset": 2704781,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 2704783,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 2704785,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.mlp.gate_proj.weight": {
    "atom_offset": 2704787,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1194196417927742,
    "track": "int4"
  },
  "model.language_model.layers.0.self_attn.q_norm.weight": {
    "atom_offset": 2852244,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 2852253,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_end.output_min": {
    "atom_offset": 2852286,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.q_proj.output_min": {
    "atom_offset": 2852288,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 2852290,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.down_proj.input_max": {
    "atom_offset": 2852292,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 2852294,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 2852327,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 2852329,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.q_proj.input_min": {
    "atom_offset": 2852331,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.pre_feedforward_layernorm.weight": {
    "atom_offset": 2852333,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.gate_proj.output_min": {
    "atom_offset": 2852382,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.norm_out.weight": {
    "atom_offset": 2852384,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 5.5,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 2852393,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 2852426,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.011439732275903225,
    "track": "int4"
  },
  "model.language_model.layers.20.self_attn.k_norm.weight": {
    "atom_offset": 2885195,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 2885204,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 1.5446428060531616,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 2885245,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.post.input_min": {
    "atom_offset": 2885247,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.up_proj.output_min": {
    "atom_offset": 2885249,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.output_proj.bias": {
    "atom_offset": 2885251,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.self_attn.v_proj.weight": {
    "atom_offset": 2885300,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0859375,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.v_proj.input_max": {
    "atom_offset": 2888373,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.mlp.up_proj.weight": {
    "atom_offset": 2888375,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0731026753783226,
    "track": "int4"
  },
  "model.language_model.layers.6.self_attn.q_norm.weight": {
    "atom_offset": 3035832,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.q_norm.weight": {
    "atom_offset": 3035841,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.pre_feedforward_layernorm.weight": {
    "atom_offset": 3035844,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 3035869,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 3035902,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.mlp.down_proj.weight": {
    "atom_offset": 3035904,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0943080335855484,
    "track": "int4"
  },
  "model.language_model.layers.4.self_attn.q_norm.weight": {
    "atom_offset": 3109633,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.mlp.gate_proj.weight": {
    "atom_offset": 3109650,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0792410746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 3257107,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.k_norm.weight": {
    "atom_offset": 3257109,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.post_feedforward_layernorm.weight": {
    "atom_offset": 3257112,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.post.output_max": {
    "atom_offset": 3257161,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.post.input_max": {
    "atom_offset": 3257163,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 3257165,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.gate_proj.output_max": {
    "atom_offset": 3257167,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.post_per_layer_input_norm.weight": {
    "atom_offset": 3257169,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.q_proj.input_min": {
    "atom_offset": 3257218,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.q_proj.input_max": {
    "atom_offset": 3257220,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.conv_norm.weight": {
    "atom_offset": 3257222,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.k_proj.output_min": {
    "atom_offset": 3257255,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.mlp.up_proj.weight": {
    "atom_offset": 3257257,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0678013414144516,
    "track": "int4"
  },
  "model.language_model.layers.1.self_attn.o_proj.weight": {
    "atom_offset": 3330986,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0482700876891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.o_proj.input_min": {
    "atom_offset": 3355563,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.o_proj.linear.weight": {
    "atom_offset": 3355565,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0622209832072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.q_proj.linear.weight": {
    "atom_offset": 3360174,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0446428582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.o_proj.input_max": {
    "atom_offset": 3364783,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 3364785,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.6205357313156128,
    "track": "int4"
  },
  "model.language_model.layers.30.per_layer_input_gate.weight": {
    "atom_offset": 3364826,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.patch_embedder.position_embedding_table": {
    "atom_offset": 3377115,
    "byte_length": 31457344,
    "num_atoms": 491521,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 3868636,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.self_attn.k_norm.weight": {
    "atom_offset": 3868638,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.k_proj.output_max": {
    "atom_offset": 3868647,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.post_feedforward_layernorm.weight": {
    "atom_offset": 3868649,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.down_proj.input_min": {
    "atom_offset": 3868698,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.q_proj.input_max": {
    "atom_offset": 3868700,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.pre_feedforward_layernorm.weight": {
    "atom_offset": 3868702,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 3868751,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.q_proj.input_min": {
    "atom_offset": 3868753,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.k_proj.linear.weight": {
    "atom_offset": 3868755,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0157645083963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.q_proj.linear.weight": {
    "atom_offset": 3876948,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0770089253783226,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 3881557,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.3883928656578064,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.up_proj.input_min": {
    "atom_offset": 3881598,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.norm_pre_attn.weight": {
    "atom_offset": 3881600,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.1785712242126465,
    "track": "int4"
  },
  "model.language_model.layers.33.per_layer_input_gate.weight": {
    "atom_offset": 3881609,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.pre_feedforward_layernorm.weight": {
    "atom_offset": 3893898,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.gate_proj.linear.weight": {
    "atom_offset": 3893947,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0485491082072258,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 3912380,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.o_proj.input_min": {
    "atom_offset": 3912382,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 3912384,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01311383955180645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.gate_proj.output_max": {
    "atom_offset": 3945153,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 3945155,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.mlp.up_proj.weight": {
    "atom_offset": 3945157,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0803571417927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.k_proj.input_max": {
    "atom_offset": 4018886,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.self_attn.o_proj.weight": {
    "atom_offset": 4018888,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0758928582072258,
    "track": "int4"
  },
  "model.language_model.layers.20.post_feedforward_layernorm.weight": {
    "atom_offset": 4043465,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.up_proj.input_min": {
    "atom_offset": 4043514,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.v_proj.output_min": {
    "atom_offset": 4043516,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_start.input_max": {
    "atom_offset": 4043518,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.up_proj.input_max": {
    "atom_offset": 4043520,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.q_proj.output_max": {
    "atom_offset": 4043522,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.mlp.up_proj.weight": {
    "atom_offset": 4043524,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0524553582072258,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_start.linear.weight": {
    "atom_offset": 4117253,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0244140625,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.v_proj.output_min": {
    "atom_offset": 4133638,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.post.input_max": {
    "atom_offset": 4133640,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.post_feedforward_layernorm.weight": {
    "atom_offset": 4133642,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.post.input_max": {
    "atom_offset": 4133691,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_end.output_min": {
    "atom_offset": 4133693,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.post.output_max": {
    "atom_offset": 4133695,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.self_attn.k_norm.weight": {
    "atom_offset": 4133697,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.per_layer_input_gate.weight": {
    "atom_offset": 4133706,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.v_proj.linear.weight": {
    "atom_offset": 4145995,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0404575876891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.gate_proj.output_max": {
    "atom_offset": 4150604,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.k_proj.input_max": {
    "atom_offset": 4150606,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.mlp.gate_proj.weight": {
    "atom_offset": 4150608,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0987723246216774,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 4298065,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.gate_proj.input_min": {
    "atom_offset": 4298098,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.self_attn.q_norm.weight": {
    "atom_offset": 4298100,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.per_layer_projection.weight": {
    "atom_offset": 4298109,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.pre_feedforward_layernorm.weight": {
    "atom_offset": 4310398,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.v_proj.linear.weight": {
    "atom_offset": 4310447,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.013532365672290325,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.pre_feedforward_layernorm.weight": {
    "atom_offset": 4318640,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.k_proj.input_max": {
    "atom_offset": 4318665,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.post_feedforward_layernorm.weight": {
    "atom_offset": 4318667,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.k_proj.input_min": {
    "atom_offset": 4318716,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.per_dim_scale": {
    "atom_offset": 4318718,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.per_layer_input_gate.weight": {
    "atom_offset": 4318723,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.self_attn.k_proj.weight": {
    "atom_offset": 4331012,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008544921875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.down_proj.output_min": {
    "atom_offset": 4337157,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_end.linear.weight": {
    "atom_offset": 4337159,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01639229990541935,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.gate_proj.input_max": {
    "atom_offset": 4345352,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.v_proj.output_min": {
    "atom_offset": 4345354,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.k_proj.linear.weight": {
    "atom_offset": 4345356,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.013392857275903225,
    "track": "int4"
  },
  "model.language_model.layers.3.input_layernorm.weight": {
    "atom_offset": 4353549,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.up_proj.input_min": {
    "atom_offset": 4353598,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.up_proj.linear.weight": {
    "atom_offset": 4353600,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0435267873108387,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 4372033,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.mlp.down_proj.weight": {
    "atom_offset": 4372066,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0689174085855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.v_proj.input_max": {
    "atom_offset": 4445795,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.per_layer_input_gate.weight": {
    "atom_offset": 4445797,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.up_proj.linear.weight": {
    "atom_offset": 4458086,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0368303582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.gate_proj.input_max": {
    "atom_offset": 4476519,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 4476521,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.post.output_max": {
    "atom_offset": 4476523,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_end.output_max": {
    "atom_offset": 4476525,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.conv_norm.weight": {
    "atom_offset": 4476527,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 4476560,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.down_proj.output_min": {
    "atom_offset": 4476562,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.q_proj.output_min": {
    "atom_offset": 4476564,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.k_proj.linear.weight": {
    "atom_offset": 4476566,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0577566958963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.up_proj.output_min": {
    "atom_offset": 4481175,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.k_proj.linear.weight": {
    "atom_offset": 4481177,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0524553582072258,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.v_proj.output_max": {
    "atom_offset": 4485786,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 4485788,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.014020646922290325,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 4518557,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.input_layernorm.weight": {
    "atom_offset": 4518559,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.layer_scalar": {
    "atom_offset": 4518584,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.post.output_max": {
    "atom_offset": 4518586,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.self_attn.k_norm.weight": {
    "atom_offset": 4518588,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_end.output_min": {
    "atom_offset": 4518597,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.layer_scalar": {
    "atom_offset": 4518599,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 4518601,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.00983537919819355,
    "track": "int4"
  },
  "model.language_model.layers.33.mlp.up_proj.weight": {
    "atom_offset": 4551370,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0870535746216774,
    "track": "int4"
  },
  "model.language_model.layers.13.pre_feedforward_layernorm.weight": {
    "atom_offset": 4698827,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.o_proj.output_min": {
    "atom_offset": 4698876,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.mlp.up_proj.weight": {
    "atom_offset": 4698878,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0574776791036129,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.v_proj.linear.weight": {
    "atom_offset": 4772607,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.013044084422290325,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.q_proj.linear.weight": {
    "atom_offset": 4780800,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_start.linear.weight": {
    "atom_offset": 4785409,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0205078125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.up_proj.output_min": {
    "atom_offset": 4801794,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 4801796,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.up_proj.output_max": {
    "atom_offset": 4801798,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 4801800,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_start.output_max": {
    "atom_offset": 4801802,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.post_feedforward_layernorm.weight": {
    "atom_offset": 4801804,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.v_proj.input_min": {
    "atom_offset": 4801829,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.v_proj.linear.weight": {
    "atom_offset": 4801831,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01262555830180645,
    "track": "int4"
  },
  "model.language_model.layers.34.layer_scalar": {
    "atom_offset": 4810024,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.q_proj.output_max": {
    "atom_offset": 4810026,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.v_proj.output_max": {
    "atom_offset": 4810028,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 4810030,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 4810032,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.6875,
    "track": "int4"
  },
  "model.language_model.layers.13.self_attn.o_proj.weight": {
    "atom_offset": 4810073,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0736607164144516,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.k_proj.output_max": {
    "atom_offset": 4834650,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.mlp.down_proj.weight": {
    "atom_offset": 4834652,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0853794664144516,
    "track": "int4"
  },
  "model.language_model.layers.24.mlp.up_proj.weight": {
    "atom_offset": 4908381,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0831473246216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.up_proj.input_min": {
    "atom_offset": 5055838,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 5055840,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 5055842,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.up_proj.linear.weight": {
    "atom_offset": 5055844,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0560825876891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.gate_proj.output_min": {
    "atom_offset": 5074277,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 5074279,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 5074281,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.013532365672290325,
    "track": "int4"
  },
  "model.language_model.layers.26.self_attn.q_norm.weight": {
    "atom_offset": 5107050,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 5107059,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.011090959422290325,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.q_proj.input_min": {
    "atom_offset": 5139828,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 5139830,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 5139832,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.o_proj.linear.weight": {
    "atom_offset": 5139834,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.05078125,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.q_proj.linear.weight": {
    "atom_offset": 5144443,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.011858259327709675,
    "track": "int4"
  },
  "model.language_model.layers.28.self_attn.v_proj.weight": {
    "atom_offset": 5152636,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008544921875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.q_proj.linear.weight": {
    "atom_offset": 5155709,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0532924123108387,
    "track": "int4"
  },
  "model.language_model.layers.17.mlp.up_proj.weight": {
    "atom_offset": 5160318,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1222098246216774,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.post.input_max": {
    "atom_offset": 5307775,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.norm_post_attn.weight": {
    "atom_offset": 5307777,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 2.4285714626312256,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.q_proj.input_max": {
    "atom_offset": 5307786,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 5307788,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.k_proj.output_max": {
    "atom_offset": 5307790,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.k_proj.input_min": {
    "atom_offset": 5307792,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.pre_feedforward_layernorm.weight": {
    "atom_offset": 5307794,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 5307843,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.k_proj.linear.weight": {
    "atom_offset": 5307845,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01325334794819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.up_proj.output_max": {
    "atom_offset": 5316038,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 5316040,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.post.output_min": {
    "atom_offset": 5316042,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.mlp.down_proj.weight": {
    "atom_offset": 5316044,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0848214253783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.down_proj.output_min": {
    "atom_offset": 5389773,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 5389775,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01130022294819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.v_proj.output_min": {
    "atom_offset": 5422544,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.q_proj.output_min": {
    "atom_offset": 5422546,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.mlp.gate_proj.weight": {
    "atom_offset": 5422548,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0859375,
    "track": "int4"
  },
  "model.language_model.layers.30.self_attn.q_norm.weight": {
    "atom_offset": 5570005,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.self_attn.q_norm.weight": {
    "atom_offset": 5570014,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 5570023,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.mlp.down_proj.weight": {
    "atom_offset": 5570025,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0786830335855484,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.q_proj.input_min": {
    "atom_offset": 5717482,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 5717484,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.layer_scalar": {
    "atom_offset": 5717486,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.v_proj.output_max": {
    "atom_offset": 5717488,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.post_feedforward_layernorm.weight": {
    "atom_offset": 5717490,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.q_proj.output_max": {
    "atom_offset": 5717515,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.post.output_max": {
    "atom_offset": 5717517,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 5717519,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.post_attention_layernorm.weight": {
    "atom_offset": 5717521,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.v_proj.input_max": {
    "atom_offset": 5717570,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.v_proj.input_min": {
    "atom_offset": 5717572,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.q_proj.output_min": {
    "atom_offset": 5717574,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 5717576,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.input_layernorm.weight": {
    "atom_offset": 5717578,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.k_proj.input_max": {
    "atom_offset": 5717627,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.conv_norm.weight": {
    "atom_offset": 5717629,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.gate_proj.input_min": {
    "atom_offset": 5717662,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.k_norm.weight": {
    "atom_offset": 5717664,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.up_proj.output_min": {
    "atom_offset": 5717667,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.q_proj.input_max": {
    "atom_offset": 5717669,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 5717671,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.input_layernorm.weight": {
    "atom_offset": 5717673,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 5717722,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.post_per_layer_input_norm.weight": {
    "atom_offset": 5717724,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.post.linear.weight": {
    "atom_offset": 5717773,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02287946455180645,
    "track": "int4"
  },
  "model.language_model.layers.14.post_per_layer_input_norm.weight": {
    "atom_offset": 5725966,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.up_proj.linear.weight": {
    "atom_offset": 5726015,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0491071417927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.k_proj.input_min": {
    "atom_offset": 5744448,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.down_proj.input_max": {
    "atom_offset": 5744450,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.v_proj.output_min": {
    "atom_offset": 5744452,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 5744454,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.gate_proj.input_max": {
    "atom_offset": 5744456,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.post_feedforward_layernorm.weight": {
    "atom_offset": 5744458,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.q_proj.output_max": {
    "atom_offset": 5744483,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.k_proj.input_min": {
    "atom_offset": 5744485,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 5744487,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.009765625,
    "track": "int4"
  },
  "model.language_model.layers.24.post_attention_layernorm.weight": {
    "atom_offset": 5777256,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.o_proj.input_max": {
    "atom_offset": 5777305,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.up_proj.input_max": {
    "atom_offset": 5777307,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.up_proj.linear.weight": {
    "atom_offset": 5777309,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0407366082072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.pre_feedforward_layernorm.weight": {
    "atom_offset": 5795742,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.k_proj.linear.weight": {
    "atom_offset": 5795767,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0555245541036129,
    "track": "int4"
  },
  "model.language_model.layers.23.per_layer_projection.weight": {
    "atom_offset": 5800376,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.input_layernorm.weight": {
    "atom_offset": 5812665,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.self_attn.q_norm.weight": {
    "atom_offset": 5812714,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.pre_feedforward_layernorm.weight": {
    "atom_offset": 5812723,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.o_proj.output_max": {
    "atom_offset": 5812772,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.v_proj.linear.weight": {
    "atom_offset": 5812774,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0313895083963871,
    "track": "int4"
  },
  "model.language_model.layers.29.mlp.down_proj.weight": {
    "atom_offset": 5820967,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0842633917927742,
    "track": "int4"
  },
  "model.language_model.embed_tokens_per_layer.weight": {
    "atom_offset": 5968424,
    "byte_length": 4697620544,
    "num_atoms": 73400321,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.mlp.up_proj.weight": {
    "atom_offset": 79368745,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0837053582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.down_proj.input_min": {
    "atom_offset": 79516202,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.post_per_layer_input_norm.weight": {
    "atom_offset": 79516204,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.q_proj.input_max": {
    "atom_offset": 79516253,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.k_proj.input_max": {
    "atom_offset": 79516255,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 79516257,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.v_proj.input_max": {
    "atom_offset": 79516259,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.gate_proj.input_max": {
    "atom_offset": 79516261,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.q_norm.weight": {
    "atom_offset": 79516263,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.mlp.down_proj.weight": {
    "atom_offset": 79516266,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0792410746216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.v_proj.output_min": {
    "atom_offset": 79663723,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.up_proj.output_max": {
    "atom_offset": 79663725,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.o_proj.linear.weight": {
    "atom_offset": 79663727,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0616629458963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.up_proj.linear.weight": {
    "atom_offset": 79668336,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0435267873108387,
    "track": "int4"
  },
  "model.language_model.layers.20.mlp.up_proj.weight": {
    "atom_offset": 79686769,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.language_model.layers.21.post_per_layer_input_norm.weight": {
    "atom_offset": 79834226,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.gate_proj.output_max": {
    "atom_offset": 79834275,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 79834277,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.012486048974096775,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.v_proj.input_max": {
    "atom_offset": 79867046,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.self_attn.o_proj.weight": {
    "atom_offset": 79867048,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0753348246216774,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.v_proj.input_min": {
    "atom_offset": 79916201,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.up_proj.input_max": {
    "atom_offset": 79916203,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.pre_feedforward_layernorm.weight": {
    "atom_offset": 79916205,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.o_proj.linear.weight": {
    "atom_offset": 79916254,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0608258917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.11.norm_pre_attn.weight": {
    "atom_offset": 79920863,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.0535714626312256,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_start.input_min": {
    "atom_offset": 79920872,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.down_proj.output_min": {
    "atom_offset": 79920874,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.relative_k_proj.weight": {
    "atom_offset": 79920876,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0255301333963871,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.k_proj.output_min": {
    "atom_offset": 79929069,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.q_norm.weight": {
    "atom_offset": 79929071,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 79929074,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.k_norm.weight": {
    "atom_offset": 79929076,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.relative_k_proj.weight": {
    "atom_offset": 79929079,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0398995541036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.pre_feedforward_layernorm.weight": {
    "atom_offset": 79937272,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.down_proj.input_min": {
    "atom_offset": 79937297,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.embed_audio.embedding_projection.weight": {
    "atom_offset": 79937299,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0393415167927742,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.post.input_max": {
    "atom_offset": 79955732,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.gate_proj.input_min": {
    "atom_offset": 79955734,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.self_attn.k_norm.weight": {
    "atom_offset": 79955736,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.up_proj.input_max": {
    "atom_offset": 79955745,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.v_proj.input_min": {
    "atom_offset": 79955747,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.v_proj.output_max": {
    "atom_offset": 79955749,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 79955751,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0107421875,
    "track": "int4"
  },
  "model.language_model.layers.2.mlp.gate_proj.weight": {
    "atom_offset": 79988520,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0661272332072258,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 80062249,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.self_attn.q_norm.weight": {
    "atom_offset": 80062251,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.self_attn.k_proj.weight": {
    "atom_offset": 80062260,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.0440848208963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.k_proj.output_max": {
    "atom_offset": 80068405,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.o_proj.input_min": {
    "atom_offset": 80068407,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.k_proj.linear.weight": {
    "atom_offset": 80068409,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01178850419819355,
    "track": "int4"
  },
  "model.language_model.layers.23.pre_feedforward_layernorm.weight": {
    "atom_offset": 80076602,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.gate_proj.output_max": {
    "atom_offset": 80076651,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.k_proj.output_max": {
    "atom_offset": 80076653,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.self_attn.k_norm.weight": {
    "atom_offset": 80076655,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.up_proj.output_max": {
    "atom_offset": 80076664,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.layer_scalar": {
    "atom_offset": 80076666,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.q_proj.input_min": {
    "atom_offset": 80076668,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 80076670,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0107421875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.gate_proj.input_max": {
    "atom_offset": 80109439,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.post_per_layer_input_norm.weight": {
    "atom_offset": 80109441,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.v_proj.input_max": {
    "atom_offset": 80109490,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 80109492,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.down_proj.input_min": {
    "atom_offset": 80109525,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.o_proj.linear.weight": {
    "atom_offset": 80109527,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0775669664144516,
    "track": "int4"
  },
  "model.language_model.layers.27.layer_scalar": {
    "atom_offset": 80114136,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 80114138,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.post_feedforward_layernorm.weight": {
    "atom_offset": 80114140,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 80114189,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 80114191,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.q_proj.input_min": {
    "atom_offset": 80114193,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.up_proj.output_min": {
    "atom_offset": 80114195,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.gate_proj.linear.weight": {
    "atom_offset": 80114197,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.05078125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.pre_feedforward_layernorm.weight": {
    "atom_offset": 80132630,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.post_attention_layernorm.weight": {
    "atom_offset": 80132655,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.self_attn.v_proj.weight": {
    "atom_offset": 80132704,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008579798974096775,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.down_proj.linear.weight": {
    "atom_offset": 80135777,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.02859933115541935,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.q_proj.linear.weight": {
    "atom_offset": 80154210,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02120535634458065,
    "track": "int4"
  },
  "model.language_model.layers.18.self_attn.k_proj.weight": {
    "atom_offset": 80162403,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008335658349096775,
    "track": "int4"
  },
  "model.language_model.layers.14.post_attention_layernorm.weight": {
    "atom_offset": 80165476,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.o_proj.output_min": {
    "atom_offset": 80165525,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 80165527,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.012904576025903225,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.k_proj.linear.weight": {
    "atom_offset": 80198296,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.014299665577709675,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.o_proj.output_max": {
    "atom_offset": 80206489,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.q_proj.input_max": {
    "atom_offset": 80206491,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.self_attn.q_norm.weight": {
    "atom_offset": 80206493,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.post_feedforward_layernorm.weight": {
    "atom_offset": 80206502,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 80206527,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.q_proj.input_max": {
    "atom_offset": 80206529,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_end.input_max": {
    "atom_offset": 80206531,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 80206533,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.up_proj.output_max": {
    "atom_offset": 80206535,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.post_attention_layernorm.weight": {
    "atom_offset": 80206537,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.v_proj.linear.weight": {
    "atom_offset": 80206562,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01409040205180645,
    "track": "int4"
  },
  "model.language_model.layers.30.layer_scalar": {
    "atom_offset": 80214755,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.input_layernorm.weight": {
    "atom_offset": 80214757,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.o_proj.linear.weight": {
    "atom_offset": 80214806,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0387834832072258,
    "track": "int4"
  },
  "model.audio_tower.layers.5.norm_pre_attn.weight": {
    "atom_offset": 80219415,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.964285850524902,
    "track": "int4"
  },
  "model.language_model.layers.25.self_attn.o_proj.weight": {
    "atom_offset": 80219424,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0904017835855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.v_proj.output_min": {
    "atom_offset": 80244001,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.v_proj.output_min": {
    "atom_offset": 80244003,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 80244005,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_end.input_max": {
    "atom_offset": 80244007,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_start.linear.weight": {
    "atom_offset": 80244009,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.02273995615541935,
    "track": "int4"
  },
  "model.language_model.layers.5.mlp.up_proj.weight": {
    "atom_offset": 80260394,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.06640625,
    "track": "int4"
  },
  "model.audio_tower.layers.9.norm_out.weight": {
    "atom_offset": 80334123,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 6.0,
    "track": "int4"
  },
  "model.language_model.layers.12.self_attn.k_norm.weight": {
    "atom_offset": 80334132,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.post_feedforward_layernorm.weight": {
    "atom_offset": 80334141,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.self_attn.o_proj.weight": {
    "atom_offset": 80334190,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0516183041036129,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.v_proj.input_min": {
    "atom_offset": 80358767,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.pre_feedforward_layernorm.weight": {
    "atom_offset": 80358769,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.input_layernorm.weight": {
    "atom_offset": 80358818,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.q_proj.linear.weight": {
    "atom_offset": 80358843,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0385044626891613,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 80363452,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0076729911379516125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.v_proj.linear.weight": {
    "atom_offset": 80396221,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0563616082072258,
    "track": "int4"
  },
  "model.language_model.layers.13.mlp.down_proj.weight": {
    "atom_offset": 80400830,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0887276753783226,
    "track": "int4"
  },
  "model.audio_tower.layers.0.norm_out.weight": {
    "atom_offset": 80474559,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.3035714626312256,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.v_proj.input_min": {
    "atom_offset": 80474568,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_end.linear.weight": {
    "atom_offset": 80474570,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01653180830180645,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.v_proj.input_max": {
    "atom_offset": 80482763,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 80482765,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.k_proj.output_min": {
    "atom_offset": 80482798,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.post.input_min": {
    "atom_offset": 80482800,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.k_proj.linear.weight": {
    "atom_offset": 80482802,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0708705335855484,
    "track": "int4"
  },
  "model.language_model.layers.12.self_attn.o_proj.weight": {
    "atom_offset": 80487411,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.048828125,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.post.output_max": {
    "atom_offset": 80511988,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.layer_scalar": {
    "atom_offset": 80511990,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.input_layernorm.weight": {
    "atom_offset": 80511992,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.q_proj.output_min": {
    "atom_offset": 80512041,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 80512043,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.q_proj.linear.weight": {
    "atom_offset": 80512045,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0193917416036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.k_norm.weight": {
    "atom_offset": 80520238,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.gate_proj.output_min": {
    "atom_offset": 80520241,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.pre_feedforward_layernorm.weight": {
    "atom_offset": 80520243,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.v_proj.output_max": {
    "atom_offset": 80520292,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.post_feedforward_layernorm.weight": {
    "atom_offset": 80520294,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.v_proj.linear.weight": {
    "atom_offset": 80520343,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0558035708963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.post_feedforward_layernorm.weight": {
    "atom_offset": 80524952,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.o_proj.input_max": {
    "atom_offset": 80524977,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.post_attention_layernorm.weight": {
    "atom_offset": 80524979,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.v_proj.linear.weight": {
    "atom_offset": 80525028,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0415736623108387,
    "track": "int4"
  },
  "model.language_model.layers.34.post_per_layer_input_norm.weight": {
    "atom_offset": 80529637,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.gate_proj.output_max": {
    "atom_offset": 80529686,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.q_norm.weight": {
    "atom_offset": 80529688,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.down_proj.output_max": {
    "atom_offset": 80529691,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.per_layer_projection.weight": {
    "atom_offset": 80529693,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.self_attn.q_norm.weight": {
    "atom_offset": 80541982,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.norm_post_attn.weight": {
    "atom_offset": 80541999,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.7678571939468384,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_start.output_min": {
    "atom_offset": 80542008,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.norm_post_attn.weight": {
    "atom_offset": 80542010,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.2142856121063232,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 80542019,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.gate_proj.input_min": {
    "atom_offset": 80542052,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.post.output_min": {
    "atom_offset": 80542054,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.post_attention_layernorm.weight": {
    "atom_offset": 80542056,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.down_proj.output_max": {
    "atom_offset": 80542105,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.norm_out.weight": {
    "atom_offset": 80542107,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 2.357142925262451,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.v_proj.output_max": {
    "atom_offset": 80542116,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 80542118,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.02413504384458065,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.down_proj.output_min": {
    "atom_offset": 80574887,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.per_layer_projection.weight": {
    "atom_offset": 80574889,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.mlp.gate_proj.weight": {
    "atom_offset": 80587178,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.125,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_start.input_min": {
    "atom_offset": 80660907,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.self_attn.q_proj.weight": {
    "atom_offset": 80660909,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0758928582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.v_proj.input_min": {
    "atom_offset": 80685486,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.gate_proj.output_min": {
    "atom_offset": 80685488,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.post_feedforward_layernorm.weight": {
    "atom_offset": 80685490,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_start.output_max": {
    "atom_offset": 80685515,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 80685517,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 80685519,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_start.output_max": {
    "atom_offset": 80685521,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.self_attn.q_proj.weight": {
    "atom_offset": 80685523,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0661272332072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.v_proj.input_max": {
    "atom_offset": 80710100,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.post_attention_layernorm.weight": {
    "atom_offset": 80710102,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 80710151,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.down_proj.output_max": {
    "atom_offset": 80710153,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.per_layer_projection.weight": {
    "atom_offset": 80710155,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.per_layer_projection.weight": {
    "atom_offset": 80722444,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.q_proj.linear.weight": {
    "atom_offset": 80734733,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01702008955180645,
    "track": "int4"
  },
  "model.language_model.layers.25.per_layer_projection.weight": {
    "atom_offset": 80742926,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 80755215,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.post_attention_layernorm.weight": {
    "atom_offset": 80755217,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.up_proj.input_max": {
    "atom_offset": 80755266,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.q_proj.output_max": {
    "atom_offset": 80755268,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.k_proj.input_min": {
    "atom_offset": 80755270,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.up_proj.output_min": {
    "atom_offset": 80755272,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 80755274,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.00847516767680645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.input_layernorm.weight": {
    "atom_offset": 80788043,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.v_proj.output_max": {
    "atom_offset": 80788068,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.q_proj.output_max": {
    "atom_offset": 80788070,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.self_attn.k_norm.weight": {
    "atom_offset": 80788072,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_end.input_max": {
    "atom_offset": 80788089,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 80788091,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 80788124,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0126953125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.up_proj.input_max": {
    "atom_offset": 80820893,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.norm_post_attn.weight": {
    "atom_offset": 80820895,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 2.607142925262451,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.q_proj.input_max": {
    "atom_offset": 80820904,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 80820906,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.post.output_min": {
    "atom_offset": 80820908,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.v_proj.output_max": {
    "atom_offset": 80820910,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.self_attn.q_norm.weight": {
    "atom_offset": 80820912,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_end.output_max": {
    "atom_offset": 80820929,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.mlp.up_proj.weight": {
    "atom_offset": 80820931,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0541294626891613,
    "track": "int4"
  },
  "model.language_model.layers.34.self_attn.q_proj.weight": {
    "atom_offset": 80968388,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0482700876891613,
    "track": "int4"
  },
  "model.language_model.layers.10.self_attn.v_proj.weight": {
    "atom_offset": 81017541,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0510602667927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.o_proj.input_min": {
    "atom_offset": 81020614,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 81020616,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 81020618,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_start.input_min": {
    "atom_offset": 81020620,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.q_proj.linear.weight": {
    "atom_offset": 81020622,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0920758917927742,
    "track": "int4"
  },
  "model.language_model.layers.12.per_layer_input_gate.weight": {
    "atom_offset": 81025231,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.post.output_min": {
    "atom_offset": 81037520,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.q_proj.input_min": {
    "atom_offset": 81037522,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.post_attention_layernorm.weight": {
    "atom_offset": 81037524,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.k_proj.input_min": {
    "atom_offset": 81037573,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 81037575,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.post_per_layer_input_norm.weight": {
    "atom_offset": 81037577,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_end.input_max": {
    "atom_offset": 81037626,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 81037628,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 81037661,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.per_layer_input_gate.weight": {
    "atom_offset": 81037663,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 81049952,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.00969587080180645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.post_feedforward_layernorm.weight": {
    "atom_offset": 81082721,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.per_layer_input_gate.weight": {
    "atom_offset": 81082746,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.post_per_layer_input_norm.weight": {
    "atom_offset": 81095035,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_start.output_max": {
    "atom_offset": 81095084,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.post_attention_layernorm.weight": {
    "atom_offset": 81095086,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.post_per_layer_input_norm.weight": {
    "atom_offset": 81095111,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 81095160,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.norm_post_attn.weight": {
    "atom_offset": 81095162,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.1875,
    "track": "int4"
  },
  "model.language_model.layers.34.per_layer_input_gate.weight": {
    "atom_offset": 81095171,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.v_proj.linear.weight": {
    "atom_offset": 81107460,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0571986623108387,
    "track": "int4"
  },
  "model.language_model.layers.32.post_per_layer_input_norm.weight": {
    "atom_offset": 81112069,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.self_attn.o_proj.weight": {
    "atom_offset": 81112118,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.056640625,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 81136695,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.4709821343421936,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.q_proj.output_max": {
    "atom_offset": 81136736,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.k_proj.output_min": {
    "atom_offset": 81136738,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_start.output_min": {
    "atom_offset": 81136740,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.self_attn.q_norm.weight": {
    "atom_offset": 81136742,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.k_proj.input_max": {
    "atom_offset": 81136759,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 81136761,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 81136763,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.k_proj.linear.weight": {
    "atom_offset": 81136765,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0616629458963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.k_proj.output_max": {
    "atom_offset": 81141374,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 81141376,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.k_proj.output_min": {
    "atom_offset": 81141378,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.up_proj.linear.weight": {
    "atom_offset": 81141380,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0412946417927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.up_proj.linear.weight": {
    "atom_offset": 81159813,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0424107126891613,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.k_proj.output_max": {
    "atom_offset": 81178246,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.q_proj.output_max": {
    "atom_offset": 81178248,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.q_proj.linear.weight": {
    "atom_offset": 81178250,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.013044084422290325,
    "track": "int4"
  },
  "model.language_model.layers.7.mlp.gate_proj.weight": {
    "atom_offset": 81186443,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0998883917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_start.input_max": {
    "atom_offset": 81260172,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.per_layer_input_gate.weight": {
    "atom_offset": 81260174,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.layer_scalar": {
    "atom_offset": 81272463,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.self_attn.o_proj.weight": {
    "atom_offset": 81272465,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0636160746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 81297042,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.v_proj.input_max": {
    "atom_offset": 81297075,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.up_proj.output_min": {
    "atom_offset": 81297077,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.self_attn.v_proj.weight": {
    "atom_offset": 81297079,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.04296875,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_start.input_min": {
    "atom_offset": 81300152,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 81300154,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.subsample_conv_projection.input_proj_linear.weight": {
    "atom_offset": 81300156,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0530133917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 81308349,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01360212080180645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.up_proj.input_max": {
    "atom_offset": 81341118,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 81341120,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.v_proj.output_max": {
    "atom_offset": 81341122,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.v_proj.linear.weight": {
    "atom_offset": 81341124,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0599888376891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.q_norm.weight": {
    "atom_offset": 81345733,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.layer_scalar": {
    "atom_offset": 81345736,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.mlp.gate_proj.weight": {
    "atom_offset": 81345738,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0859375,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.down_proj.output_max": {
    "atom_offset": 81493195,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 81493197,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.down_proj.output_max": {
    "atom_offset": 81493230,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 81493232,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 81493234,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_start.output_min": {
    "atom_offset": 81493236,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 81493238,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01374162919819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.input_layernorm.weight": {
    "atom_offset": 81526007,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.input_layernorm.weight": {
    "atom_offset": 81526032,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 81526081,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.pre_feedforward_layernorm.weight": {
    "atom_offset": 81526083,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.k_norm.weight": {
    "atom_offset": 81526108,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.k_proj.input_min": {
    "atom_offset": 81526111,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.k_proj.linear.weight": {
    "atom_offset": 81526113,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0658482164144516,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.gate_proj.input_max": {
    "atom_offset": 81530722,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.relative_k_proj.weight": {
    "atom_offset": 81530724,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0347377248108387,
    "track": "int4"
  },
  "model.language_model.layers.28.post_feedforward_layernorm.weight": {
    "atom_offset": 81538917,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.v_proj.linear.weight": {
    "atom_offset": 81538966,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0418526791036129,
    "track": "int4"
  },
  "model.language_model.layers.7.self_attn.q_proj.weight": {
    "atom_offset": 81543575,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0622209832072258,
    "track": "int4"
  },
  "model.language_model.layers.19.self_attn.o_proj.weight": {
    "atom_offset": 81568152,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0719866082072258,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_end.input_min": {
    "atom_offset": 81617305,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.q_proj.input_max": {
    "atom_offset": 81617307,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.up_proj.input_max": {
    "atom_offset": 81617309,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.v_proj.output_max": {
    "atom_offset": 81617311,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.per_dim_scale": {
    "atom_offset": 81617313,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.mlp.gate_proj.weight": {
    "atom_offset": 81617318,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0758928582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.k_proj.input_max": {
    "atom_offset": 81691047,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.post_per_layer_input_norm.weight": {
    "atom_offset": 81691049,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.input_layernorm.weight": {
    "atom_offset": 81691098,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.down_proj.input_max": {
    "atom_offset": 81691147,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.k_norm.weight": {
    "atom_offset": 81691149,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.up_proj.output_max": {
    "atom_offset": 81691152,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 81691154,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.q_norm.weight": {
    "atom_offset": 81691156,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.q_proj.output_max": {
    "atom_offset": 81691159,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.gate_proj.input_max": {
    "atom_offset": 81691161,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.down_proj.input_min": {
    "atom_offset": 81691163,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.v_proj.output_min": {
    "atom_offset": 81691165,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.conv_norm.weight": {
    "atom_offset": 81691167,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.mlp.up_proj.weight": {
    "atom_offset": 81691200,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.language_model.layers.26.input_layernorm.weight": {
    "atom_offset": 81838657,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.v_proj.input_min": {
    "atom_offset": 81838706,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.self_attn.q_norm.weight": {
    "atom_offset": 81838708,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.norm_out.weight": {
    "atom_offset": 81838717,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.517857074737549,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.post_attention_layernorm.weight": {
    "atom_offset": 81838726,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.self_attn.v_proj.weight": {
    "atom_offset": 81838751,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.05859375,
    "track": "int4"
  },
  "model.language_model.layers.17.self_attn.o_proj.weight": {
    "atom_offset": 81841824,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0474330373108387,
    "track": "int4"
  },
  "model.language_model.layers.19.post_per_layer_input_norm.weight": {
    "atom_offset": 81866401,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.down_proj.output_max": {
    "atom_offset": 81866450,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.q_proj.output_max": {
    "atom_offset": 81866452,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.self_attn.k_proj.weight": {
    "atom_offset": 81866454,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0524553582072258,
    "track": "int4"
  },
  "model.language_model.layers.12.post_per_layer_input_norm.weight": {
    "atom_offset": 81869527,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.self_attn.q_proj.weight": {
    "atom_offset": 81869576,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0602678582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.o_proj.linear.weight": {
    "atom_offset": 81894153,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0510602667927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.q_proj.output_max": {
    "atom_offset": 81898762,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 81898764,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.per_layer_input_gate.weight": {
    "atom_offset": 81898797,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.layer_scalar": {
    "atom_offset": 81911086,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.k_proj.output_min": {
    "atom_offset": 81911088,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.down_proj.output_max": {
    "atom_offset": 81911090,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.q_proj.output_max": {
    "atom_offset": 81911092,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 81911094,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 81911096,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.mlp.down_proj.weight": {
    "atom_offset": 81911129,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0764508917927742,
    "track": "int4"
  },
  "model.language_model.layers.30.mlp.up_proj.weight": {
    "atom_offset": 81984858,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0552455373108387,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 82132315,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.post_attention_layernorm.weight": {
    "atom_offset": 82132348,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.norm_out.weight": {
    "atom_offset": 82132373,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.8839285373687744,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.k_proj.input_max": {
    "atom_offset": 82132382,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.mlp.down_proj.weight": {
    "atom_offset": 82132384,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0764508917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.q_proj.output_max": {
    "atom_offset": 82279841,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.post_feedforward_layernorm.weight": {
    "atom_offset": 82279843,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.k_proj.input_max": {
    "atom_offset": 82279892,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_end.output_max": {
    "atom_offset": 82279894,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.o_proj.linear.weight": {
    "atom_offset": 82279896,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0446428582072258,
    "track": "int4"
  },
  "model.language_model.layers.10.per_layer_input_gate.weight": {
    "atom_offset": 82284505,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.up_proj.linear.weight": {
    "atom_offset": 82296794,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0465959832072258,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_end.output_min": {
    "atom_offset": 82315227,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.o_proj.output_max": {
    "atom_offset": 82315229,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.o_proj.linear.weight": {
    "atom_offset": 82315231,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0393415167927742,
    "track": "int4"
  },
  "model.language_model.layers.27.mlp.gate_proj.weight": {
    "atom_offset": 82319840,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0770089253783226,
    "track": "int4"
  },
  "model.language_model.layers.14.self_attn.k_proj.weight": {
    "atom_offset": 82467297,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.0334821417927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.q_proj.output_min": {
    "atom_offset": 82473442,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.per_layer_input_gate.weight": {
    "atom_offset": 82473444,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.gate_proj.input_max": {
    "atom_offset": 82485733,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.v_proj.output_min": {
    "atom_offset": 82485735,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.self_attn.q_proj.weight": {
    "atom_offset": 82485737,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0697544664144516,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.up_proj.linear.weight": {
    "atom_offset": 82510314,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0426897332072258,
    "track": "int4"
  },
  "model.language_model.layers.9.per_layer_projection.weight": {
    "atom_offset": 82528747,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.pre_feedforward_layernorm.weight": {
    "atom_offset": 82541036,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.post.input_max": {
    "atom_offset": 82541085,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.down_proj.output_min": {
    "atom_offset": 82541087,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.v_proj.input_min": {
    "atom_offset": 82541089,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.per_layer_projection.weight": {
    "atom_offset": 82541091,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.down_proj.output_max": {
    "atom_offset": 82553380,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.mlp.down_proj.weight": {
    "atom_offset": 82553382,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0703125,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.q_proj.input_min": {
    "atom_offset": 82700839,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.down_proj.linear.weight": {
    "atom_offset": 82700841,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0326450876891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.q_proj.input_max": {
    "atom_offset": 82719274,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 82719276,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.input_layernorm.weight": {
    "atom_offset": 82719278,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 82719327,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 82719329,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.per_dim_scale": {
    "atom_offset": 82719331,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 82719336,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_end.output_max": {
    "atom_offset": 82719338,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 82719340,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_end.input_min": {
    "atom_offset": 82719342,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.post.input_min": {
    "atom_offset": 82719344,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 82719346,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.v_proj.input_max": {
    "atom_offset": 82719348,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 82719350,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.pre_feedforward_layernorm.weight": {
    "atom_offset": 82719352,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.gate_proj.output_min": {
    "atom_offset": 82719401,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 82719403,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.k_proj.input_max": {
    "atom_offset": 82719405,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.q_proj.input_max": {
    "atom_offset": 82719407,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.gate_proj.input_max": {
    "atom_offset": 82719409,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_start.input_max": {
    "atom_offset": 82719411,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.post_feedforward_layernorm.weight": {
    "atom_offset": 82719413,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.per_layer_input_gate.weight": {
    "atom_offset": 82719462,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.k_proj.input_max": {
    "atom_offset": 82731751,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.self_attn.o_proj.weight": {
    "atom_offset": 82731753,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0870535746216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.k_norm.weight": {
    "atom_offset": 82756330,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.o_proj.output_max": {
    "atom_offset": 82756333,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.self_attn.q_proj.weight": {
    "atom_offset": 82756335,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0647321417927742,
    "track": "int4"
  },
  "model.language_model.layers.1.per_layer_projection.weight": {
    "atom_offset": 82780912,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.k_proj.input_min": {
    "atom_offset": 82793201,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.o_proj.output_min": {
    "atom_offset": 82793203,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.q_proj.input_max": {
    "atom_offset": 82793205,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.self_attn.v_proj.weight": {
    "atom_offset": 82793207,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0625,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.v_proj.output_min": {
    "atom_offset": 82796280,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.q_norm.weight": {
    "atom_offset": 82796282,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 82796285,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.self_attn.k_norm.weight": {
    "atom_offset": 82796318,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 82796335,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01604352705180645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.o_proj.output_min": {
    "atom_offset": 82829104,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 82829106,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.per_layer_projection.weight": {
    "atom_offset": 82829108,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.o_proj.output_min": {
    "atom_offset": 82841397,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.post_feedforward_layernorm.weight": {
    "atom_offset": 82841399,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_end.linear.weight": {
    "atom_offset": 82841448,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01729910634458065,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.down_proj.input_min": {
    "atom_offset": 82849641,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.self_attn.q_norm.weight": {
    "atom_offset": 82849643,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.post_attention_layernorm.weight": {
    "atom_offset": 82849652,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.k_proj.input_max": {
    "atom_offset": 82849701,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.k_proj.output_min": {
    "atom_offset": 82849703,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.v_proj.linear.weight": {
    "atom_offset": 82849705,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0196707583963871,
    "track": "int4"
  },
  "model.language_model.layers.3.self_attn.k_norm.weight": {
    "atom_offset": 82857898,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.o_proj.output_min": {
    "atom_offset": 82857907,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.down_proj.input_min": {
    "atom_offset": 82857909,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.down_proj.input_min": {
    "atom_offset": 82857911,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 82857913,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.down_proj.linear.weight": {
    "atom_offset": 82857915,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0325055792927742,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 82876348,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.embed_vision.embedding_projection.weight": {
    "atom_offset": 82876381,
    "byte_length": 589888,
    "num_atoms": 9217,
    "scale": 0.0948660746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.v_proj.output_min": {
    "atom_offset": 82885598,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.k_proj.input_max": {
    "atom_offset": 82885600,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 82885602,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_end.output_min": {
    "atom_offset": 82885635,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.up_proj.output_min": {
    "atom_offset": 82885637,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.post_attention_layernorm.weight": {
    "atom_offset": 82885639,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.layer_scalar": {
    "atom_offset": 82885664,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.self_attn.k_proj.weight": {
    "atom_offset": 82885666,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00798688642680645,
    "track": "int4"
  },
  "model.language_model.layers.24.input_layernorm.weight": {
    "atom_offset": 82888739,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.self_attn.v_proj.weight": {
    "atom_offset": 82888788,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.007952009327709675,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 82891861,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 82891894,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.per_dim_scale": {
    "atom_offset": 82891927,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.post_attention_layernorm.weight": {
    "atom_offset": 82891932,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.self_attn.q_proj.weight": {
    "atom_offset": 82891981,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0736607164144516,
    "track": "int4"
  },
  "model.language_model.layers.5.per_layer_input_gate.weight": {
    "atom_offset": 82941134,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.up_proj.output_max": {
    "atom_offset": 82953423,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.layer_scalar": {
    "atom_offset": 82953425,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 82953427,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.self_attn.q_proj.weight": {
    "atom_offset": 82953429,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0697544664144516,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.post_attention_layernorm.weight": {
    "atom_offset": 82978006,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.q_norm.weight": {
    "atom_offset": 82978031,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.v_proj.input_max": {
    "atom_offset": 82978034,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.post_feedforward_layernorm.weight": {
    "atom_offset": 82978036,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.k_proj.output_max": {
    "atom_offset": 82978085,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_end.input_min": {
    "atom_offset": 82978087,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.o_proj.input_max": {
    "atom_offset": 82978089,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.input_layernorm.weight": {
    "atom_offset": 82978091,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.per_layer_projection.weight": {
    "atom_offset": 82978116,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.self_attn.v_proj.weight": {
    "atom_offset": 82990405,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00871930830180645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.input_layernorm.weight": {
    "atom_offset": 82993478,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.post.input_min": {
    "atom_offset": 82993503,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.k_norm.weight": {
    "atom_offset": 82993505,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.mlp.gate_proj.weight": {
    "atom_offset": 82993508,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0982142835855484,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_start.output_max": {
    "atom_offset": 83140965,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.v_proj.output_min": {
    "atom_offset": 83140967,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_end.output_max": {
    "atom_offset": 83140969,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.v_proj.input_min": {
    "atom_offset": 83140971,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.v_proj.linear.weight": {
    "atom_offset": 83140973,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0705915167927742,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.q_proj.input_min": {
    "atom_offset": 83145582,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.up_proj.output_min": {
    "atom_offset": 83145584,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.v_proj.linear.weight": {
    "atom_offset": 83145586,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.02706473134458065,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.k_proj.output_min": {
    "atom_offset": 83150195,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.post_attention_layernorm.weight": {
    "atom_offset": 83150197,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.mlp.down_proj.weight": {
    "atom_offset": 83150222,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0825892835855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.k_proj.input_min": {
    "atom_offset": 83223951,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.post_feedforward_layernorm.weight": {
    "atom_offset": 83223953,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.q_proj.output_max": {
    "atom_offset": 83224002,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_start.input_min": {
    "atom_offset": 83224004,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.self_attn.v_proj.weight": {
    "atom_offset": 83224006,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008649553172290325,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.down_proj.linear.weight": {
    "atom_offset": 83227079,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0362723208963871,
    "track": "int4"
  },
  "model.language_model.layers.18.post_per_layer_input_norm.weight": {
    "atom_offset": 83245512,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 83245561,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.v_proj.input_max": {
    "atom_offset": 83245563,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.per_dim_scale": {
    "atom_offset": 83245565,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.up_proj.linear.weight": {
    "atom_offset": 83245570,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0438058041036129,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_start.input_min": {
    "atom_offset": 83264003,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.pre_feedforward_layernorm.weight": {
    "atom_offset": 83264005,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 83264054,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.v_proj.input_min": {
    "atom_offset": 83264087,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.self_attn.v_proj.weight": {
    "atom_offset": 83264089,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.0538504458963871,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.v_proj.input_min": {
    "atom_offset": 83270234,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_start.input_max": {
    "atom_offset": 83270236,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.down_proj.output_min": {
    "atom_offset": 83270238,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.down_proj.input_min": {
    "atom_offset": 83270240,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_start.output_min": {
    "atom_offset": 83270242,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.self_attn.q_norm.weight": {
    "atom_offset": 83270244,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_start.input_max": {
    "atom_offset": 83270253,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.k_proj.output_min": {
    "atom_offset": 83270255,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.self_attn.q_norm.weight": {
    "atom_offset": 83270257,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.post_feedforward_layernorm.weight": {
    "atom_offset": 83270274,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.mlp.up_proj.weight": {
    "atom_offset": 83270323,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0672433003783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.v_proj.linear.weight": {
    "atom_offset": 83417780,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0558035708963871,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.q_proj.output_max": {
    "atom_offset": 83422389,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.conv_norm.weight": {
    "atom_offset": 83422391,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.input_layernorm.weight": {
    "atom_offset": 83422424,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.gate_proj.output_min": {
    "atom_offset": 83422449,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.self_attn.q_norm.weight": {
    "atom_offset": 83422451,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.post_feedforward_layernorm.weight": {
    "atom_offset": 83422460,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 83422509,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.pre_feedforward_layernorm.weight": {
    "atom_offset": 83422511,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.mlp.down_proj.weight": {
    "atom_offset": 83422560,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0613839291036129,
    "track": "int4"
  },
  "model.language_model.layers.1.per_layer_input_gate.weight": {
    "atom_offset": 83496289,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 83508578,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.5714285969734192,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.v_proj.input_max": {
    "atom_offset": 83508619,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 83508621,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.014439173974096775,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.down_proj.linear.weight": {
    "atom_offset": 83541390,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.02692522294819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.k_norm.weight": {
    "atom_offset": 83559823,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.post_attention_layernorm.weight": {
    "atom_offset": 83559826,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.self_attn.o_proj.weight": {
    "atom_offset": 83559875,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0959821417927742,
    "track": "int4"
  },
  "model.language_model.layers.30.post_attention_layernorm.weight": {
    "atom_offset": 83584452,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.relative_k_proj.weight": {
    "atom_offset": 83584501,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0352957583963871,
    "track": "int4"
  },
  "model.language_model.layers.2.mlp.down_proj.weight": {
    "atom_offset": 83592694,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.07421875,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.v_proj.input_max": {
    "atom_offset": 83666423,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.o_proj.input_min": {
    "atom_offset": 83666425,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.per_layer_input_gate.weight": {
    "atom_offset": 83666427,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_start.output_min": {
    "atom_offset": 83678716,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.mlp.gate_proj.weight": {
    "atom_offset": 83678718,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.1160714253783226,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 83752447,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_end.input_min": {
    "atom_offset": 83752480,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.subsample_conv_projection.layer0.norm.weight": {
    "atom_offset": 83752482,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.q_proj.output_min": {
    "atom_offset": 83752487,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.gate_proj.output_min": {
    "atom_offset": 83752489,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.gate_proj.output_max": {
    "atom_offset": 83752491,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.self_attn.q_proj.weight": {
    "atom_offset": 83752493,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0764508917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 83777070,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.013811384327709675,
    "track": "int4"
  },
  "model.language_model.embed_tokens.weight": {
    "atom_offset": 83809839,
    "byte_length": 805306432,
    "num_atoms": 12582913,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.o_proj.output_min": {
    "atom_offset": 96392752,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.o_proj.output_max": {
    "atom_offset": 96392754,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.output_proj.weight": {
    "atom_offset": 96392756,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 0.0362723208963871,
    "track": "int4"
  },
  "model.language_model.layers.21.mlp.gate_proj.weight": {
    "atom_offset": 96405045,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0915178582072258,
    "track": "int4"
  },
  "model.language_model.layers.3.post_feedforward_layernorm.weight": {
    "atom_offset": 96552502,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.q_proj.linear.weight": {
    "atom_offset": 96552551,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0438058041036129,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 96557160,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 96557162,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.k_proj.linear.weight": {
    "atom_offset": 96557164,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.013811384327709675,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.q_proj.output_min": {
    "atom_offset": 96565357,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_start.linear.weight": {
    "atom_offset": 96565359,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.02273995615541935,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.k_proj.input_min": {
    "atom_offset": 96581744,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.k_proj.output_max": {
    "atom_offset": 96581746,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 96581748,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.norm_out.weight": {
    "atom_offset": 96581750,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.875,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.q_proj.input_min": {
    "atom_offset": 96581759,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 96581761,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.012346540577709675,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.post_feedforward_layernorm.weight": {
    "atom_offset": 96614530,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.k_proj.linear.weight": {
    "atom_offset": 96614555,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.012834821827709675,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.k_proj.output_max": {
    "atom_offset": 96622748,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.v_proj.output_max": {
    "atom_offset": 96622750,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.q_proj.input_min": {
    "atom_offset": 96622752,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.per_layer_projection.weight": {
    "atom_offset": 96622754,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.post_per_layer_input_norm.weight": {
    "atom_offset": 96635043,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.q_proj.linear.weight": {
    "atom_offset": 96635092,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02176339365541935,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_start.linear.weight": {
    "atom_offset": 96643285,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.01981026865541935,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.v_proj.output_min": {
    "atom_offset": 96659670,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.post_attention_layernorm.weight": {
    "atom_offset": 96659672,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.post.output_min": {
    "atom_offset": 96659721,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.mlp.up_proj.weight": {
    "atom_offset": 96659723,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0661272332072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.gate_proj.output_min": {
    "atom_offset": 96733452,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.up_proj.output_min": {
    "atom_offset": 96733454,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.v_proj.output_max": {
    "atom_offset": 96733456,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.post.input_max": {
    "atom_offset": 96733458,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.self_attn.k_norm.weight": {
    "atom_offset": 96733460,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.post.input_max": {
    "atom_offset": 96733469,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.gate_proj.input_min": {
    "atom_offset": 96733471,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.self_attn.q_proj.weight": {
    "atom_offset": 96733473,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.056640625,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 96758050,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.012974330224096775,
    "track": "int4"
  },
  "model.language_model.layers.16.self_attn.q_norm.weight": {
    "atom_offset": 96790819,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.self_attn.o_proj.weight": {
    "atom_offset": 96790828,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0948660746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 96815405,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01360212080180645,
    "track": "int4"
  },
  "model.language_model.layers.7.layer_scalar": {
    "atom_offset": 96848174,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_1.linear.weight": {
    "atom_offset": 96848176,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01018415205180645,
    "track": "int4"
  },
  "model.language_model.layers.8.mlp.gate_proj.weight": {
    "atom_offset": 96880945,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.1121651753783226,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.relative_k_proj.weight": {
    "atom_offset": 96954674,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0333426333963871,
    "track": "int4"
  },
  "model.language_model.layers.8.per_layer_projection.weight": {
    "atom_offset": 96962867,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 96975156,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.q_proj.output_min": {
    "atom_offset": 96975158,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.self_attn.v_proj.weight": {
    "atom_offset": 96975160,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00788225419819355,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 96978233,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.013811384327709675,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.q_proj.linear.weight": {
    "atom_offset": 97011002,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0311104916036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.up_proj.output_max": {
    "atom_offset": 97019195,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.gate_proj.output_max": {
    "atom_offset": 97019197,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 97019199,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.post_per_layer_input_norm.weight": {
    "atom_offset": 97019201,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.self_attn.o_proj.weight": {
    "atom_offset": 97019250,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.language_model.layers.26.mlp.gate_proj.weight": {
    "atom_offset": 97043827,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0892857164144516,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 97191284,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.layer_scalar": {
    "atom_offset": 97191317,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 97191319,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.o_proj.input_max": {
    "atom_offset": 97191321,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.k_proj.linear.weight": {
    "atom_offset": 97191323,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0162527896463871,
    "track": "int4"
  },
  "model.audio_tower.layers.2.norm_out.weight": {
    "atom_offset": 97199516,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.9553571939468384,
    "track": "int4"
  },
  "model.language_model.layers.1.self_attn.q_proj.weight": {
    "atom_offset": 97199525,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.078125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.down_proj.input_min": {
    "atom_offset": 97224102,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.v_proj.output_min": {
    "atom_offset": 97224104,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.mlp.gate_proj.weight": {
    "atom_offset": 97224106,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0881696417927742,
    "track": "int4"
  },
  "model.language_model.layers.7.post_per_layer_input_norm.weight": {
    "atom_offset": 97371563,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.q_norm.weight": {
    "atom_offset": 97371612,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.self_attn.v_proj.weight": {
    "atom_offset": 97371615,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008335658349096775,
    "track": "int4"
  },
  "model.language_model.layers.31.self_attn.k_proj.weight": {
    "atom_offset": 97377760,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00861467607319355,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.q_proj.output_min": {
    "atom_offset": 97380833,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 97380835,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 97380837,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.010044642724096775,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 97413606,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 97413639,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 97413641,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.self_attn.q_norm.weight": {
    "atom_offset": 97413674,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.relative_k_proj.weight": {
    "atom_offset": 97413683,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0265066958963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.k_proj.input_max": {
    "atom_offset": 97421876,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_start.input_min": {
    "atom_offset": 97421878,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.down_proj.input_max": {
    "atom_offset": 97421880,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.k_proj.input_max": {
    "atom_offset": 97421882,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.post_per_layer_input_norm.weight": {
    "atom_offset": 97421884,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.mlp.down_proj.weight": {
    "atom_offset": 97421933,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0926339253783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.gate_proj.linear.weight": {
    "atom_offset": 97569390,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0608258917927742,
    "track": "int4"
  },
  "model.language_model.layers.21.layer_scalar": {
    "atom_offset": 97587823,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.self_attn.v_proj.weight": {
    "atom_offset": 97587825,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0571986623108387,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 97590898,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.down_proj.output_min": {
    "atom_offset": 97590900,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 97590902,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.per_layer_input_gate.weight": {
    "atom_offset": 97590904,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.o_proj.output_max": {
    "atom_offset": 97603193,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.gate_proj.linear.weight": {
    "atom_offset": 97603195,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0474330373108387,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 97621628,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.011509486474096775,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 97654397,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.self_attn.q_norm.weight": {
    "atom_offset": 97654399,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 97654408,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.k_norm.weight": {
    "atom_offset": 97654410,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.per_dim_scale": {
    "atom_offset": 97654413,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.per_layer_input_gate.weight": {
    "atom_offset": 97654418,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 97666707,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.self_attn.q_proj.weight": {
    "atom_offset": 97666709,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0633370503783226,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.post.output_max": {
    "atom_offset": 97691286,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 97691288,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01067243330180645,
    "track": "int4"
  },
  "model.language_model.layers.31.mlp.up_proj.weight": {
    "atom_offset": 97724057,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0541294626891613,
    "track": "int4"
  },
  "model.language_model.per_layer_projection_norm.weight": {
    "atom_offset": 97871514,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.mlp.gate_proj.weight": {
    "atom_offset": 97871523,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0697544664144516,
    "track": "int4"
  },
  "model.language_model.layers.31.layer_scalar": {
    "atom_offset": 98018980,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 98018982,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.norm_pre_attn.weight": {
    "atom_offset": 98018984,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.892857074737549,
    "track": "int4"
  },
  "model.language_model.layers.3.per_layer_projection.weight": {
    "atom_offset": 98018993,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 98031282,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.v_proj.input_max": {
    "atom_offset": 98031315,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.k_proj.output_max": {
    "atom_offset": 98031317,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.q_proj.input_max": {
    "atom_offset": 98031319,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_start.linear.weight": {
    "atom_offset": 98031321,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0301339291036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.o_proj.output_max": {
    "atom_offset": 98047706,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.q_proj.input_max": {
    "atom_offset": 98047708,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.self_attn.k_norm.weight": {
    "atom_offset": 98047710,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 98047727,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.self_attn.k_norm.weight": {
    "atom_offset": 98047729,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 98047746,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.mlp.up_proj.weight": {
    "atom_offset": 98047748,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0580357126891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.up_proj.output_max": {
    "atom_offset": 98195205,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.post_feedforward_layernorm.weight": {
    "atom_offset": 98195207,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_end.linear.weight": {
    "atom_offset": 98195256,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01590401865541935,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.post.output_min": {
    "atom_offset": 98203449,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 98203451,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.pre_feedforward_layernorm.weight": {
    "atom_offset": 98203453,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.post_per_layer_input_norm.weight": {
    "atom_offset": 98203502,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.mlp.gate_proj.weight": {
    "atom_offset": 98203551,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.1015625,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 98277280,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_end.linear.weight": {
    "atom_offset": 98277282,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01813616044819355,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 98285475,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.layer_scalar": {
    "atom_offset": 98285477,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.q_proj.input_max": {
    "atom_offset": 98285479,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.k_proj.input_min": {
    "atom_offset": 98285481,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.down_proj.output_max": {
    "atom_offset": 98285483,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.mlp.up_proj.weight": {
    "atom_offset": 98285485,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0842633917927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.gate_proj.input_min": {
    "atom_offset": 98432942,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.self_attn.k_norm.weight": {
    "atom_offset": 98432944,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.self_attn.q_norm.weight": {
    "atom_offset": 98432953,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.v_proj.output_max": {
    "atom_offset": 98432970,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.q_proj.input_min": {
    "atom_offset": 98432972,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.k_proj.output_max": {
    "atom_offset": 98432974,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.gate_proj.linear.weight": {
    "atom_offset": 98432976,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0424107126891613,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.k_proj.input_max": {
    "atom_offset": 98451409,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.k_proj.input_min": {
    "atom_offset": 98451411,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.self_attn.k_proj.weight": {
    "atom_offset": 98451413,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0577566958963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.gate_proj.output_min": {
    "atom_offset": 98454486,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 98454488,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.self_attn.k_norm.weight": {
    "atom_offset": 98454490,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.post.linear.weight": {
    "atom_offset": 98454499,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.017578125,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.post.input_min": {
    "atom_offset": 98462692,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.up_proj.output_max": {
    "atom_offset": 98462694,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.v_proj.linear.weight": {
    "atom_offset": 98462696,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0396205373108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.post_feedforward_layernorm.weight": {
    "atom_offset": 98467305,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 98467330,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.gate_proj.output_min": {
    "atom_offset": 98467363,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.post_attention_layernorm.weight": {
    "atom_offset": 98467365,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 98467414,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 98467416,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.subsample_conv_projection.layer1.conv.weight": {
    "atom_offset": 98467418,
    "byte_length": 18496,
    "num_atoms": 289,
    "scale": 0.0407366082072258,
    "track": "int4"
  },
  "model.language_model.layers.34.per_layer_projection.weight": {
    "atom_offset": 98467707,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.mlp.up_proj.weight": {
    "atom_offset": 98479996,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0580357126891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.gate_proj.input_min": {
    "atom_offset": 98553725,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.gate_proj.linear.weight": {
    "atom_offset": 98553727,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0438058041036129,
    "track": "int4"
  },
  "model.language_model.layers.33.input_layernorm.weight": {
    "atom_offset": 98572160,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.input_layernorm.weight": {
    "atom_offset": 98572209,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.per_layer_projection.weight": {
    "atom_offset": 98572258,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 98584547,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.3325892984867096,
    "track": "int4"
  },
  "model.language_model.layers.25.self_attn.v_proj.weight": {
    "atom_offset": 98584588,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00837053544819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.gate_proj.input_max": {
    "atom_offset": 98587661,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.conv_norm.weight": {
    "atom_offset": 98587663,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.per_layer_projection.weight": {
    "atom_offset": 98587696,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.per_layer_input_gate.weight": {
    "atom_offset": 98599985,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.q_norm.weight": {
    "atom_offset": 98612274,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.post_per_layer_input_norm.weight": {
    "atom_offset": 98612277,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.o_proj.output_max": {
    "atom_offset": 98612326,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.v_proj.linear.weight": {
    "atom_offset": 98612328,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01213727705180645,
    "track": "int4"
  },
  "model.language_model.layers.22.layer_scalar": {
    "atom_offset": 98620521,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.gate_proj.linear.weight": {
    "atom_offset": 98620523,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0465959832072258,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.q_proj.input_min": {
    "atom_offset": 98638956,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.post.output_min": {
    "atom_offset": 98638958,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.q_proj.output_max": {
    "atom_offset": 98638960,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.gate_proj.input_min": {
    "atom_offset": 98638962,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.k_proj.input_max": {
    "atom_offset": 98638964,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.k_proj.output_max": {
    "atom_offset": 98638966,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.k_proj.linear.weight": {
    "atom_offset": 98638968,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0184151791036129,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.q_proj.linear.weight": {
    "atom_offset": 98647161,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.011858259327709675,
    "track": "int4"
  },
  "model.audio_tower.layers.10.norm_out.weight": {
    "atom_offset": 98655354,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.9642856121063232,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.q_proj.linear.weight": {
    "atom_offset": 98655363,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01220703125,
    "track": "int4"
  },
  "model.language_model.layers.11.self_attn.k_proj.weight": {
    "atom_offset": 98663556,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.046875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.v_proj.output_max": {
    "atom_offset": 98666629,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.q_proj.output_max": {
    "atom_offset": 98666631,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.v_proj.linear.weight": {
    "atom_offset": 98666633,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0421316958963871,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.v_proj.output_max": {
    "atom_offset": 98671242,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.k_proj.input_max": {
    "atom_offset": 98671244,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.layer_scalar": {
    "atom_offset": 98671246,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.down_proj.input_max": {
    "atom_offset": 98671248,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 98671250,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.self_attn.o_proj.weight": {
    "atom_offset": 98671283,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0775669664144516,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.conv_norm.weight": {
    "atom_offset": 98695860,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.down_proj.output_min": {
    "atom_offset": 98695893,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.mlp.up_proj.weight": {
    "atom_offset": 98695895,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1026785746216774,
    "track": "int4"
  },
  "model.language_model.layers.23.self_attn.q_norm.weight": {
    "atom_offset": 98843352,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.q_proj.output_max": {
    "atom_offset": 98843361,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.input_layernorm.weight": {
    "atom_offset": 98843363,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.o_proj.input_min": {
    "atom_offset": 98843412,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 98843414,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 98843447,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.self_attn.k_proj.weight": {
    "atom_offset": 98843449,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.048828125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.down_proj.input_max": {
    "atom_offset": 98846522,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.gate_proj.output_max": {
    "atom_offset": 98846524,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_end.input_min": {
    "atom_offset": 98846526,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.self_attn.k_proj.weight": {
    "atom_offset": 98846528,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008405412547290325,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.v_proj.output_min": {
    "atom_offset": 98849601,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.post_feedforward_layernorm.weight": {
    "atom_offset": 98849603,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.up_proj.input_max": {
    "atom_offset": 98849652,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.post_feedforward_layernorm.weight": {
    "atom_offset": 98849654,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.mlp.up_proj.weight": {
    "atom_offset": 98849703,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0954241082072258,
    "track": "int4"
  },
  "model.language_model.layers.9.post_per_layer_input_norm.weight": {
    "atom_offset": 98997160,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.mlp.down_proj.weight": {
    "atom_offset": 98997209,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0954241082072258,
    "track": "int4"
  },
  "model.language_model.layers.14.layer_scalar": {
    "atom_offset": 99070938,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 99070940,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.self_attn.k_proj.weight": {
    "atom_offset": 99070973,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00812639482319355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.v_proj.linear.weight": {
    "atom_offset": 99074046,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0555245541036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.up_proj.input_max": {
    "atom_offset": 99078655,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.k_proj.output_max": {
    "atom_offset": 99078657,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.down_proj.output_min": {
    "atom_offset": 99078659,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.k_proj.output_min": {
    "atom_offset": 99078661,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 99078663,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.k_proj.linear.weight": {
    "atom_offset": 99078696,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0655691996216774,
    "track": "int4"
  },
  "model.language_model.layers.33.post_per_layer_input_norm.weight": {
    "atom_offset": 99083305,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.q_proj.output_min": {
    "atom_offset": 99083354,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.per_layer_projection.weight": {
    "atom_offset": 99083356,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.self_attn.v_proj.weight": {
    "atom_offset": 99095645,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008684431202709675,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.q_proj.input_min": {
    "atom_offset": 99098718,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.post.input_max": {
    "atom_offset": 99098720,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.gate_proj.output_min": {
    "atom_offset": 99098722,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.v_proj.linear.weight": {
    "atom_offset": 99098724,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0224609375,
    "track": "int4"
  },
  "model.language_model.layers.19.self_attn.q_proj.weight": {
    "atom_offset": 99106917,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0987723246216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.k_proj.linear.weight": {
    "atom_offset": 99156070,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0594308041036129,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 99160679,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 99160681,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01374162919819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.pre_feedforward_layernorm.weight": {
    "atom_offset": 99193450,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 99193475,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_end.input_max": {
    "atom_offset": 99193477,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.up_proj.linear.weight": {
    "atom_offset": 99193479,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0435267873108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.down_proj.linear.weight": {
    "atom_offset": 99211912,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0224609375,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.q_proj.input_min": {
    "atom_offset": 99230345,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.self_attn.q_proj.weight": {
    "atom_offset": 99230347,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0719866082072258,
    "track": "int4"
  },
  "model.language_model.layers.3.self_attn.o_proj.weight": {
    "atom_offset": 99254924,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0943080335855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.o_proj.linear.weight": {
    "atom_offset": 99279501,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.05859375,
    "track": "int4"
  },
  "model.language_model.layers.9.mlp.down_proj.weight": {
    "atom_offset": 99284110,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0638950914144516,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.q_norm.weight": {
    "atom_offset": 99357839,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_start.input_min": {
    "atom_offset": 99357842,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.norm_out.weight": {
    "atom_offset": 99357844,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 2.8035714626312256,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.k_norm.weight": {
    "atom_offset": 99357853,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 99357856,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.o_proj.linear.weight": {
    "atom_offset": 99357858,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0675223246216774,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_end.output_min": {
    "atom_offset": 99362467,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.v_proj.output_min": {
    "atom_offset": 99362469,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.up_proj.input_min": {
    "atom_offset": 99362471,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.up_proj.output_max": {
    "atom_offset": 99362473,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 99362475,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 99362477,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.layer_scalar": {
    "atom_offset": 99362479,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.q_proj.linear.weight": {
    "atom_offset": 99362481,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0775669664144516,
    "track": "int4"
  },
  "model.vision_tower.patch_embedder.input_proj.weight": {
    "atom_offset": 99367090,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0482700876891613,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 99371699,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.q_proj.linear.weight": {
    "atom_offset": 99371701,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.06640625,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.k_proj.input_min": {
    "atom_offset": 99376310,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.self_attn.v_proj.weight": {
    "atom_offset": 99376312,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0546875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.k_proj.linear.weight": {
    "atom_offset": 99379385,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0594308041036129,
    "track": "int4"
  },
  "model.audio_tower.layers.1.norm_post_attn.weight": {
    "atom_offset": 99383994,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.5267857313156128,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.o_proj.linear.weight": {
    "atom_offset": 99384003,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0499441958963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.o_proj.output_min": {
    "atom_offset": 99388612,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 99388614,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.conv_norm.weight": {
    "atom_offset": 99388616,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.k_proj.output_min": {
    "atom_offset": 99388649,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_start.linear.weight": {
    "atom_offset": 99388651,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0203683041036129,
    "track": "int4"
  },
  "model.language_model.layers.22.mlp.gate_proj.weight": {
    "atom_offset": 99405036,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.post_attention_layernorm.weight": {
    "atom_offset": 99552493,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.q_proj.output_min": {
    "atom_offset": 99552518,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.self_attn.o_proj.weight": {
    "atom_offset": 99552520,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.064453125,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 99601673,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.up_proj.input_max": {
    "atom_offset": 99601675,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.self_attn.o_proj.weight": {
    "atom_offset": 99601677,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0652901753783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.post_feedforward_layernorm.weight": {
    "atom_offset": 99626254,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 99626279,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 99626281,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.conv_norm.weight": {
    "atom_offset": 99626314,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_1.input_min": {
    "atom_offset": 99626347,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.self_attn.q_norm.weight": {
    "atom_offset": 99626349,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.q_proj.linear.weight": {
    "atom_offset": 99626358,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0577566958963871,
    "track": "int4"
  },
  "model.language_model.layers.32.self_attn.q_proj.weight": {
    "atom_offset": 99630967,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0613839291036129,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.k_proj.input_min": {
    "atom_offset": 99655544,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 99655546,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.o_proj.linear.weight": {
    "atom_offset": 99655548,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0502232126891613,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 99660157,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.mlp.up_proj.weight": {
    "atom_offset": 99660159,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0797991082072258,
    "track": "int4"
  },
  "model.language_model.layers.7.per_layer_projection.weight": {
    "atom_offset": 99807616,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.k_proj.output_max": {
    "atom_offset": 99819905,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_end.input_max": {
    "atom_offset": 99819907,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.q_proj.output_min": {
    "atom_offset": 99819909,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.self_attn.o_proj.weight": {
    "atom_offset": 99819911,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0792410746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.relative_k_proj.weight": {
    "atom_offset": 99844488,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0424107126891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.up_proj.output_min": {
    "atom_offset": 99852681,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.per_layer_input_gate.weight": {
    "atom_offset": 99852683,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.q_proj.input_min": {
    "atom_offset": 99864972,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.down_proj.input_max": {
    "atom_offset": 99864974,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.mlp.down_proj.weight": {
    "atom_offset": 99864976,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0764508917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.post.output_max": {
    "atom_offset": 100012433,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.v_proj.output_min": {
    "atom_offset": 100012435,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.self_attn.o_proj.weight": {
    "atom_offset": 100012437,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0602678582072258,
    "track": "int4"
  },
  "model.language_model.layers.12.mlp.up_proj.weight": {
    "atom_offset": 100037014,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0725446417927742,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.k_proj.input_max": {
    "atom_offset": 100110743,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.post_attention_layernorm.weight": {
    "atom_offset": 100110745,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.down_proj.input_max": {
    "atom_offset": 100110770,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.self_attn.v_proj.weight": {
    "atom_offset": 100110772,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008544921875,
    "track": "int4"
  },
  "model.language_model.layers.4.pre_feedforward_layernorm.weight": {
    "atom_offset": 100116917,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.down_proj.linear.weight": {
    "atom_offset": 100116966,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.02790178544819355,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 100135399,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_start.linear.weight": {
    "atom_offset": 100135401,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.01953125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.v_proj.input_min": {
    "atom_offset": 100151786,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.q_proj.input_max": {
    "atom_offset": 100151788,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.down_proj.input_max": {
    "atom_offset": 100151790,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.self_attn.k_proj.weight": {
    "atom_offset": 100151792,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00871930830180645,
    "track": "int4"
  },
  "model.language_model.layers.8.per_layer_input_gate.weight": {
    "atom_offset": 100154865,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_start.input_min": {
    "atom_offset": 100167154,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.q_proj.linear.weight": {
    "atom_offset": 100167156,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0502232126891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.k_proj.input_max": {
    "atom_offset": 100171765,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 100171767,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.013950892724096775,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.v_proj.linear.weight": {
    "atom_offset": 100204536,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.010881696827709675,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 100212729,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.v_proj.output_min": {
    "atom_offset": 100212731,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 100212733,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_end.input_min": {
    "atom_offset": 100212766,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.gate_proj.input_max": {
    "atom_offset": 100212768,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 100212770,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.input_layernorm.weight": {
    "atom_offset": 100212803,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.mlp.up_proj.weight": {
    "atom_offset": 100212852,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1171875,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.post.linear.weight": {
    "atom_offset": 100360309,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01911272294819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.post_feedforward_layernorm.weight": {
    "atom_offset": 100368502,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_end.input_min": {
    "atom_offset": 100368527,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.mlp.down_proj.weight": {
    "atom_offset": 100368529,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.language_model.layers.10.self_attn.q_proj.weight": {
    "atom_offset": 100515986,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0747767835855484,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 100540563,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 100540596,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.down_proj.linear.weight": {
    "atom_offset": 100540598,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.02762276865541935,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.gate_proj.output_min": {
    "atom_offset": 100559031,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.k_proj.linear.weight": {
    "atom_offset": 100559033,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0560825876891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.k_proj.input_min": {
    "atom_offset": 100563642,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.k_proj.linear.weight": {
    "atom_offset": 100563644,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0167410708963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.pre_feedforward_layernorm.weight": {
    "atom_offset": 100571837,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.pre_feedforward_layernorm.weight": {
    "atom_offset": 100571862,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.mlp.gate_proj.weight": {
    "atom_offset": 100571911,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.109375,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.v_proj.output_min": {
    "atom_offset": 100719368,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.post.output_max": {
    "atom_offset": 100719370,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.self_attn.q_norm.weight": {
    "atom_offset": 100719372,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.down_proj.input_min": {
    "atom_offset": 100719381,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.post_feedforward_layernorm.weight": {
    "atom_offset": 100719383,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.pre_feedforward_layernorm.weight": {
    "atom_offset": 100719432,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.down_proj.input_max": {
    "atom_offset": 100719481,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.layer_scalar": {
    "atom_offset": 100719483,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.gate_proj.output_max": {
    "atom_offset": 100719485,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.self_attn.k_proj.weight": {
    "atom_offset": 100719487,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008161271922290325,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.post.input_min": {
    "atom_offset": 100722560,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.v_proj.output_min": {
    "atom_offset": 100722562,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.per_dim_scale": {
    "atom_offset": 100722564,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_start.output_min": {
    "atom_offset": 100722569,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.self_attn.k_proj.weight": {
    "atom_offset": 100722571,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00837053544819355,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.relative_k_proj.weight": {
    "atom_offset": 100725644,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0797991082072258,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 100733837,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.per_dim_scale": {
    "atom_offset": 100733839,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.mlp.up_proj.weight": {
    "atom_offset": 100733844,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0954241082072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.up_proj.output_min": {
    "atom_offset": 100807573,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 100807575,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 100807608,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 100807641,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 100807643,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.per_dim_scale": {
    "atom_offset": 100807645,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.v_proj.output_max": {
    "atom_offset": 100807650,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.post_attention_layernorm.weight": {
    "atom_offset": 100807652,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.self_attn.k_proj.weight": {
    "atom_offset": 100807677,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0502232126891613,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 100810750,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.self_attn.o_proj.weight": {
    "atom_offset": 100810752,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0825892835855484,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 100835329,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 100835362,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 100835364,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.q_proj.input_min": {
    "atom_offset": 100835366,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 100835368,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.009556361474096775,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.v_proj.input_min": {
    "atom_offset": 100868137,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.norm_pre_attn.weight": {
    "atom_offset": 100868139,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.1785712242126465,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.up_proj.input_min": {
    "atom_offset": 100868148,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.q_proj.input_max": {
    "atom_offset": 100868150,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.norm_pre_attn.weight": {
    "atom_offset": 100868152,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 5.5,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.v_proj.linear.weight": {
    "atom_offset": 100868161,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02580915205180645,
    "track": "int4"
  },
  "model.language_model.layers.30.self_attn.q_proj.weight": {
    "atom_offset": 100876354,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0616629458963871,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.q_proj.linear.weight": {
    "atom_offset": 100900931,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01611328125,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.post.input_min": {
    "atom_offset": 100909124,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.q_proj.output_max": {
    "atom_offset": 100909126,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.v_proj.input_max": {
    "atom_offset": 100909128,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.post.output_max": {
    "atom_offset": 100909130,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.v_proj.input_min": {
    "atom_offset": 100909132,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.post.output_min": {
    "atom_offset": 100909134,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 100909136,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.gate_proj.linear.weight": {
    "atom_offset": 100909169,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0491071417927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.post_attention_layernorm.weight": {
    "atom_offset": 100927602,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.gate_proj.output_min": {
    "atom_offset": 100927627,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.o_proj.input_max": {
    "atom_offset": 100927629,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.k_proj.linear.weight": {
    "atom_offset": 100927631,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01227678544819355,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.per_dim_scale": {
    "atom_offset": 100935824,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.post_feedforward_layernorm.weight": {
    "atom_offset": 100935829,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.k_proj.input_max": {
    "atom_offset": 100935854,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.self_attn.k_norm.weight": {
    "atom_offset": 100935856,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.k_proj.output_min": {
    "atom_offset": 100935865,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.pre_feedforward_layernorm.weight": {
    "atom_offset": 100935867,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.v_proj.input_min": {
    "atom_offset": 100935916,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.up_proj.output_max": {
    "atom_offset": 100935918,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.q_proj.input_min": {
    "atom_offset": 100935920,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.post.linear.weight": {
    "atom_offset": 100935922,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0216238833963871,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 100944115,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 100944117,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.mlp.gate_proj.weight": {
    "atom_offset": 100944150,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0560825876891613,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 101017879,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.input_layernorm.weight": {
    "atom_offset": 101017881,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.post_attention_layernorm.weight": {
    "atom_offset": 101017930,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.v_proj.input_min": {
    "atom_offset": 101017979,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.mlp.down_proj.weight": {
    "atom_offset": 101017981,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1010044664144516,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.up_proj.input_min": {
    "atom_offset": 101165438,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_start.output_max": {
    "atom_offset": 101165440,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.per_layer_projection.weight": {
    "atom_offset": 101165442,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.q_proj.output_min": {
    "atom_offset": 101177731,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.input_layernorm.weight": {
    "atom_offset": 101177733,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 101177782,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.post.input_min": {
    "atom_offset": 101177815,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.self_attn.k_norm.weight": {
    "atom_offset": 101177817,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 101177826,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.q_proj.input_min": {
    "atom_offset": 101177828,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.input_layernorm.weight": {
    "atom_offset": 101177830,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_end.input_max": {
    "atom_offset": 101177855,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.per_dim_scale": {
    "atom_offset": 101177857,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.self_attn.k_proj.weight": {
    "atom_offset": 101177862,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0599888376891613,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_end.output_max": {
    "atom_offset": 101180935,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.up_proj.input_min": {
    "atom_offset": 101180937,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.down_proj.input_max": {
    "atom_offset": 101180939,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.v_proj.output_min": {
    "atom_offset": 101180941,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.gate_proj.linear.weight": {
    "atom_offset": 101180943,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0532924123108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.q_proj.output_min": {
    "atom_offset": 101199376,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_start.output_max": {
    "atom_offset": 101199378,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.input_layernorm.weight": {
    "atom_offset": 101199380,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.k_proj.linear.weight": {
    "atom_offset": 101199405,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.05078125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.o_proj.output_max": {
    "atom_offset": 101204014,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.o_proj.input_max": {
    "atom_offset": 101204016,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.pre_feedforward_layernorm.weight": {
    "atom_offset": 101204018,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.k_proj.output_max": {
    "atom_offset": 101204067,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.self_attn.v_proj.weight": {
    "atom_offset": 101204069,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0583147332072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.k_proj.output_min": {
    "atom_offset": 101207142,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.post.output_min": {
    "atom_offset": 101207144,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 101207146,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.q_proj.linear.weight": {
    "atom_offset": 101207148,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.013532365672290325,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.v_proj.input_max": {
    "atom_offset": 101215341,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.per_layer_projection.weight": {
    "atom_offset": 101215343,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.k_proj.output_min": {
    "atom_offset": 101227632,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.o_proj.input_max": {
    "atom_offset": 101227634,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.o_proj.output_min": {
    "atom_offset": 101227636,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.linear_end.linear.weight": {
    "atom_offset": 101227638,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0172293521463871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.post_feedforward_layernorm.weight": {
    "atom_offset": 101235831,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 101235856,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_end.output_max": {
    "atom_offset": 101235858,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.v_proj.output_max": {
    "atom_offset": 101235860,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.k_proj.output_max": {
    "atom_offset": 101235862,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.k_proj.output_max": {
    "atom_offset": 101235864,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.k_proj.output_max": {
    "atom_offset": 101235866,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.post_attention_layernorm.weight": {
    "atom_offset": 101235868,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.v_proj.input_max": {
    "atom_offset": 101235893,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.q_proj.output_min": {
    "atom_offset": 101235895,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.post_feedforward_layernorm.weight": {
    "atom_offset": 101235897,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.norm_post_attn.weight": {
    "atom_offset": 101235946,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.7410714626312256,
    "track": "int4"
  },
  "model.language_model.layers.16.pre_feedforward_layernorm.weight": {
    "atom_offset": 101235955,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.input_layernorm.weight": {
    "atom_offset": 101236004,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.mlp.gate_proj.weight": {
    "atom_offset": 101236053,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0775669664144516,
    "track": "int4"
  },
  "model.language_model.layers.33.self_attn.v_proj.weight": {
    "atom_offset": 101309782,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00847516767680645,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.up_proj.linear.weight": {
    "atom_offset": 101312855,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0407366082072258,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 101331288,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.v_proj.output_max": {
    "atom_offset": 101331290,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.input_layernorm.weight": {
    "atom_offset": 101331292,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.q_proj.output_max": {
    "atom_offset": 101331341,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_end.linear.weight": {
    "atom_offset": 101331343,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02204241044819355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.k_proj.input_max": {
    "atom_offset": 101339536,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.gate_proj.output_max": {
    "atom_offset": 101339538,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_end.input_min": {
    "atom_offset": 101339540,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.k_proj.input_min": {
    "atom_offset": 101339542,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.input_layernorm.weight": {
    "atom_offset": 101339544,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.per_layer_input_gate.weight": {
    "atom_offset": 101339593,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.post_feedforward_layernorm.weight": {
    "atom_offset": 101351882,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.q_proj.output_max": {
    "atom_offset": 101351931,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.norm_post_attn.weight": {
    "atom_offset": 101351933,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.1964285373687744,
    "track": "int4"
  },
  "model.language_model.layers.2.layer_scalar": {
    "atom_offset": 101351942,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.pre_feedforward_layernorm.weight": {
    "atom_offset": 101351944,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.k_proj.output_min": {
    "atom_offset": 101351969,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.self_attn.k_norm.weight": {
    "atom_offset": 101351971,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 101351988,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.gate_proj.linear.weight": {
    "atom_offset": 101352021,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0541294626891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.q_proj.input_min": {
    "atom_offset": 101370454,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.16.self_attn.q_proj.weight": {
    "atom_offset": 101370456,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0608258917927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.k_proj.input_min": {
    "atom_offset": 101395033,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.post_feedforward_layernorm.weight": {
    "atom_offset": 101395035,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.q_proj.output_min": {
    "atom_offset": 101395084,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.q_proj.input_min": {
    "atom_offset": 101395086,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.post_feedforward_layernorm.weight": {
    "atom_offset": 101395088,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 101395113,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.up_proj.output_min": {
    "atom_offset": 101395115,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.q_proj.linear.weight": {
    "atom_offset": 101395117,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0622209832072258,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_start.linear.weight": {
    "atom_offset": 101399726,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.02273995615541935,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.gate_proj.input_max": {
    "atom_offset": 101416111,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 101416113,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.mlp.down_proj.weight": {
    "atom_offset": 101416115,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1071428582072258,
    "track": "int4"
  },
  "model.language_model.layers.18.mlp.down_proj.weight": {
    "atom_offset": 101563572,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.06640625,
    "track": "int4"
  },
  "model.language_model.layers.29.pre_feedforward_layernorm.weight": {
    "atom_offset": 101711029,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.k_proj.input_min": {
    "atom_offset": 101711078,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.self_attn.v_proj.weight": {
    "atom_offset": 101711080,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0474330373108387,
    "track": "int4"
  },
  "model.language_model.layers.14.post_feedforward_layernorm.weight": {
    "atom_offset": 101714153,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.relative_k_proj.weight": {
    "atom_offset": 101714202,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0315290167927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.post_attention_layernorm.weight": {
    "atom_offset": 101722395,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.v_proj.input_max": {
    "atom_offset": 101722420,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_end.output_min": {
    "atom_offset": 101722422,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.norm_pre_attn.weight": {
    "atom_offset": 101722424,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 5.714285850524902,
    "track": "int4"
  },
  "model.language_model.layers.19.post_attention_layernorm.weight": {
    "atom_offset": 101722433,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.input_layernorm.weight": {
    "atom_offset": 101722482,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.self_attn.q_norm.weight": {
    "atom_offset": 101722507,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.self_attn.k_norm.weight": {
    "atom_offset": 101722516,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.subsample_conv_projection.layer0.conv.weight": {
    "atom_offset": 101722525,
    "byte_length": 640,
    "num_atoms": 10,
    "scale": 0.1897321492433548,
    "track": "int4"
  },
  "model.language_model.layers.11.input_layernorm.weight": {
    "atom_offset": 101722535,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.up_proj.output_max": {
    "atom_offset": 101722584,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.down_proj.output_min": {
    "atom_offset": 101722586,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.pre_feedforward_layernorm.weight": {
    "atom_offset": 101722588,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.o_proj.output_min": {
    "atom_offset": 101722637,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.v_proj.linear.weight": {
    "atom_offset": 101722639,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01123046875,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 101730832,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.015276228077709675,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 101763601,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.down_proj.linear.weight": {
    "atom_offset": 101763603,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0272042416036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.gate_proj.output_max": {
    "atom_offset": 101782036,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.pre_feedforward_layernorm.weight": {
    "atom_offset": 101782038,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 101782063,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_end.input_min": {
    "atom_offset": 101782065,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.per_layer_input_gate.weight": {
    "atom_offset": 101782067,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.ffw_layer_2.linear.weight": {
    "atom_offset": 101794356,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.010951451025903225,
    "track": "int4"
  },
  "model.audio_tower.layers.10.norm_pre_attn.weight": {
    "atom_offset": 101827125,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.107142925262451,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.k_proj.input_max": {
    "atom_offset": 101827134,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.q_proj.input_max": {
    "atom_offset": 101827136,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.post_attention_layernorm.weight": {
    "atom_offset": 101827138,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.self_attn.k_proj.weight": {
    "atom_offset": 101827187,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008544921875,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.k_norm.weight": {
    "atom_offset": 101833332,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.self_attn.q_norm.weight": {
    "atom_offset": 101833335,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.self_attn.q_proj.weight": {
    "atom_offset": 101833344,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0848214253783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.o_proj.input_min": {
    "atom_offset": 101857921,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.norm.weight": {
    "atom_offset": 101857923,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.up_proj.input_max": {
    "atom_offset": 101857972,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.post_feedforward_layernorm.weight": {
    "atom_offset": 101857974,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.o_proj.input_min": {
    "atom_offset": 101858023,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.v_proj.output_max": {
    "atom_offset": 101858025,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.post.input_max": {
    "atom_offset": 101858027,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.self_attn.k_norm.weight": {
    "atom_offset": 101858029,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.input_layernorm.weight": {
    "atom_offset": 101858038,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.layer_scalar": {
    "atom_offset": 101858063,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.k_proj.input_min": {
    "atom_offset": 101858065,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.k_proj.output_max": {
    "atom_offset": 101858067,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.pre_feedforward_layernorm.weight": {
    "atom_offset": 101858069,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 101858118,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 101858120,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0064522880129516125,
    "track": "int4"
  },
  "model.language_model.layers.13.self_attn.k_proj.weight": {
    "atom_offset": 101890889,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0322265625,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_end.input_max": {
    "atom_offset": 101893962,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.self_attn.o_proj.weight": {
    "atom_offset": 101893964,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0622209832072258,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 101918541,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.pre_feedforward_layernorm.weight": {
    "atom_offset": 101918574,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.k_proj.output_min": {
    "atom_offset": 101918623,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.down_proj.output_max": {
    "atom_offset": 101918625,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_end.linear.weight": {
    "atom_offset": 101918627,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02566964365541935,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.q_proj.input_max": {
    "atom_offset": 101926820,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.q_proj.input_max": {
    "atom_offset": 101926822,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_start.input_max": {
    "atom_offset": 101926824,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.gate_proj.output_min": {
    "atom_offset": 101926826,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.7.mlp.up_proj.weight": {
    "atom_offset": 101926828,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0876116082072258,
    "track": "int4"
  },
  "model.language_model.layers.33.post_attention_layernorm.weight": {
    "atom_offset": 102000557,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.k_proj.input_min": {
    "atom_offset": 102000606,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.v_proj.output_min": {
    "atom_offset": 102000608,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.post_attention_layernorm.weight": {
    "atom_offset": 102000610,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.post_attention_layernorm.weight": {
    "atom_offset": 102000659,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.post_per_layer_input_norm.weight": {
    "atom_offset": 102000708,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.mlp.down_proj.weight": {
    "atom_offset": 102000757,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0825892835855484,
    "track": "int4"
  },
  "model.language_model.layers.15.layer_scalar": {
    "atom_offset": 102148214,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_start.input_max": {
    "atom_offset": 102148216,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.down_proj.linear.weight": {
    "atom_offset": 102148218,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0313895083963871,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 102166651,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.7008928656578064,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.q_proj.output_min": {
    "atom_offset": 102166692,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 102166694,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.30.post_feedforward_layernorm.weight": {
    "atom_offset": 102166696,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.self_attn.o_proj.weight": {
    "atom_offset": 102166745,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0736607164144516,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 102191322,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.self_attn.o_proj.weight": {
    "atom_offset": 102191324,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0446428582072258,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.o_proj.output_min": {
    "atom_offset": 102215901,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.self_attn.k_norm.weight": {
    "atom_offset": 102215903,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 102215912,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.post_per_layer_input_norm.weight": {
    "atom_offset": 102215945,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.self_attn.v_proj.weight": {
    "atom_offset": 102215994,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00861467607319355,
    "track": "int4"
  },
  "model.language_model.layers.20.input_layernorm.weight": {
    "atom_offset": 102219067,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.layer_scalar": {
    "atom_offset": 102219116,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.o_proj.input_min": {
    "atom_offset": 102219118,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.post_per_layer_input_norm.weight": {
    "atom_offset": 102219120,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.26.pre_feedforward_layernorm.weight": {
    "atom_offset": 102219169,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.post_per_layer_input_norm.weight": {
    "atom_offset": 102219218,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 102219267,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0157645083963871,
    "track": "int4"
  },
  "model.language_model.layers.24.mlp.gate_proj.weight": {
    "atom_offset": 102252036,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0926339253783226,
    "track": "int4"
  },
  "model.language_model.layers.23.mlp.down_proj.weight": {
    "atom_offset": 102399493,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0597098208963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.q_proj.output_max": {
    "atom_offset": 102546950,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.post_attention_layernorm.weight": {
    "atom_offset": 102546952,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 102547001,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.up_proj.output_min": {
    "atom_offset": 102547003,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_1.input_max": {
    "atom_offset": 102547005,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.post.input_max": {
    "atom_offset": 102547007,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.layer_scalar": {
    "atom_offset": 102547009,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.up_proj.output_max": {
    "atom_offset": 102547011,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.post.linear.weight": {
    "atom_offset": 102547013,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01981026865541935,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_end.output_max": {
    "atom_offset": 102555206,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.q_proj.output_max": {
    "atom_offset": 102555208,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.self_attn.q_proj.weight": {
    "atom_offset": 102555210,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0797991082072258,
    "track": "int4"
  },
  "model.language_model.layers.15.mlp.gate_proj.weight": {
    "atom_offset": 102579787,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0970982164144516,
    "track": "int4"
  },
  "model.language_model.layers.26.post_attention_layernorm.weight": {
    "atom_offset": 102727244,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 102727293,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 102727326,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_end.linear.weight": {
    "atom_offset": 102727328,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.021484375,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.o_proj.input_max": {
    "atom_offset": 102735521,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.post_per_layer_input_norm.weight": {
    "atom_offset": 102735523,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.v_proj.input_min": {
    "atom_offset": 102735572,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.15.per_layer_projection.weight": {
    "atom_offset": 102735574,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.o_proj.input_max": {
    "atom_offset": 102747863,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.q_norm.weight": {
    "atom_offset": 102747865,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.per_layer_input_gate.weight": {
    "atom_offset": 102747868,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.v_proj.input_max": {
    "atom_offset": 102760157,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.per_layer_input_gate.weight": {
    "atom_offset": 102760159,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.k_proj.output_min": {
    "atom_offset": 102772448,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.q_proj.input_min": {
    "atom_offset": 102772450,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.self_attn.q_proj.weight": {
    "atom_offset": 102772452,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.06640625,
    "track": "int4"
  },
  "model.language_model.layers.6.mlp.up_proj.weight": {
    "atom_offset": 102797029,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0719866082072258,
    "track": "int4"
  },
  "model.language_model.layers.30.per_layer_projection.weight": {
    "atom_offset": 102870758,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.post_per_layer_input_norm.weight": {
    "atom_offset": 102883047,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.pre_feedforward_layernorm.weight": {
    "atom_offset": 102883096,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.8.self_attn.o_proj.weight": {
    "atom_offset": 102883121,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0725446417927742,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 102907698,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.per_layer_projection.weight": {
    "atom_offset": 102907700,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.pre_feedforward_layernorm.weight": {
    "atom_offset": 102919989,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.k_norm.weight": {
    "atom_offset": 102920038,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 102920041,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.k_proj.linear.weight": {
    "atom_offset": 102920074,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0786830335855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.mlp.gate_proj.input_min": {
    "atom_offset": 102924683,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.v_proj.linear.weight": {
    "atom_offset": 102924685,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0502232126891613,
    "track": "int4"
  },
  "model.language_model.layers.3.per_layer_input_gate.weight": {
    "atom_offset": 102929294,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.11.mlp.down_proj.weight": {
    "atom_offset": 102941583,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0661272332072258,
    "track": "int4"
  },
  "model.audio_tower.layers.6.lconv1d.conv_norm.weight": {
    "atom_offset": 103015312,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 103015345,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.mlp.down_proj.weight": {
    "atom_offset": 103015347,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1121651753783226,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.relative_k_proj.weight": {
    "atom_offset": 103162804,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01925223134458065,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.q_proj.output_max": {
    "atom_offset": 103170997,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.post_feedforward_layernorm.weight": {
    "atom_offset": 103170999,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.per_layer_projection.weight": {
    "atom_offset": 103171048,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.self_attn.k_proj.weight": {
    "atom_offset": 103183337,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.0385044626891613,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_start.input_min": {
    "atom_offset": 103189482,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.v_proj.output_max": {
    "atom_offset": 103189484,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.k_norm.weight": {
    "atom_offset": 103189486,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 103189489,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.up_proj.output_max": {
    "atom_offset": 103189491,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.up_proj.input_max": {
    "atom_offset": 103189493,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.o_proj.input_min": {
    "atom_offset": 103189495,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.k_proj.input_min": {
    "atom_offset": 103189497,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.q_proj.output_min": {
    "atom_offset": 103189499,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.k_proj.output_min": {
    "atom_offset": 103189501,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.self_attn.k_norm.weight": {
    "atom_offset": 103189503,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.post.linear.weight": {
    "atom_offset": 103189512,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0186941958963871,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.q_proj.output_max": {
    "atom_offset": 103197705,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.o_proj.output_max": {
    "atom_offset": 103197707,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.k_proj.output_max": {
    "atom_offset": 103197709,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.v_proj.output_max": {
    "atom_offset": 103197711,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.k_proj.linear.weight": {
    "atom_offset": 103197713,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0496651791036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.v_proj.output_max": {
    "atom_offset": 103202322,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.self_attn.q_proj.weight": {
    "atom_offset": 103202324,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0736607164144516,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.post.input_min": {
    "atom_offset": 103251477,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.up_proj.linear.weight": {
    "atom_offset": 103251479,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0574776791036129,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_start.output_min": {
    "atom_offset": 103269912,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.per_layer_projection.weight": {
    "atom_offset": 103269914,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.o_proj.output_min": {
    "atom_offset": 103282203,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.27.per_layer_input_gate.weight": {
    "atom_offset": 103282205,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 103294494,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.k_proj.output_max": {
    "atom_offset": 103294527,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.pre_feedforward_layernorm.weight": {
    "atom_offset": 103294529,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.o_proj.input_max": {
    "atom_offset": 103294554,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.gate_proj.input_max": {
    "atom_offset": 103294556,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_end.input_min": {
    "atom_offset": 103294558,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.self_attn.q_proj.weight": {
    "atom_offset": 103294560,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.0591517873108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.down_proj.linear.weight": {
    "atom_offset": 103343713,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.03125,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 103362146,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.484375,
    "track": "int4"
  },
  "model.language_model.layers.15.self_attn.v_proj.weight": {
    "atom_offset": 103362187,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00788225419819355,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_end.output_min": {
    "atom_offset": 103365260,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.down_proj.input_min": {
    "atom_offset": 103365262,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.self_attn.k_norm.weight": {
    "atom_offset": 103365264,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.pre_feedforward_layernorm.weight": {
    "atom_offset": 103365273,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.norm_post_attn.weight": {
    "atom_offset": 103365298,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.1964285373687744,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.post.linear.weight": {
    "atom_offset": 103365307,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0327845998108387,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_start.linear.weight": {
    "atom_offset": 103373500,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0223214291036129,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 103389885,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.down_proj.input_min": {
    "atom_offset": 103389887,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.v_proj.input_min": {
    "atom_offset": 103389889,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.self_attn.post.linear.weight": {
    "atom_offset": 103389891,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.014997209422290325,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_end.input_max": {
    "atom_offset": 103398084,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.post_attention_layernorm.weight": {
    "atom_offset": 103398086,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.per_layer_projection.weight": {
    "atom_offset": 103398135,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 103410424,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.gate_proj.output_min": {
    "atom_offset": 103410426,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_start.input_min": {
    "atom_offset": 103410428,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.up_proj.linear.weight": {
    "atom_offset": 103410430,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0382254458963871,
    "track": "int4"
  },
  "model.language_model.layers.7.self_attn.v_proj.weight": {
    "atom_offset": 103428863,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0625,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_end.linear.weight": {
    "atom_offset": 103431936,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0234375,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.k_proj.output_max": {
    "atom_offset": 103440129,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.post.linear.weight": {
    "atom_offset": 103440131,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.02608816884458065,
    "track": "int4"
  },
  "model.language_model.layers.28.self_attn.k_proj.weight": {
    "atom_offset": 103448324,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008579798974096775,
    "track": "int4"
  },
  "model.language_model.layers.6.input_layernorm.weight": {
    "atom_offset": 103451397,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.gate_proj.input_min": {
    "atom_offset": 103451446,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 103451448,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.k_proj.output_min": {
    "atom_offset": 103451450,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.mlp.up_proj.weight": {
    "atom_offset": 103451452,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0725446417927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.down_proj.output_min": {
    "atom_offset": 103525181,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.v_proj.input_max": {
    "atom_offset": 103525183,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.pre_feedforward_layernorm.weight": {
    "atom_offset": 103525185,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.mlp.gate_proj.weight": {
    "atom_offset": 103525234,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0597098208963871,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 103598963,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.gate_proj.linear.weight": {
    "atom_offset": 103598996,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.041015625,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.depthwise_conv1d.weight": {
    "atom_offset": 103617429,
    "byte_length": 2624,
    "num_atoms": 41,
    "scale": 0.6205357313156128,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.conv_norm.weight": {
    "atom_offset": 103617470,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 103617503,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.q_proj.input_max": {
    "atom_offset": 103617505,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_2.output_min": {
    "atom_offset": 103617507,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.per_layer_projection.weight": {
    "atom_offset": 103617509,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 103629798,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.post_layer_norm.weight": {
    "atom_offset": 103629800,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 103629833,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01422991044819355,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 103662602,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.self_attn.v_proj.weight": {
    "atom_offset": 103662635,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.0499441958963871,
    "track": "int4"
  },
  "model.language_model.layers.24.self_attn.k_proj.weight": {
    "atom_offset": 103668780,
    "byte_length": 393280,
    "num_atoms": 6145,
    "scale": 0.008510044775903225,
    "track": "int4"
  },
  "model.language_model.layers.0.self_attn.k_proj.weight": {
    "atom_offset": 103674925,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0393415167927742,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 103677998,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.31.self_attn.o_proj.weight": {
    "atom_offset": 103678000,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0870535746216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.q_proj.linear.weight": {
    "atom_offset": 103702577,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.1010044664144516,
    "track": "int4"
  },
  "model.language_model.layers.33.layer_scalar": {
    "atom_offset": 103707186,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.self_attn.k_norm.weight": {
    "atom_offset": 103707188,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.self_attn.k_proj.weight": {
    "atom_offset": 103707205,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0390625,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 103710278,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.gate_proj.input_min": {
    "atom_offset": 103710280,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.self_attn.q_proj.output_min": {
    "atom_offset": 103710282,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.pre_feedforward_layernorm.weight": {
    "atom_offset": 103710284,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.norm_post_attn.weight": {
    "atom_offset": 103710333,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.517857074737549,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.k_proj.output_min": {
    "atom_offset": 103710342,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 103710344,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.17.mlp.gate_proj.weight": {
    "atom_offset": 103710346,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1160714253783226,
    "track": "int4"
  },
  "model.language_model.layers.27.post_attention_layernorm.weight": {
    "atom_offset": 103857803,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.self_attn.o_proj.weight": {
    "atom_offset": 103857852,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.1729910671710968,
    "track": "int4"
  },
  "model.language_model.layers.10.post_feedforward_layernorm.weight": {
    "atom_offset": 103907005,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_start.output_max": {
    "atom_offset": 103907054,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.v_proj.input_min": {
    "atom_offset": 103907056,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.k_proj.output_max": {
    "atom_offset": 103907058,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.pre_feedforward_layernorm.weight": {
    "atom_offset": 103907060,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.1.mlp.gate_proj.weight": {
    "atom_offset": 103907085,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0544084832072258,
    "track": "int4"
  },
  "model.language_model.layers.31.post_per_layer_input_norm.weight": {
    "atom_offset": 103980814,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.mlp.gate_proj.weight": {
    "atom_offset": 103980863,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.08203125,
    "track": "int4"
  },
  "model.audio_tower.layers.1.feed_forward1.post_layer_norm.weight": {
    "atom_offset": 104054592,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.self_attn.o_proj.weight": {
    "atom_offset": 104054625,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0625,
    "track": "int4"
  },
  "model.language_model.layers.13.self_attn.q_proj.weight": {
    "atom_offset": 104079202,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0630580335855484,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_start.input_max": {
    "atom_offset": 104103779,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.post.output_min": {
    "atom_offset": 104103781,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.gate_proj.input_max": {
    "atom_offset": 104103783,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.self_attn.k_norm.weight": {
    "atom_offset": 104103785,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 104103794,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.14.self_attn.o_proj.weight": {
    "atom_offset": 104103796,
    "byte_length": 3145792,
    "num_atoms": 49153,
    "scale": 0.1026785746216774,
    "track": "int4"
  },
  "model.language_model.layers.23.self_attn.k_proj.weight": {
    "atom_offset": 104152949,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008649553172290325,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 104156022,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.lconv1d.linear_start.input_max": {
    "atom_offset": 104156024,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.q_proj.output_max": {
    "atom_offset": 104156026,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.gate_proj.input_max": {
    "atom_offset": 104156028,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.gate_proj.linear.weight": {
    "atom_offset": 104156030,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0460379458963871,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.v_proj.input_max": {
    "atom_offset": 104174463,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.down_proj.output_max": {
    "atom_offset": 104174465,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.k_proj.input_max": {
    "atom_offset": 104174467,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.pre_layer_norm.weight": {
    "atom_offset": 104174469,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_1.output_max": {
    "atom_offset": 104174502,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.gate_proj.linear.weight": {
    "atom_offset": 104174504,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0440848208963871,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.k_proj.input_min": {
    "atom_offset": 104192937,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.q_proj.linear.weight": {
    "atom_offset": 104192939,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0126953125,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.k_proj.output_max": {
    "atom_offset": 104201132,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward1.ffw_layer_2.output_min": {
    "atom_offset": 104201134,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 104201136,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.pre_feedforward_layernorm.weight": {
    "atom_offset": 104201138,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.gate_proj.output_max": {
    "atom_offset": 104201163,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.post.linear.weight": {
    "atom_offset": 104201165,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0184151791036129,
    "track": "int4"
  },
  "model.language_model.layers.6.per_layer_projection.weight": {
    "atom_offset": 104209358,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.33.self_attn.q_proj.weight": {
    "atom_offset": 104221647,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0703125,
    "track": "int4"
  },
  "model.language_model.layers.7.self_attn.q_norm.weight": {
    "atom_offset": 104246224,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.34.post_feedforward_layernorm.weight": {
    "atom_offset": 104246233,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.v_proj.input_min": {
    "atom_offset": 104246282,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.k_proj.input_min": {
    "atom_offset": 104246284,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.relative_k_proj.weight": {
    "atom_offset": 104246286,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0262276791036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.q_proj.input_min": {
    "atom_offset": 104254479,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.norm_post_attn.weight": {
    "atom_offset": 104254481,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 2.0267856121063232,
    "track": "int4"
  },
  "model.language_model.layers.14.per_layer_input_gate.weight": {
    "atom_offset": 104254490,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.o_proj.input_min": {
    "atom_offset": 104266779,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.self_attn.k_norm.weight": {
    "atom_offset": 104266781,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_1.linear.weight": {
    "atom_offset": 104266790,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.0172293521463871,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 104299559,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.01171875,
    "track": "int4"
  },
  "model.language_model.layers.5.pre_feedforward_layernorm.weight": {
    "atom_offset": 104332328,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.down_proj.output_max": {
    "atom_offset": 104332377,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.v_proj.input_min": {
    "atom_offset": 104332379,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.q_proj.output_min": {
    "atom_offset": 104332381,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.o_proj.linear.weight": {
    "atom_offset": 104332383,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0666852667927742,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.v_proj.linear.weight": {
    "atom_offset": 104336992,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0574776791036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.pre_feedforward_layernorm.weight": {
    "atom_offset": 104341601,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.10.self_attn.k_proj.weight": {
    "atom_offset": 104341626,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0518973208963871,
    "track": "int4"
  },
  "model.language_model.layers.29.per_layer_projection.weight": {
    "atom_offset": 104344699,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.down_proj.input_max": {
    "atom_offset": 104356988,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.self_attn.v_proj.input_min": {
    "atom_offset": 104356990,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_start.input_max": {
    "atom_offset": 104356992,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.lconv1d.linear_end.output_max": {
    "atom_offset": 104356994,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.pre_layer_norm.weight": {
    "atom_offset": 104356996,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.v_proj.output_max": {
    "atom_offset": 104357029,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 104357031,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.layer_scalar": {
    "atom_offset": 104357033,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.down_proj.output_min": {
    "atom_offset": 104357035,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.gate_proj.output_max": {
    "atom_offset": 104357037,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.post.linear.weight": {
    "atom_offset": 104357039,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.0252511166036129,
    "track": "int4"
  },
  "model.language_model.layers.4.post_attention_layernorm.weight": {
    "atom_offset": 104365232,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.q_proj.input_min": {
    "atom_offset": 104365281,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.mlp.up_proj.weight": {
    "atom_offset": 104365283,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0731026753783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.gate_proj.input_min": {
    "atom_offset": 104439012,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_end.output_min": {
    "atom_offset": 104439014,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.up_proj.input_min": {
    "atom_offset": 104439016,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.self_attn.k_norm.weight": {
    "atom_offset": 104439018,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.v_proj.output_max": {
    "atom_offset": 104439027,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.32.self_attn.k_norm.weight": {
    "atom_offset": 104439029,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.mlp.down_proj.input_max": {
    "atom_offset": 104439038,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.29.mlp.gate_proj.weight": {
    "atom_offset": 104439040,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1004464253783226,
    "track": "int4"
  },
  "model.audio_tower.layers.0.norm_pre_attn.weight": {
    "atom_offset": 104586497,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 2.8392856121063232,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_start.linear.weight": {
    "atom_offset": 104586506,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0244140625,
    "track": "int4"
  },
  "model.language_model.layers.17.self_attn.q_norm.weight": {
    "atom_offset": 104602891,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.post.input_min": {
    "atom_offset": 104602900,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 104602902,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.self_attn.q_norm.weight": {
    "atom_offset": 104602904,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.mlp.down_proj.input_max": {
    "atom_offset": 104602907,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 104602909,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.self_attn.q_proj.weight": {
    "atom_offset": 104602911,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0686383917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.2.lconv1d.linear_end.output_max": {
    "atom_offset": 104627488,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.k_proj.input_min": {
    "atom_offset": 104627490,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.mlp.gate_proj.weight": {
    "atom_offset": 104627492,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.1043526753783226,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.k_proj.output_min": {
    "atom_offset": 104774949,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.self_attn.k_proj.input_max": {
    "atom_offset": 104774951,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.q_proj.output_min": {
    "atom_offset": 104774953,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.mlp.up_proj.weight": {
    "atom_offset": 104774955,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0630580335855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.q_proj.linear.weight": {
    "atom_offset": 104848684,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0711495503783226,
    "track": "int4"
  },
  "model.language_model.layers.15.self_attn.k_proj.weight": {
    "atom_offset": 104853293,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00788225419819355,
    "track": "int4"
  },
  "model.language_model.layers.12.self_attn.q_norm.weight": {
    "atom_offset": 104856366,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.6.self_attn.k_proj.weight": {
    "atom_offset": 104856375,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.0418526791036129,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.gate_proj.input_min": {
    "atom_offset": 104859448,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 104859450,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.1.self_attn.k_proj.output_min": {
    "atom_offset": 104859452,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.self_attn.o_proj.output_max": {
    "atom_offset": 104859454,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.self_attn.q_proj.weight": {
    "atom_offset": 104859456,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0636160746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.3.norm_out.weight": {
    "atom_offset": 104884033,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.1964285373687744,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward1.ffw_layer_1.input_max": {
    "atom_offset": 104884042,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_2.output_max": {
    "atom_offset": 104884044,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 104884046,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.down_proj.output_max": {
    "atom_offset": 104884048,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.up_proj.input_min": {
    "atom_offset": 104884050,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.v_proj.output_min": {
    "atom_offset": 104884052,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.q_proj.output_max": {
    "atom_offset": 104884054,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.norm_out.weight": {
    "atom_offset": 104884056,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 3.3214285373687744,
    "track": "int4"
  },
  "model.audio_tower.layers.8.lconv1d.linear_end.linear.weight": {
    "atom_offset": 104884065,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01778738759458065,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.up_proj.input_min": {
    "atom_offset": 104892258,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.self_attn.q_proj.output_min": {
    "atom_offset": 104892260,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_start.output_min": {
    "atom_offset": 104892262,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.pre_feedforward_layernorm.weight": {
    "atom_offset": 104892264,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.k_proj.output_min": {
    "atom_offset": 104892313,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.down_proj.linear.weight": {
    "atom_offset": 104892315,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.029296875,
    "track": "int4"
  },
  "model.language_model.layers.18.self_attn.v_proj.weight": {
    "atom_offset": 104910748,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008335658349096775,
    "track": "int4"
  },
  "model.audio_tower.layers.1.lconv1d.linear_start.output_min": {
    "atom_offset": 104913821,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.gate_proj.linear.weight": {
    "atom_offset": 104913823,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0440848208963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.q_proj.linear.weight": {
    "atom_offset": 104932256,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0393415167927742,
    "track": "int4"
  },
  "model.language_model.layers.34.post_attention_layernorm.weight": {
    "atom_offset": 104936865,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.mlp.gate_proj.input_min": {
    "atom_offset": 104936914,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.o_proj.input_min": {
    "atom_offset": 104936916,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.self_attn.q_norm.weight": {
    "atom_offset": 104936918,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.9.self_attn.o_proj.input_min": {
    "atom_offset": 104936927,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.input_layernorm.weight": {
    "atom_offset": 104936929,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.18.input_layernorm.weight": {
    "atom_offset": 104936954,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.self_attn.k_norm.weight": {
    "atom_offset": 104937003,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.22.self_attn.k_norm.weight": {
    "atom_offset": 104937006,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.post_per_layer_input_norm.weight": {
    "atom_offset": 104937015,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.feed_forward2.ffw_layer_1.input_min": {
    "atom_offset": 104937064,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.v_proj.output_max": {
    "atom_offset": 104937066,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.v_proj.linear.weight": {
    "atom_offset": 104937068,
    "byte_length": 524352,
    "num_atoms": 8193,
    "scale": 0.01374162919819355,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_2.input_max": {
    "atom_offset": 104945261,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.3.mlp.up_proj.input_max": {
    "atom_offset": 104945263,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.mlp.gate_proj.weight": {
    "atom_offset": 104945265,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.1183035746216774,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.v_proj.input_max": {
    "atom_offset": 105018994,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_start.input_max": {
    "atom_offset": 105018996,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.3.lconv1d.linear_start.output_max": {
    "atom_offset": 105018998,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 105019000,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.post.output_min": {
    "atom_offset": 105019002,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.per_layer_input_gate.weight": {
    "atom_offset": 105019004,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.v_proj.input_min": {
    "atom_offset": 105031293,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.gate_proj.linear.weight": {
    "atom_offset": 105031295,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0454799123108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.down_proj.output_max": {
    "atom_offset": 105049728,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.self_attn.o_proj.output_min": {
    "atom_offset": 105049730,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.self_attn.k_proj.weight": {
    "atom_offset": 105049732,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00788225419819355,
    "track": "int4"
  },
  "model.audio_tower.layers.5.feed_forward1.ffw_layer_2.input_min": {
    "atom_offset": 105052805,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.mlp.up_proj.weight": {
    "atom_offset": 105052807,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0694754496216774,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.mlp.up_proj.output_max": {
    "atom_offset": 105200264,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.23.self_attn.q_proj.weight": {
    "atom_offset": 105200266,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0809151753783226,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_2.input_max": {
    "atom_offset": 105224843,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward1.ffw_layer_1.output_min": {
    "atom_offset": 105224845,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.per_layer_projection.weight": {
    "atom_offset": 105224847,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.19.mlp.down_proj.weight": {
    "atom_offset": 105237136,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0764508917927742,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_end.output_min": {
    "atom_offset": 105384593,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.feed_forward1.pre_layer_norm.weight": {
    "atom_offset": 105384595,
    "byte_length": 2112,
    "num_atoms": 33,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.down_proj.linear.weight": {
    "atom_offset": 105384628,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0421316958963871,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.input_layernorm.weight": {
    "atom_offset": 105403061,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.self_attn.k_proj.output_min": {
    "atom_offset": 105403086,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.k_proj.output_min": {
    "atom_offset": 105403088,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.norm_pre_attn.weight": {
    "atom_offset": 105403090,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 4.607142925262451,
    "track": "int4"
  },
  "model.audio_tower.layers.3.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 105403099,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_start.output_max": {
    "atom_offset": 105403101,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.subsample_conv_projection.layer1.norm.weight": {
    "atom_offset": 105403103,
    "byte_length": 128,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.6.feed_forward2.ffw_layer_1.output_min": {
    "atom_offset": 105403105,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.k_proj.linear.weight": {
    "atom_offset": 105403107,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.0689174085855484,
    "track": "int4"
  },
  "model.language_model.layers.10.mlp.gate_proj.weight": {
    "atom_offset": 105407716,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.0920758917927742,
    "track": "int4"
  },
  "model.language_model.layers.17.self_attn.v_proj.weight": {
    "atom_offset": 105481445,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.00812639482319355,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.down_proj.input_max": {
    "atom_offset": 105484518,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.feed_forward2.ffw_layer_2.input_min": {
    "atom_offset": 105484520,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.self_attn.q_proj.input_max": {
    "atom_offset": 105484522,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.0.self_attn.o_proj.weight": {
    "atom_offset": 105484524,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0599888376891613,
    "track": "int4"
  },
  "model.language_model.layers.30.pre_feedforward_layernorm.weight": {
    "atom_offset": 105509101,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.2.self_attn.k_proj.input_max": {
    "atom_offset": 105509150,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.lconv1d.linear_start.output_min": {
    "atom_offset": 105509152,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.2.post_attention_layernorm.weight": {
    "atom_offset": 105509154,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.mlp.up_proj.input_min": {
    "atom_offset": 105509203,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.self_attn.q_proj.input_max": {
    "atom_offset": 105509205,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.20.self_attn.k_proj.weight": {
    "atom_offset": 105509207,
    "byte_length": 196672,
    "num_atoms": 3073,
    "scale": 0.008649553172290325,
    "track": "int4"
  },
  "model.audio_tower.layers.2.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 105512280,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.q_proj.input_min": {
    "atom_offset": 105512282,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.self_attn.q_proj.input_max": {
    "atom_offset": 105512284,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.mlp.up_proj.input_min": {
    "atom_offset": 105512286,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.3.mlp.down_proj.weight": {
    "atom_offset": 105512288,
    "byte_length": 4718656,
    "num_atoms": 73729,
    "scale": 0.1010044664144516,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.gate_proj.input_max": {
    "atom_offset": 105586017,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.self_attn.v_proj.input_max": {
    "atom_offset": 105586019,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.4.mlp.down_proj.input_min": {
    "atom_offset": 105586021,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.0.lconv1d.linear_end.output_min": {
    "atom_offset": 105586023,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.11.lconv1d.linear_start.linear.weight": {
    "atom_offset": 105586025,
    "byte_length": 1048640,
    "num_atoms": 16385,
    "scale": 0.0404575876891613,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.2.self_attn.k_proj.output_min": {
    "atom_offset": 105602410,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.7.feed_forward2.ffw_layer_2.linear.weight": {
    "atom_offset": 105602412,
    "byte_length": 2097216,
    "num_atoms": 32769,
    "scale": 0.014508928172290325,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.self_attn.v_proj.input_min": {
    "atom_offset": 105635181,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.9.self_attn.post.output_max": {
    "atom_offset": 105635183,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.gate_proj.linear.weight": {
    "atom_offset": 105635185,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0415736623108387,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.12.self_attn.o_proj.output_max": {
    "atom_offset": 105653618,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.0.post_attention_layernorm.weight": {
    "atom_offset": 105653620,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.v_proj.input_min": {
    "atom_offset": 105653645,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.lconv1d.linear_end.input_min": {
    "atom_offset": 105653647,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.q_norm.weight": {
    "atom_offset": 105653649,
    "byte_length": 192,
    "num_atoms": 3,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.4.input_layernorm.weight": {
    "atom_offset": 105653652,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.self_attn.k_proj.linear.weight": {
    "atom_offset": 105653701,
    "byte_length": 294976,
    "num_atoms": 4609,
    "scale": 0.06640625,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.14.post_feedforward_layernorm.weight": {
    "atom_offset": 105658310,
    "byte_length": 1600,
    "num_atoms": 25,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.self_attn.per_dim_scale": {
    "atom_offset": 105658335,
    "byte_length": 320,
    "num_atoms": 5,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.8.self_attn.k_proj.input_min": {
    "atom_offset": 105658340,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.25.pre_feedforward_layernorm.weight": {
    "atom_offset": 105658342,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.21.self_attn.q_proj.weight": {
    "atom_offset": 105658391,
    "byte_length": 1572928,
    "num_atoms": 24577,
    "scale": 0.0825892835855484,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.mlp.up_proj.input_min": {
    "atom_offset": 105682968,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.1.self_attn.o_proj.output_max": {
    "atom_offset": 105682970,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.8.mlp.up_proj.output_min": {
    "atom_offset": 105682972,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.13.mlp.gate_proj.output_max": {
    "atom_offset": 105682974,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.7.self_attn.k_proj.output_min": {
    "atom_offset": 105682976,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.o_proj.output_max": {
    "atom_offset": 105682978,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.5.mlp.gate_proj.input_min": {
    "atom_offset": 105682980,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.per_layer_projection.weight": {
    "atom_offset": 105682982,
    "byte_length": 786496,
    "num_atoms": 12289,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.5.lconv1d.linear_end.output_min": {
    "atom_offset": 105695271,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.4.feed_forward2.ffw_layer_1.output_max": {
    "atom_offset": 105695273,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.13.post_attention_layernorm.weight": {
    "atom_offset": 105695275,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.10.mlp.down_proj.input_min": {
    "atom_offset": 105695324,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.15.mlp.up_proj.input_min": {
    "atom_offset": 105695326,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.12.input_layernorm.weight": {
    "atom_offset": 105695328,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.5.input_layernorm.weight": {
    "atom_offset": 105695377,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.6.self_attn.k_proj.output_max": {
    "atom_offset": 105695426,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.9.self_attn.k_norm.weight": {
    "atom_offset": 105695428,
    "byte_length": 1088,
    "num_atoms": 17,
    "scale": 1.0,
    "track": "int4"
  },
  "model.vision_tower.encoder.layers.11.mlp.up_proj.linear.weight": {
    "atom_offset": 105695445,
    "byte_length": 1179712,
    "num_atoms": 18433,
    "scale": 0.0385044626891613,
    "track": "int4"
  },
  "model.language_model.layers.28.self_attn.q_norm.weight": {
    "atom_offset": 105713878,
    "byte_length": 576,
    "num_atoms": 9,
    "scale": 1.0,
    "track": "int4"
  },
  "model.audio_tower.layers.10.feed_forward2.ffw_layer_2.output_max": {
    "atom_offset": 105713887,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.28.mlp.down_proj.weight": {
    "atom_offset": 105713889,
    "byte_length": 9437248,
    "num_atoms": 147457,
    "scale": 0.0736607164144516,
    "track": "int4"
  },
  "model.audio_tower.layers.4.self_attn.q_proj.output_min": {
    "atom_offset": 105861346,
    "byte_length": 66,
    "num_atoms": 2,
    "scale": 1.0,
    "track": "int4"
  },
  "model.language_model.layers.24.post_per_layer_input_norm.weight": {
    "atom_offset": 105861348,
    "byte_length": 3136,
    "num_atoms": 49,
    "scale": 1.0,
    "track": "int4"
  }
}