first commit

2025-03-04 11:45:59 +08:00 · 2025-03-04 11:45:59 +08:00 · 09063ce8ab
parent 27d74e4a10
commit 09063ce8ab
15 changed files with 148756 additions and 1 deletions
--- a/README.md
+++ b/README.md
@ -1,3 +1,188 @@
+---
+license: apache-2.0
+language:
+- en
+base_model:
+- ibm-granite/granite-3.1-2b-instruct
+library_name: transformers
+---
 # granite-vision-3.2-2b

-granite-vision-3.2-2b
+**Model Summary:**
+granite-vision-3.2-2b is a compact and efficient vision-language model, specifically designed for visual document understanding, enabling automated content extraction from tables, charts, infographics, plots, diagrams, and more. The model was trained on a meticulously curated instruction-following dataset, comprising diverse public datasets and synthetic datasets tailored to support a wide range of document understanding and general image tasks. It was trained by fine-tuning a Granite large language model with both image and text modalities.
+
+
+**Evaluations:**
+
+We evaluated Granite Vision 3.2 alongside other vision-language models (VLMs) in the 1B-4B parameter range using the standard llms-eval benchmark. The evaluation spanned multiple public benchmarks, with particular emphasis on document understanding tasks while also including general visual question-answering benchmarks. 
+
+|  | Molmo-E | InternVL2 | Phi3v | Phi3.5v | Granite Vision |
+|-----------|--------------|----------------|-------------|------------|------------|
+| **Document benchmarks** |
+| DocVQA | 0.66 | 0.87 | 0.87 | 0.88 | **0.89** |
+| ChartQA | 0.60 | 0.75 | 0.81 | 0.82 | **0.87** |
+| TextVQA | 0.62 | 0.72 | 0.69 | 0.7 | **0.78** |
+| AI2D | 0.63 | 0.74 | **0.79** | **0.79**  | 0.76 |
+| InfoVQA | 0.44 | 0.58 | 0.55 | 0.61  | **0.64** |
+| OCRBench | 0.65 | 0.75 | 0.64 | 0.64 | **0.77** |
+| LiveXiv VQA | 0.47 | 0.51 | **0.61** | - | **0.61** |
+| LiveXiv TQA | 0.36 | 0.38 | 0.48 | - | **0.57** |
+| **Other benchmarks** |
+| MMMU | 0.32 | 0.35 | 0.42 | **0.44** | 0.37 |
+| VQAv2 | 0.57 | 0.75 | 0.76 | 0.77 | **0.78** |
+| RealWorldQA | 0.55 | 0.34 | 0.60 | 0.58 | **0.63** |
+| VizWiz VQA | 0.49 | 0.46 | 0.57 | 0.57 |  **0.63** |
+| OK VQA | 0.40 | 0.44 | 0.51 | 0.53 | **0.56** |
+
+
+- **Paper:** [Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence](https://arxiv.org/abs/2502.09927)
+- **Release Date**: Feb 26th, 2025 
+- **License:** [Apache 2.0](https://www.apache.org/licenses/LICENSE-2.0)
+
+**Supported Input Format:**
+Currently the model supports English instructions and images (png, jpeg, etc.) as input format. 
+
+**Intended Use:** 
+The model is intended to be used in enterprise applications that involve processing visual and text data. In particular, the model is well-suited for a range of visual document understanding tasks, such as analyzing tables and charts, performing optical character recognition (OCR), and answering questions based on document content. Additionally, its capabilities extend to general image understanding, enabling it to be applied to a broader range of business applications. For tasks that exclusively involve text-based input, we suggest using our Granite large language models, which are optimized for text-only processing and offer superior performance compared to this model.
+
+
+## Generation:
+
+Granite Vision model is supported natively `transformers>=4.49`. Below is a simple example of how to use the `granite-vision-3.2-2b` model.
+
+### Usage with `transformers`
+
+First, make sure to build the latest verions of transormers:
+```shell
+pip install transformers>=4.49
+```
+
+Then run the code:
+```python
+from transformers import AutoProcessor, AutoModelForVision2Seq
+from huggingface_hub import hf_hub_download
+import torch
+
+device = "cuda" if torch.cuda.is_available() else "cpu"
+
+model_path = "ibm-granite/granite-vision-3.2-2b"
+processor = AutoProcessor.from_pretrained(model_path)
+model = AutoModelForVision2Seq.from_pretrained(model_path).to(device)
+
+# prepare image and text prompt, using the appropriate prompt template
+
+img_path = hf_hub_download(repo_id=model_path, filename='example.png')
+
+conversation = [
+    {
+        "role": "user",
+        "content": [
+            {"type": "image", "url": img_path},
+            {"type": "text", "text": "What is the highest scoring model on ChartQA and what is its score?"},
+        ],
+    },
+]
+inputs = processor.apply_chat_template(
+    conversation,
+    add_generation_prompt=True,
+    tokenize=True,
+    return_dict=True,
+    return_tensors="pt"
+).to(device)
+
+
+# autoregressively complete prompt
+output = model.generate(**inputs, max_new_tokens=100)
+print(processor.decode(output[0], skip_special_tokens=True))
+```
+
+### Usage with vLLM
+
+The model can also be loaded with `vLLM`. First make sure to install the following libraries:
+
+```shell
+pip install torch torchvision torchaudio
+pip install vllm==0.6.6
+```
+Then, copy the snippet from the section that is relevant for your use case.
+
+```python
+from vllm import LLM, SamplingParams
+from vllm.assets.image import ImageAsset
+from huggingface_hub import hf_hub_download
+from PIL import Image
+
+model_path = "ibm-granite/granite-vision-3.2-2b"
+
+model = LLM(
+    model=model_path,
+    limit_mm_per_prompt={"image": 1},
+)
+
+sampling_params = SamplingParams(
+    temperature=0.2,
+    max_tokens=64,
+)
+
+# Define the question we want to answer and format the prompt
+image_token = "<image>"
+system_prompt = "<|system|>\nA chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.\n"
+
+question = "What is the highest scoring model on ChartQA and what is its score?"
+prompt = f"{system_prompt}<|user|>\n{image_token}\n{question}\n<|assistant|>\n"
+img_path = hf_hub_download(repo_id=model_path, filename='example.png')
+image = Image.open(img_path).convert("RGB")
+print(image)
+
+# Build the inputs to vLLM; the image is passed as `multi_modal_data`.
+inputs = {
+    "prompt": prompt,
+    "multi_modal_data": {
+        "image": image,
+    }
+}
+
+outputs = model.generate(inputs, sampling_params=sampling_params)
+print(f"Generated text: {outputs[0].outputs[0].text}")
+```
+
+### Fine-tuning
+
+For an example of fine-tuning Granite Vision for new tasks refer to [this notebook](https://huggingface.co/learn/cookbook/en/fine_tuning_granite_vision_sft_trl).
+
+### Use Granite Vision for MM RAG
+
+For an example of MM RAG using granite vision refer to [this notebook](https://github.com/ibm-granite-community/granite-snack-cookbook/blob/main/recipes/RAG/Granite_Multimodal_RAG.ipynb).
+
+**Model Architecture:** 
+
+The architecture of granite-vision-3.2-2b consists of the following components:
+
+(1) Vision encoder: SigLIP (https://huggingface.co/docs/transformers/en/model_doc/siglip).
+
+(2) Vision-language connector: two-layer MLP with gelu activation function.
+
+(3) Large language model: granite-3.1-2b-instruct with 128k context length (https://huggingface.co/ibm-granite/granite-3.1-2b-instruct).
+
+We built upon LLaVA (https://llava-vl.github.io) to train our model. We use multi-layer encoder features and a denser grid resolution in AnyRes to enhance the model's ability to understand nuanced visual content, which is essential for accurately interpreting document images. 
+
+
+**Training Data:** 
+
+Overall, our training data is largely comprised of two key sources: (1) publicly available datasets (2) internally created synthetic data targeting specific capabilities including document understanding tasks. A detailed attribution of datasets can be found in the [technical report](https://arxiv.org/abs/2502.09927).
+
+
+**Infrastructure:**
+We train Granite Vision using IBM's super computing cluster, Blue Vela, which is outfitted with NVIDIA H100 GPUs. This cluster provides a scalable and efficient infrastructure for training our models over thousands of GPUs.
+
+**Ethical Considerations and Limitations:** 
+The use of Large Vision and Language Models involves risks and ethical considerations people must be aware of, including but not limited to: bias and fairness, misinformation, and autonomous decision-making. granite-vision-3.2-2b is not the exception in this regard. Although our alignment processes include safety considerations, the model may in some cases produce inaccurate, biased, or unsafe responses to user prompts.
+Additionally, it remains uncertain whether smaller models might exhibit increased susceptibility to hallucination in generation scenarios due to their reduced sizes, which could limit their ability to generate coherent and contextually accurate responses.
+This aspect is currently an active area of research, and we anticipate more rigorous exploration, comprehension, and mitigations in this domain. Regarding ethics, a latent risk associated with all Large Language Models is their malicious utilization. We urge the community to use granite-vision-3.2-2b with ethical intentions and in a responsible way. We recommend using this model for document understanding tasks, and note that more general vision tasks may pose higher inherent risks of triggering biased or harmful output.
+To enhance safety, we recommend using granite-vision-3.2-2b alongside Granite Guardian. Granite Guardian is a fine-tuned instruct model designed to detect and flag risks in prompts and responses across key dimensions outlined in the IBM AI Risk Atlas. Its training, which includes both human-annotated and synthetic data informed by internal red-teaming, enables it to outperform similar open-source models on standard benchmarks, providing an additional layer of safety.
+
+**Resources**
+- 📄 Read the full technical report [here](https://arxiv.org/abs/2502.09927)
+- ⭐️ Learn about the latest updates with Granite: https://www.ibm.com/granite
+- 🚀 Get started with tutorials, best practices, and prompt engineering advice: https://www.ibm.com/granite/docs/
+- 💡 Learn about the latest Granite learning resources: https://ibm.biz/granite-learning-resources
--- a/added_tokens.json
+++ b/added_tokens.json
@ -0,0 +1,6 @@
+{
+    "<|end_of_role|>": 49153,
+    "<|start_of_role|>": 49152,
+    "<|tool_call|>": 49154,
+    "<image>": "49155"
+}
--- a/chat_template.json
+++ b/chat_template.json
@ -0,0 +1,3 @@
+{
+    "chat_template": "{%- if tools %}\n    {{- '<|start_of_role|>available_tools<|end_of_role|>\n' }}\n    {%- for tool in tools %}\n    {{- tool | tojson(indent=4) }}\n    {%- if not loop.last %}\n        {{- '\n\n' }}\n    {%- endif %}\n    {%- endfor %}\n    {{- '<|end_of_text|>\n' }}\n{%- endif %}\n{%- for message in messages if message['role'] == 'system'%}{% else %}<|system|>\nA chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.\n{% endfor %}{%- for message in messages %}\n    {%- if message['role'] == 'system' %}\n    {{- '<|system|>\n' + message['content'][0]['text'] + '\n' }}\n    {%- elif message['role'] == 'user' %}<|user|>\n {# Render all images first #}{% for content in message['content'] | selectattr('type', 'equalto', 'image') %}{{ '<image>\n' }}{% endfor %}{# Render all text next #}{% for content in message['content'] | selectattr('type', 'equalto', 'text') %}{{ content['text'] + '\n' }}{% endfor %}\n{%- elif message['role'] == 'assistant' %}\n    {{- '<|assistant|>\n'  + message['content'][0]['text']  + '<|end_of_text|>' }}\n    {%- elif message['role'] == 'assistant_tool_call' %}\n    {{- '<|start_of_role|>assistant<|end_of_role|><|tool_call|>' + message['content'][0]['text']  + '<|end_of_text|>\n' }}\n    {%- elif message['role'] == 'tool_response' %}\n    {{- '<|start_of_role|>tool_response<|end_of_role|>' + message['content'][0]['text'] + '<|end_of_text|>\n' }}\n    {%- endif %}\n    {%- if loop.last and add_generation_prompt %}\n    {{- '<|assistant|>\n' }}\n    {%- endif %}\n{%- endfor %}"
+}
--- a/config.json
+++ b/config.json
@ -0,0 +1,168 @@
+{
+    "image_grid_pinpoints": [
+        [
+            384,
+            384
+        ],
+        [
+            384,
+            768
+        ],
+        [
+            384,
+            1152
+        ],
+        [
+            384,
+            1536
+        ],
+        [
+            384,
+            1920
+        ],
+        [
+            384,
+            2304
+        ],
+        [
+            384,
+            2688
+        ],
+        [
+            384,
+            3072
+        ],
+        [
+            384,
+            3456
+        ],
+        [
+            384,
+            3840
+        ],
+        [
+            768,
+            384
+        ],
+        [
+            768,
+            768
+        ],
+        [
+            768,
+            1152
+        ],
+        [
+            768,
+            1536
+        ],
+        [
+            768,
+            1920
+        ],
+        [
+            1152,
+            384
+        ],
+        [
+            1152,
+            768
+        ],
+        [
+            1152,
+            1152
+        ],
+        [
+            1536,
+            384
+        ],
+        [
+            1536,
+            768
+        ],
+        [
+            1920,
+            384
+        ],
+        [
+            1920,
+            768
+        ],
+        [
+            2304,
+            384
+        ],
+        [
+            2688,
+            384
+        ],
+        [
+            3072,
+            384
+        ],
+        [
+            3456,
+            384
+        ],
+        [
+            3840,
+            384
+        ]
+    ],
+    "tie_word_embeddings": true,
+    "transformers_version": "4.45.0.dev0",
+    "architectures": [
+        "LlavaNextForConditionalGeneration"
+    ],
+    "model_type": "llava_next",
+    "use_image_newline_parameter": true,
+    "vision_feature_layer": [
+        -24,
+        -20,
+        -12,
+        -1
+    ],
+    "vision_feature_select_strategy": "full",
+    "text_config": {
+        "architectures": [
+            "GraniteForCausalLM"
+        ],
+        "attention_bias": false,
+        "attention_dropout": 0.1,
+        "attention_multiplier": 0.015625,
+        "bos_token_id": 0,
+        "embedding_multiplier": 12.0,
+        "eos_token_id": 0,
+        "hidden_act": "silu",
+        "hidden_size": 2048,
+        "initializer_range": 0.02,
+        "intermediate_size": 8192,
+        "logits_scaling": 8.0,
+        "max_position_embeddings": 16384,
+        "mlp_bias": false,
+        "model_type": "granite",
+        "num_attention_heads": 32,
+        "num_hidden_layers": 40,
+        "num_key_value_heads": 8,
+        "pad_token_id": 0,
+        "residual_multiplier": 0.22,
+        "rms_norm_eps": 1e-05,
+        "rope_scaling": null,
+        "rope_theta": 300000,
+        "tie_word_embeddings": true,
+        "torch_dtype": "bfloat16",
+        "transformers_version": "4.46.0.dev0",
+        "use_cache": true,
+        "vocab_size": 49156
+    },
+    "image_token_index": 49155,
+    "vision_config": {
+        "hidden_size": 1152,
+        "image_size": 384,
+        "intermediate_size": 4304,
+        "model_type": "siglip_vision_model",
+        "num_attention_heads": 16,
+        "num_hidden_layers": 27,
+        "patch_size": 14
+    }
+}
--- a/example.png
+++ b/example.png
--- a/generation_config.json
+++ b/generation_config.json
@ -0,0 +1,7 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 0,
+  "pad_token_id": 0,
+  "transformers_version": "4.45.0.dev0"
+}
--- a/merges.txt
+++ b/merges.txt
--- a/model-00002-of-00002.safetensors
+++ b/model-00002-of-00002.safetensors
--- a/model.safetensors.index.json
+++ b/model.safetensors.index.json
@ -0,0 +1,822 @@
+{
+    "metadata": {
+        "total_size": 5950789760
+    },
+    "weight_map": {
+        "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+        "image_newline": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.30.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.31.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.32.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.33.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.34.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.35.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.36.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.37.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.38.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.39.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "language_model.model.layers.39.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "language_model.model.layers.39.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.39.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "language_model.model.layers.39.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "language_model.model.layers.39.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.39.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.39.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.39.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+        "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "multi_modal_projector.linear_1.bias": "model-00002-of-00002.safetensors",
+        "multi_modal_projector.linear_1.weight": "model-00002-of-00002.safetensors",
+        "multi_modal_projector.linear_2.bias": "model-00002-of-00002.safetensors",
+        "multi_modal_projector.linear_2.weight": "model-00002-of-00002.safetensors",
+        "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.embeddings.patch_embedding.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.embeddings.patch_embedding.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.embeddings.position_embedding.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.layer_norm1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.layer_norm1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.layer_norm2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.layer_norm2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.attention.in_proj_bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.attention.in_proj_weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.attention.out_proj.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.attention.out_proj.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.layernorm.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.layernorm.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.mlp.fc1.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.mlp.fc1.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.mlp.fc2.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.mlp.fc2.weight": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.head.probe": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.post_layernorm.bias": "model-00002-of-00002.safetensors",
+        "vision_tower.vision_model.post_layernorm.weight": "model-00002-of-00002.safetensors"
+    }
+}
--- a/preprocessor_config.json
+++ b/preprocessor_config.json
@ -0,0 +1,138 @@
+{
+    "crop_size": {
+        "height": 384,
+        "width": 384
+    },
+    "do_convert_rgb": null,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "image_mean": [
+        0.5,
+        0.5,
+        0.5
+    ],
+    "image_processor_type": "LlavaNextImageProcessor",
+    "image_std": [
+        0.5,
+        0.5,
+        0.5
+    ],
+    "processor_class": "LlavaNextProcessor",
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+        "height": 384,
+        "width": 384
+    },
+    "image_grid_pinpoints": [
+        [
+            384,
+            384
+        ],
+        [
+            384,
+            768
+        ],
+        [
+            384,
+            1152
+        ],
+        [
+            384,
+            1536
+        ],
+        [
+            384,
+            1920
+        ],
+        [
+            384,
+            2304
+        ],
+        [
+            384,
+            2688
+        ],
+        [
+            384,
+            3072
+        ],
+        [
+            384,
+            3456
+        ],
+        [
+            384,
+            3840
+        ],
+        [
+            768,
+            384
+        ],
+        [
+            768,
+            768
+        ],
+        [
+            768,
+            1152
+        ],
+        [
+            768,
+            1536
+        ],
+        [
+            768,
+            1920
+        ],
+        [
+            1152,
+            384
+        ],
+        [
+            1152,
+            768
+        ],
+        [
+            1152,
+            1152
+        ],
+        [
+            1536,
+            384
+        ],
+        [
+            1536,
+            768
+        ],
+        [
+            1920,
+            384
+        ],
+        [
+            1920,
+            768
+        ],
+        [
+            2304,
+            384
+        ],
+        [
+            2688,
+            384
+        ],
+        [
+            3072,
+            384
+        ],
+        [
+            3456,
+            384
+        ],
+        [
+            3840,
+            384
+        ]
+    ]
+}
--- a/processor_config.json
+++ b/processor_config.json
@ -0,0 +1,5 @@
+{
+    "patch_size": 14,
+    "processor_class": "LlavaNextProcessor",
+    "vision_feature_select_strategy": "full"
+}
--- a/special_tokens_map.json
+++ b/special_tokens_map.json
@ -0,0 +1,35 @@
+{
+  "additional_special_tokens": [
+    "<|start_of_role|>",
+    "<|end_of_role|>",
+    "<|tool_call|>"
+  ],
+  "bos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
--- a/tokenizer.json
+++ b/tokenizer.json
--- a/tokenizer_config.json
+++ b/tokenizer_config.json
@ -0,0 +1,206 @@
+{
+    "add_bos_token": false,
+    "add_prefix_space": false,
+    "added_tokens_decoder": {
+        "0": {
+            "content": "<|end_of_text|>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "1": {
+            "content": "<fim_prefix>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "2": {
+            "content": "<fim_middle>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "3": {
+            "content": "<fim_suffix>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "4": {
+            "content": "<fim_pad>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "5": {
+            "content": "<filename>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "6": {
+            "content": "<gh_stars>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "7": {
+            "content": "<issue_start>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "8": {
+            "content": "<issue_comment>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "9": {
+            "content": "<issue_closed>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "10": {
+            "content": "<jupyter_start>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "11": {
+            "content": "<jupyter_text>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "12": {
+            "content": "<jupyter_code>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "13": {
+            "content": "<jupyter_output>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "14": {
+            "content": "<empty_output>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "15": {
+            "content": "<commit_before>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "16": {
+            "content": "<commit_msg>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "17": {
+            "content": "<commit_after>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "18": {
+            "content": "<reponame>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "49152": {
+            "content": "<|start_of_role|>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "49153": {
+            "content": "<|end_of_role|>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "49154": {
+            "content": "<|tool_call|>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        },
+        "49155": {
+            "content": "<image>",
+            "lstrip": false,
+            "normalized": false,
+            "rstrip": false,
+            "single_word": false,
+            "special": true
+        }
+    },
+    "additional_special_tokens": [
+        "<|start_of_role|>",
+        "<|end_of_role|>",
+        "<|tool_call|>"
+    ],
+    "bos_token": "<|end_of_text|>",
+    "chat_template": "{%- if tools %}\n    {{- '<|start_of_role|>available_tools<|end_of_role|>\n' }}\n    {%- for tool in tools %}\n    {{- tool | tojson(indent=4) }}\n    {%- if not loop.last %}\n        {{- '\n\n' }}\n    {%- endif %}\n    {%- endfor %}\n    {{- '<|end_of_text|>\n' }}\n{%- endif %}\n{%- for message in messages if message['role'] == 'system'%}{% else %}<|system|>\nA chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.\n{% endfor %}{%- for message in messages %}\n    {%- if message['role'] == 'system' %}\n    {{- '<|system|>\n' + message['content'] + '\n' }}\n    {%- elif message['role'] == 'user' %}\n    {{- '<|user|>\n' + message['content'] + '\n' }}\n    {%- elif message['role'] == 'assistant' %}\n    {{- '<|assistant|>\n'  + message['content'] + '<|end_of_text|>' }}\n    {%- elif message['role'] == 'assistant_tool_call' %}\n    {{- '<|start_of_role|>assistant<|end_of_role|><|tool_call|>' + message['content'] + '<|end_of_text|>\n' }}\n    {%- elif message['role'] == 'tool_response' %}\n    {{- '<|start_of_role|>tool_response<|end_of_role|>' + message['content'] + '<|end_of_text|>\n' }}\n    {%- endif %}\n    {%- if loop.last and add_generation_prompt %}\n    {{- '<|assistant|>\n' }}\n    {%- endif %}\n{%- endfor %}",
+    "clean_up_tokenization_spaces": true,
+    "eos_token": "<|end_of_text|>",
+    "errors": "replace",
+    "model_max_length": 16384,
+    "pad_token": "<|end_of_text|>",
+    "padding_side": "right",
+    "tokenizer_class": "GPT2Tokenizer",
+    "unk_token": "<|end_of_text|>",
+    "vocab_size": 49152
+}
--- a/vocab.json
+++ b/vocab.json