upload dataset folder to repo

Browse files

Files changed (3) hide show

README.md +62 -3
adapter_config.json +276 -0
adapter_model.safetensors +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,62 @@
----
-license: apache-2.0
----

+---
+library_name: peft
+license: other
+base_model: Qwen/Qwen2.5-VL-72B-Instruct
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+model-index:
+- name: 72B
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# v7-72B
+This model is a fine-tuned version of [/share/project/shared_models/Qwen2.5-VL-72B-Instruct](https://huggingface.co//share/project/shared_models/Qwen2.5-VL-72B-Instruct) on the v7-2_8models_omnigen2-4samples_gpt4-1_range_0to25 dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 16
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 128
+- total_eval_batch_size: 128
+- optimizer: Use adamw_torch_fused with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- PEFT 0.15.2
+- Transformers 4.55.0
+- Pytorch 2.8.0+cu128
+- Datasets 3.6.0
+- Tokenizers 0.21.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,276 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "Qwen/Qwen2.5-VL-72B-Instruct",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 64,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "70.mlp.down_proj",
+    "42.mlp.down_proj",
+    "layers.5.mlp.up_proj",
+    "layers.20.mlp.down_proj",
+    "layers.1.mlp.up_proj",
+    "55.mlp.gate_proj",
+    "layers.20.mlp.up_proj",
+    "79.mlp.gate_proj",
+    "layers.29.mlp.up_proj",
+    "76.mlp.up_proj",
+    "o_proj",
+    "53.mlp.up_proj",
+    "layers.6.mlp.gate_proj",
+    "layers.7.mlp.up_proj",
+    "69.mlp.up_proj",
+    "68.mlp.gate_proj",
+    "layers.22.mlp.down_proj",
+    "layers.14.mlp.down_proj",
+    "layers.14.mlp.gate_proj",
+    "layers.12.mlp.up_proj",
+    "72.mlp.gate_proj",
+    "68.mlp.down_proj",
+    "layers.28.mlp.gate_proj",
+    "40.mlp.gate_proj",
+    "41.mlp.up_proj",
+    "45.mlp.up_proj",
+    "66.mlp.gate_proj",
+    "79.mlp.down_proj",
+    "65.mlp.gate_proj",
+    "46.mlp.down_proj",
+    "33.mlp.up_proj",
+    "layers.17.mlp.gate_proj",
+    "63.mlp.down_proj",
+    "76.mlp.gate_proj",
+    "layers.2.mlp.down_proj",
+    "42.mlp.gate_proj",
+    "layers.23.mlp.gate_proj",
+    "73.mlp.down_proj",
+    "layers.9.mlp.down_proj",
+    "56.mlp.down_proj",
+    "layers.18.mlp.up_proj",
+    "layers.6.mlp.down_proj",
+    "48.mlp.up_proj",
+    "71.mlp.up_proj",
+    "52.mlp.down_proj",
+    "44.mlp.gate_proj",
+    "layers.27.mlp.up_proj",
+    "34.mlp.up_proj",
+    "43.mlp.gate_proj",
+    "60.mlp.up_proj",
+    "67.mlp.down_proj",
+    "layers.0.mlp.down_proj",
+    "49.mlp.down_proj",
+    "layers.23.mlp.up_proj",
+    "66.mlp.up_proj",
+    "v_proj",
+    "34.mlp.gate_proj",
+    "layers.7.mlp.down_proj",
+    "53.mlp.down_proj",
+    "59.mlp.up_proj",
+    "layers.3.mlp.down_proj",
+    "layers.5.mlp.down_proj",
+    "layers.26.mlp.up_proj",
+    "71.mlp.gate_proj",
+    "layers.7.mlp.gate_proj",
+    "50.mlp.down_proj",
+    "layers.5.mlp.gate_proj",
+    "layers.13.mlp.down_proj",
+    "layers.30.mlp.down_proj",
+    "layers.2.mlp.up_proj",
+    "layers.8.mlp.down_proj",
+    "layers.28.mlp.down_proj",
+    "45.mlp.down_proj",
+    "58.mlp.gate_proj",
+    "59.mlp.down_proj",
+    "layers.13.mlp.up_proj",
+    "39.mlp.down_proj",
+    "60.mlp.down_proj",
+    "layers.16.mlp.up_proj",
+    "layers.31.mlp.up_proj",
+    "layers.4.mlp.gate_proj",
+    "41.mlp.gate_proj",
+    "layers.24.mlp.down_proj",
+    "layers.29.mlp.down_proj",
+    "37.mlp.down_proj",
+    "38.mlp.gate_proj",
+    "45.mlp.gate_proj",
+    "52.mlp.gate_proj",
+    "69.mlp.down_proj",
+    "44.mlp.up_proj",
+    "51.mlp.down_proj",
+    "37.mlp.gate_proj",
+    "layers.2.mlp.gate_proj",
+    "35.mlp.gate_proj",
+    "55.mlp.up_proj",
+    "75.mlp.up_proj",
+    "35.mlp.down_proj",
+    "32.mlp.gate_proj",
+    "layers.31.mlp.gate_proj",
+    "47.mlp.down_proj",
+    "layers.3.mlp.up_proj",
+    "63.mlp.gate_proj",
+    "layers.1.mlp.down_proj",
+    "75.mlp.down_proj",
+    "51.mlp.gate_proj",
+    "33.mlp.gate_proj",
+    "layers.11.mlp.gate_proj",
+    "76.mlp.down_proj",
+    "layers.21.mlp.gate_proj",
+    "59.mlp.gate_proj",
+    "78.mlp.down_proj",
+    "layers.19.mlp.gate_proj",
+    "74.mlp.gate_proj",
+    "layers.9.mlp.gate_proj",
+    "39.mlp.up_proj",
+    "33.mlp.down_proj",
+    "51.mlp.up_proj",
+    "layers.21.mlp.up_proj",
+    "layers.15.mlp.gate_proj",
+    "56.mlp.gate_proj",
+    "41.mlp.down_proj",
+    "48.mlp.down_proj",
+    "layers.22.mlp.gate_proj",
+    "66.mlp.down_proj",
+    "73.mlp.up_proj",
+    "layers.14.mlp.up_proj",
+    "56.mlp.up_proj",
+    "77.mlp.up_proj",
+    "layers.31.mlp.down_proj",
+    "37.mlp.up_proj",
+    "63.mlp.up_proj",
+    "layers.0.mlp.gate_proj",
+    "79.mlp.up_proj",
+    "layers.25.mlp.gate_proj",
+    "47.mlp.up_proj",
+    "62.mlp.gate_proj",
+    "64.mlp.gate_proj",
+    "61.mlp.gate_proj",
+    "47.mlp.gate_proj",
+    "layers.16.mlp.gate_proj",
+    "62.mlp.down_proj",
+    "layers.20.mlp.gate_proj",
+    "64.mlp.down_proj",
+    "64.mlp.up_proj",
+    "50.mlp.up_proj",
+    "43.mlp.down_proj",
+    "74.mlp.down_proj",
+    "layers.15.mlp.down_proj",
+    "layers.10.mlp.gate_proj",
+    "52.mlp.up_proj",
+    "layers.8.mlp.up_proj",
+    "61.mlp.down_proj",
+    "62.mlp.up_proj",
+    "54.mlp.down_proj",
+    "53.mlp.gate_proj",
+    "layers.11.mlp.up_proj",
+    "78.mlp.up_proj",
+    "k_proj",
+    "layers.3.mlp.gate_proj",
+    "73.mlp.gate_proj",
+    "layers.15.mlp.up_proj",
+    "layers.28.mlp.up_proj",
+    "40.mlp.down_proj",
+    "layers.23.mlp.down_proj",
+    "38.mlp.down_proj",
+    "69.mlp.gate_proj",
+    "layers.27.mlp.gate_proj",
+    "67.mlp.gate_proj",
+    "70.mlp.gate_proj",
+    "78.mlp.gate_proj",
+    "layers.4.mlp.down_proj",
+    "layers.8.mlp.gate_proj",
+    "layers.30.mlp.gate_proj",
+    "layers.27.mlp.down_proj",
+    "layers.30.mlp.up_proj",
+    "layers.21.mlp.down_proj",
+    "layers.10.mlp.down_proj",
+    "layers.1.mlp.gate_proj",
+    "layers.25.mlp.up_proj",
+    "54.mlp.up_proj",
+    "72.mlp.down_proj",
+    "q_proj",
+    "layers.9.mlp.up_proj",
+    "77.mlp.down_proj",
+    "42.mlp.up_proj",
+    "layers.16.mlp.down_proj",
+    "65.mlp.down_proj",
+    "layers.29.mlp.gate_proj",
+    "71.mlp.down_proj",
+    "54.mlp.gate_proj",
+    "layers.4.mlp.up_proj",
+    "32.mlp.up_proj",
+    "layers.19.mlp.up_proj",
+    "39.mlp.gate_proj",
+    "32.mlp.down_proj",
+    "38.mlp.up_proj",
+    "44.mlp.down_proj",
+    "75.mlp.gate_proj",
+    "layers.17.mlp.down_proj",
+    "layers.26.mlp.gate_proj",
+    "34.mlp.down_proj",
+    "layers.10.mlp.up_proj",
+    "60.mlp.gate_proj",
+    "49.mlp.gate_proj",
+    "57.mlp.up_proj",
+    "layers.24.mlp.gate_proj",
+    "77.mlp.gate_proj",
+    "57.mlp.down_proj",
+    "43.mlp.up_proj",
+    "layers.18.mlp.down_proj",
+    "layers.6.mlp.up_proj",
+    "36.mlp.down_proj",
+    "layers.12.mlp.gate_proj",
+    "50.mlp.gate_proj",
+    "61.mlp.up_proj",
+    "57.mlp.gate_proj",
+    "46.mlp.up_proj",
+    "68.mlp.up_proj",
+    "67.mlp.up_proj",
+    "layers.0.mlp.up_proj",
+    "72.mlp.up_proj",
+    "layers.13.mlp.gate_proj",
+    "65.mlp.up_proj",
+    "layers.17.mlp.up_proj",
+    "74.mlp.up_proj",
+    "40.mlp.up_proj",
+    "layers.12.mlp.down_proj",
+    "49.mlp.up_proj",
+    "35.mlp.up_proj",
+    "layers.11.mlp.down_proj",
+    "layers.18.mlp.gate_proj",
+    "layers.25.mlp.down_proj",
+    "46.mlp.gate_proj",
+    "layers.19.mlp.down_proj",
+    "48.mlp.gate_proj",
+    "layers.22.mlp.up_proj",
+    "58.mlp.down_proj",
+    "55.mlp.down_proj",
+    "36.mlp.up_proj",
+    "58.mlp.up_proj",
+    "70.mlp.up_proj",
+    "36.mlp.gate_proj",
+    "layers.26.mlp.down_proj",
+    "layers.24.mlp.up_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ffe4e3f9f29a2e942dca4efea670773f7a67f9473dd8c79809b1e3ec585bd68
+size 842307048