Add Qwen3-0.6B+Qwen3-30B-A3B router files

Browse files

Files changed (1) hide show

Qwen3-0.6B+Qwen3-30B-A3B/default_router.json +75 -0

Qwen3-0.6B+Qwen3-30B-A3B/default_router.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "model": {
+    "model_type": "HiddenStatesTokenLMHeadLogitsClassifier",
+    "init_args": {
+      "hidden_states_size": 1024,
+      "logits_size": 100,
+      "hidden_dims": [
+        1024,
+        1024,
+        1024,
+        1024,
+        1024,
+        1024
+      ],
+      "expansion_factor": 4,
+      "dropout_rate": 0.1,
+      "use_position_embedding": false,
+      "freeze_lm_head": true,
+      "normalize_input": false,
+      "pretrained_model_name": "Qwen/Qwen3-0.6B"
+    },
+    "model_specific_args": {},
+    "input_type": [
+      "hidden_states",
+      "token",
+      "logits"
+    ],
+    "output_type": "binary"
+  },
+  "data": {
+    "train": {
+      "path": [
+        "local:path_to_train_data"
+      ],
+      "type": "divergent",
+      "input_prefix": "small_"
+    },
+    "test": {
+      "path": [
+        "local:path_to_test_data"
+      ],
+      "type": "divergent",
+      "input_prefix": "small_"
+    }
+  },
+  "training": {
+    "optimizer": {
+      "lr": 5e-05,
+      "weight_decay": 0.0005
+    },
+    "params": {
+      "num_epochs": 50,
+      "batch_size": 1024,
+      "patience": 10,
+      "device": "cuda"
+    },
+    "loss": {
+      "type": "BCEWithLogitsLoss",
+      "recall_factor": 1.0
+    },
+    "validation": {
+      "valid_freq": 2
+    },
+    "dtype": "float32"
+  },
+  "optimizing": {
+    "type": "threshold",
+    "min_recall": 0.95
+  },
+  "output": {
+    "output_dir": "resource/default_router",
+    "checkpoint_dir": "output/checkpoint",
+    "model_name": null
+  }
+}