dacorvo HF Staff commited on Aug 8

Commit

db84f27

verified ·

1 Parent(s): aa1b2eb

Synchronizing local compiler cache.

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +43 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/472a770f88aa706cc069.json +48 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/a85c3dc47194a5aa85b7.json +48 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/da7c3d01a884e9eaf7aa.json +48 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/dea5e51aab908bb1faf4.json +48 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/t5/hf-internal-testing/tiny-random-t5/90fc00d245a475881f2d.json +83 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/t5/hf-internal-testing/tiny-random-t5/ba9d5cfdf8c69960595d.json +83 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/t5/michaelbenayoun/t5-tiny-random/6beaa79eba804c91b7f0.json +87 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/whisper/openai/whisper-tiny/194b31bed93b40db7261.json +341 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/60271363e0e147450b0f.json +73 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/a9e5f04b708cd397fbdd.json +73 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/de79a3968941a6d3864f.json +73 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/ibm-granite/granite-3.1-2b-instruct/88b875373b8f560b1846.json +73 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/HuggingFaceTB/SmolLM-360M-Instruct/6be50a69453e7cde56e6.json +71 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/HuggingFaceTB/SmolLM-360M-Instruct/e001545c160c490bc3dc.json +71 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/28b90633a77c30e8a187.json +77 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/88a97541d018d7aa0b29.json +77 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/d5ebfe6b214bbe06f508.json +77 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/d8f338a72f4bb0a4682d.json +77 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/unsloth/Llama-3.2-1B-Instruct/1493d95b28224e557402.json +78 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/unsloth/Llama-3.2-1B-Instruct/c0e55ed19e394eae72e1.json +78 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/unsloth/Llama-3.2-1B-Instruct/f7ed18f9ae29fab731ad.json +78 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/microsoft/Phi-3-mini-4k-instruct/bc49a96387cb4ac54b52.json +77 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/yujiepan/phi-4-tiny-random/0d648a236d7cc578c5a8.json +74 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/yujiepan/phi-4-tiny-random/1228009b3909ec8d9751.json +74 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/yujiepan/phi-4-tiny-random/1c5104d89e025d3fb8db.json +74 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/Qwen/Qwen2.5-0.5B/7d50efbc97c5d9065339.json +97 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/Qwen/Qwen2.5-0.5B/bc2305d84871fc53d104.json +97 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/Qwen/Qwen2.5-0.5B/c1641d901bddd7fcd951.json +97 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/yujiepan/qwen2.5-128k-tiny-random/4f65451820dd0eadcdca.json +79 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/yujiepan/qwen2.5-128k-tiny-random/d7566c1b656e75712c0c.json +79 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/yujiepan/qwen2.5-128k-tiny-random/f47233e40681eaec5807.json +79 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3/Qwen/Qwen3-0.6B/dbab350f637653f9573c.json +102 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/smollm3/HuggingFaceTB/SmolLM3-3B/201514bb851048acee3d.json +149 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/smollm3/HuggingFaceTB/SmolLM3-3B/452ec18c8952f9cf8540.json +149 -0
neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/smollm3/HuggingFaceTB/SmolLM3-3B/5d8c5cf3fc0708ee5e47.json +149 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/compile_flags.json +1 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.done +0 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.hlo_module.pb +3 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.neff +3 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/model.done +0 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/model.neff +0 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_11137652962366101371+e30acd3a/model.neff +0 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/compile_flags.json +1 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/model.done +0 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/model.hlo_module.pb +3 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/model.neff +0 -0
neuronxcc-2.19.8089.0+8ab9f450/MODULE_180632648874ecca533b+431f5505/compile_flags.json +1 -0

.gitattributes CHANGED Viewed

@@ -10189,3 +10189,46 @@ neuronxcc-2.20.9961.0+0acef03a/MODULE_f6fe1f7719e8a4b503de+ed72d204/model.neff f
 neuronxcc-2.20.9961.0+0acef03a/MODULE_fdd3c2470676e1b82f01+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.20.9961.0+0acef03a/MODULE_fdd3c2470676e1b82f01+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.20.9961.0+0acef03a/MODULE_ff351d57db88c064c02a+ae6a382b/model.neff filter=lfs diff=lfs merge=lfs -text

 neuronxcc-2.20.9961.0+0acef03a/MODULE_fdd3c2470676e1b82f01+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.20.9961.0+0acef03a/MODULE_fdd3c2470676e1b82f01+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
 neuronxcc-2.20.9961.0+0acef03a/MODULE_ff351d57db88c064c02a+ae6a382b/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_180632648874ecca533b+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_181fab47227545c6ca3d+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_194b31bed93b40db7261/decoder/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_194b31bed93b40db7261/encoder/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_29c699a35eb0b8dda4d5+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_29c699a35eb0b8dda4d5+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_2a0e49c667677654f338+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_31c02ce7909760fcef58+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_31c02ce7909760fcef58+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_361bbbe50bcb5d93efd7+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_389bcc74371d275ea994+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_472a770f88aa706cc069/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_472a770f88aa706cc069/neff/graph.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_5ccf2a69bdfc5d169f2d+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_5ccf2a69bdfc5d169f2d+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_6d586807599978ef8cde+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_73c589d90c6dd4a8e621+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_73c589d90c6dd4a8e621+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_90537ca32d559b5b82ed+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_90537ca32d559b5b82ed+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_90fc00d245a475881f2d/decoder/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_90fc00d245a475881f2d/encoder/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_918e4e74132a22b1325a+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_99cc1c9ae1821c911a47+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_a7dbf92613799cba0f65+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_a85c3dc47194a5aa85b7/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_af00345a8f045c9c3128+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_af00345a8f045c9c3128+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b2f70bdbe8eeeceb6e97+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b40cc073965f8f64e893+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b40cc073965f8f64e893+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b652d0e4d243f31a7a28+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_b971b0cfe381a56e8f95+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_ba9d5cfdf8c69960595d/decoder/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_ba9d5cfdf8c69960595d/encoder/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_c95f9cae22467b36d97b+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_da7c3d01a884e9eaf7aa/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_dea5e51aab908bb1faf4/model.neuron filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_e6d572d4fefccab468fd+a9d440f5/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_e6d572d4fefccab468fd+a9d440f5/wrapped_neff.hlo filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_eaab44bef2023a6646ef+431f5505/model.neff filter=lfs diff=lfs merge=lfs -text
+neuronxcc-2.19.8089.0+8ab9f450/MODULE_f9ed5e3ab30730f18597+ed72d204/model.neff filter=lfs diff=lfs merge=lfs -text

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/472a770f88aa706cc069.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-BertModel",
+  "_task": "text-classification",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 37,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "neuron": {
+    "auto_cast": null,
+    "auto_cast_type": null,
+    "compiler_type": "neuronx-cc",
+    "compiler_version": "2.19.8089.0+8ab9f450",
+    "dynamic_batch_size": false,
+    "inline_weights_to_neff": false,
+    "input_names": [
+      "input_ids",
+      "attention_mask",
+      "token_type_ids"
+    ],
+    "model_type": "bert",
+    "optlevel": "2",
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_names": [
+      "logits"
+    ],
+    "static_batch_size": 1,
+    "static_sequence_length": 16,
+    "task": "text-classification",
+    "tensor_parallel_size": 1
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 5,
+  "position_embedding_type": "absolute",
+  "type_vocab_size": 16,
+  "use_cache": true,
+  "vocab_size": 1124
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/a85c3dc47194a5aa85b7.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-BertModel",
+  "_task": "text-classification",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 37,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "neuron": {
+    "auto_cast": null,
+    "auto_cast_type": null,
+    "compiler_type": "neuronx-cc",
+    "compiler_version": "2.19.8089.0+8ab9f450",
+    "dynamic_batch_size": false,
+    "inline_weights_to_neff": false,
+    "input_names": [
+      "input_ids",
+      "attention_mask",
+      "token_type_ids"
+    ],
+    "model_type": "bert",
+    "optlevel": "3",
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_names": [
+      "logits"
+    ],
+    "static_batch_size": 1,
+    "static_sequence_length": 16,
+    "task": "text-classification",
+    "tensor_parallel_size": 1
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 5,
+  "position_embedding_type": "absolute",
+  "type_vocab_size": 16,
+  "use_cache": true,
+  "vocab_size": 1124
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/da7c3d01a884e9eaf7aa.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-BertModel",
+  "_task": "text-classification",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 37,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "neuron": {
+    "auto_cast": null,
+    "auto_cast_type": null,
+    "compiler_type": "neuronx-cc",
+    "compiler_version": "2.19.8089.0+8ab9f450",
+    "dynamic_batch_size": true,
+    "inline_weights_to_neff": false,
+    "input_names": [
+      "input_ids",
+      "attention_mask",
+      "token_type_ids"
+    ],
+    "model_type": "bert",
+    "optlevel": "2",
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_names": [
+      "logits"
+    ],
+    "static_batch_size": 1,
+    "static_sequence_length": 16,
+    "task": "text-classification",
+    "tensor_parallel_size": 1
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 5,
+  "position_embedding_type": "absolute",
+  "type_vocab_size": 16,
+  "use_cache": true,
+  "vocab_size": 1124
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/bert/hf-internal-testing/tiny-random-BertModel/dea5e51aab908bb1faf4.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-BertModel",
+  "_task": "text-classification",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 37,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "neuron": {
+    "auto_cast": null,
+    "auto_cast_type": null,
+    "compiler_type": "neuronx-cc",
+    "compiler_version": "2.19.8089.0+8ab9f450",
+    "dynamic_batch_size": false,
+    "inline_weights_to_neff": false,
+    "input_names": [
+      "input_ids",
+      "attention_mask",
+      "token_type_ids"
+    ],
+    "model_type": "bert",
+    "optlevel": "1",
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_names": [
+      "logits"
+    ],
+    "static_batch_size": 1,
+    "static_sequence_length": 16,
+    "task": "text-classification",
+    "tensor_parallel_size": 1
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 5,
+  "position_embedding_type": "absolute",
+  "type_vocab_size": 16,
+  "use_cache": true,
+  "vocab_size": 1124
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/t5/hf-internal-testing/tiny-random-t5/90fc00d245a475881f2d.json ADDED Viewed

	@@ -0,0 +1,83 @@

+{
+  "_entry_class": "MultiModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-t5",
+  "_task": null,
+  "decoder": {
+    "classifier_dropout": 0.0,
+    "d_ff": 37,
+    "d_kv": 8,
+    "d_model": 32,
+    "decoder_start_token_id": 0,
+    "dense_act_fn": "relu",
+    "dropout_rate": 0.1,
+    "feed_forward_proj": "relu",
+    "gradient_checkpointing": false,
+    "initializer_factor": 0.002,
+    "is_encoder_decoder": true,
+    "is_gated_act": false,
+    "layer_norm_epsilon": 1e-06,
+    "model_type": "t5",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": true,
+      "output_hidden_states": true,
+      "static_batch_size": 1,
+      "static_num_beams": 4,
+      "static_sequence_length": 18,
+      "task": "text2text-generation",
+      "tensor_parallel_size": 1
+    },
+    "num_decoder_layers": 5,
+    "num_heads": 4,
+    "num_layers": 5,
+    "relative_attention_max_distance": 128,
+    "relative_attention_num_buckets": 8,
+    "use_cache": true,
+    "vocab_size": 1103
+  },
+  "encoder": {
+    "classifier_dropout": 0.0,
+    "d_ff": 37,
+    "d_kv": 8,
+    "d_model": 32,
+    "decoder_start_token_id": 0,
+    "dense_act_fn": "relu",
+    "dropout_rate": 0.1,
+    "feed_forward_proj": "relu",
+    "gradient_checkpointing": false,
+    "initializer_factor": 0.002,
+    "is_encoder_decoder": true,
+    "is_gated_act": false,
+    "layer_norm_epsilon": 1e-06,
+    "model_type": "t5",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": true,
+      "output_hidden_states": true,
+      "static_batch_size": 1,
+      "static_num_beams": 4,
+      "static_sequence_length": 18,
+      "task": "text2text-generation",
+      "tensor_parallel_size": 1
+    },
+    "num_decoder_layers": 5,
+    "num_heads": 4,
+    "num_layers": 5,
+    "relative_attention_max_distance": 128,
+    "relative_attention_num_buckets": 8,
+    "use_cache": true,
+    "vocab_size": 1103
+  }
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/t5/hf-internal-testing/tiny-random-t5/ba9d5cfdf8c69960595d.json ADDED Viewed

	@@ -0,0 +1,83 @@

+{
+  "_entry_class": "MultiModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-t5",
+  "_task": null,
+  "decoder": {
+    "classifier_dropout": 0.0,
+    "d_ff": 37,
+    "d_kv": 8,
+    "d_model": 32,
+    "decoder_start_token_id": 0,
+    "dense_act_fn": "relu",
+    "dropout_rate": 0.1,
+    "feed_forward_proj": "relu",
+    "gradient_checkpointing": false,
+    "initializer_factor": 0.002,
+    "is_encoder_decoder": true,
+    "is_gated_act": false,
+    "layer_norm_epsilon": 1e-06,
+    "model_type": "t5",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "static_batch_size": 1,
+      "static_num_beams": 4,
+      "static_sequence_length": 18,
+      "task": "text2text-generation",
+      "tensor_parallel_size": 1
+    },
+    "num_decoder_layers": 5,
+    "num_heads": 4,
+    "num_layers": 5,
+    "relative_attention_max_distance": 128,
+    "relative_attention_num_buckets": 8,
+    "use_cache": true,
+    "vocab_size": 1103
+  },
+  "encoder": {
+    "classifier_dropout": 0.0,
+    "d_ff": 37,
+    "d_kv": 8,
+    "d_model": 32,
+    "decoder_start_token_id": 0,
+    "dense_act_fn": "relu",
+    "dropout_rate": 0.1,
+    "feed_forward_proj": "relu",
+    "gradient_checkpointing": false,
+    "initializer_factor": 0.002,
+    "is_encoder_decoder": true,
+    "is_gated_act": false,
+    "layer_norm_epsilon": 1e-06,
+    "model_type": "t5",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "static_batch_size": 1,
+      "static_num_beams": 4,
+      "static_sequence_length": 18,
+      "task": "text2text-generation",
+      "tensor_parallel_size": 1
+    },
+    "num_decoder_layers": 5,
+    "num_heads": 4,
+    "num_layers": 5,
+    "relative_attention_max_distance": 128,
+    "relative_attention_num_buckets": 8,
+    "use_cache": true,
+    "vocab_size": 1103
+  }
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/t5/michaelbenayoun/t5-tiny-random/6beaa79eba804c91b7f0.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "_entry_class": "MultiModelCacheEntry",
+  "_model_id": "michaelbenayoun/t5-tiny-random",
+  "_task": null,
+  "decoder": {
+    "architectures": [
+      "T5ForConditionalGeneration"
+    ],
+    "classifier_dropout": 0.0,
+    "d_ff": 128,
+    "d_kv": 8,
+    "d_model": 64,
+    "decoder_start_token_id": 0,
+    "dense_act_fn": "relu",
+    "dropout_rate": 0.1,
+    "feed_forward_proj": "relu",
+    "initializer_factor": 0.2,
+    "is_encoder_decoder": true,
+    "is_gated_act": false,
+    "layer_norm_epsilon": 1e-06,
+    "model_type": "t5",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "static_batch_size": 1,
+      "static_num_beams": 4,
+      "static_sequence_length": 18,
+      "task": "text2text-generation",
+      "tensor_parallel_size": 2
+    },
+    "num_decoder_layers": 5,
+    "num_heads": 32,
+    "num_layers": 2,
+    "relative_attention_max_distance": 128,
+    "relative_attention_num_buckets": 8,
+    "use_cache": true,
+    "vocab_size": 32128
+  },
+  "encoder": {
+    "architectures": [
+      "T5ForConditionalGeneration"
+    ],
+    "classifier_dropout": 0.0,
+    "d_ff": 128,
+    "d_kv": 8,
+    "d_model": 64,
+    "decoder_start_token_id": 0,
+    "dense_act_fn": "relu",
+    "dropout_rate": 0.1,
+    "feed_forward_proj": "relu",
+    "initializer_factor": 0.2,
+    "is_encoder_decoder": true,
+    "is_gated_act": false,
+    "layer_norm_epsilon": 1e-06,
+    "model_type": "t5",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "static_batch_size": 1,
+      "static_num_beams": 4,
+      "static_sequence_length": 18,
+      "task": "text2text-generation",
+      "tensor_parallel_size": 2
+    },
+    "num_decoder_layers": 5,
+    "num_heads": 32,
+    "num_layers": 2,
+    "relative_attention_max_distance": 128,
+    "relative_attention_num_buckets": 8,
+    "use_cache": true,
+    "vocab_size": 32128
+  }
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.0.dev5/whisper/openai/whisper-tiny/194b31bed93b40db7261.json ADDED Viewed

	@@ -0,0 +1,341 @@

+{
+  "_entry_class": "MultiModelCacheEntry",
+  "_model_id": "openai/whisper-tiny",
+  "_task": null,
+  "decoder": {
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "apply_spec_augment": false,
+    "architectures": [
+      "WhisperForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "begin_suppress_tokens": [
+      220,
+      50257
+    ],
+    "classifier_proj_size": 256,
+    "d_model": 384,
+    "decoder_attention_heads": 6,
+    "decoder_ffn_dim": 1536,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 4,
+    "decoder_start_token_id": 50258,
+    "dropout": 0.0,
+    "encoder_attention_heads": 6,
+    "encoder_ffn_dim": 1536,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 4,
+    "forced_decoder_ids": [
+      [
+        1,
+        50259
+      ],
+      [
+        2,
+        50359
+      ],
+      [
+        3,
+        50363
+      ]
+    ],
+    "init_std": 0.02,
+    "is_encoder_decoder": true,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.05,
+    "max_length": 448,
+    "max_source_positions": 1500,
+    "max_target_positions": 448,
+    "median_filter_width": 7,
+    "model_type": "whisper",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "static_batch_size": 1,
+      "static_nb_max_frames": 3000,
+      "static_sequence_length": 32,
+      "task": "automatic-speech-recognition",
+      "tensor_parallel_size": 1
+    },
+    "num_hidden_layers": 4,
+    "num_mel_bins": 80,
+    "scale_embedding": false,
+    "stride": [
+      1,
+      2
+    ],
+    "suppress_tokens": [
+      1,
+      2,
+      7,
+      8,
+      9,
+      10,
+      14,
+      25,
+      26,
+      27,
+      28,
+      29,
+      31,
+      58,
+      59,
+      60,
+      61,
+      62,
+      63,
+      90,
+      91,
+      92,
+      93,
+      359,
+      503,
+      522,
+      542,
+      873,
+      893,
+      902,
+      918,
+      922,
+      931,
+      1350,
+      1853,
+      1982,
+      2460,
+      2627,
+      3246,
+      3253,
+      3268,
+      3536,
+      3846,
+      3961,
+      4183,
+      4667,
+      6585,
+      6647,
+      7273,
+      9061,
+      9383,
+      10428,
+      10929,
+      11938,
+      12033,
+      12331,
+      12562,
+      13793,
+      14157,
+      14635,
+      15265,
+      15618,
+      16553,
+      16604,
+      18362,
+      18956,
+      20075,
+      21675,
+      22520,
+      26130,
+      26161,
+      26435,
+      28279,
+      29464,
+      31650,
+      32302,
+      32470,
+      36865,
+      42863,
+      47425,
+      49870,
+      50254,
+      50258,
+      50358,
+      50359,
+      50360,
+      50361,
+      50362
+    ],
+    "use_cache": true,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 51865
+  },
+  "encoder": {
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "apply_spec_augment": false,
+    "architectures": [
+      "WhisperForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "begin_suppress_tokens": [
+      220,
+      50257
+    ],
+    "classifier_proj_size": 256,
+    "d_model": 384,
+    "decoder_attention_heads": 6,
+    "decoder_ffn_dim": 1536,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 4,
+    "decoder_start_token_id": 50258,
+    "dropout": 0.0,
+    "encoder_attention_heads": 6,
+    "encoder_ffn_dim": 1536,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 4,
+    "forced_decoder_ids": [
+      [
+        1,
+        50259
+      ],
+      [
+        2,
+        50359
+      ],
+      [
+        3,
+        50363
+      ]
+    ],
+    "init_std": 0.02,
+    "is_encoder_decoder": true,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.05,
+    "max_length": 448,
+    "max_source_positions": 1500,
+    "max_target_positions": 448,
+    "median_filter_width": 7,
+    "model_type": "whisper",
+    "neuron": {
+      "auto_cast": "matmul",
+      "auto_cast_type": "bf16",
+      "compiler_type": "neuronx-cc",
+      "compiler_version": "2.19.8089.0+8ab9f450",
+      "dynamic_batch_size": false,
+      "inline_weights_to_neff": false,
+      "optlevel": "2",
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "static_batch_size": 1,
+      "static_nb_max_frames": 3000,
+      "static_sequence_length": 32,
+      "task": "automatic-speech-recognition",
+      "tensor_parallel_size": 1
+    },
+    "num_hidden_layers": 4,
+    "num_mel_bins": 80,
+    "scale_embedding": false,
+    "stride": [
+      1,
+      2
+    ],
+    "suppress_tokens": [
+      1,
+      2,
+      7,
+      8,
+      9,
+      10,
+      14,
+      25,
+      26,
+      27,
+      28,
+      29,
+      31,
+      58,
+      59,
+      60,
+      61,
+      62,
+      63,
+      90,
+      91,
+      92,
+      93,
+      359,
+      503,
+      522,
+      542,
+      873,
+      893,
+      902,
+      918,
+      922,
+      931,
+      1350,
+      1853,
+      1982,
+      2460,
+      2627,
+      3246,
+      3253,
+      3268,
+      3536,
+      3846,
+      3961,
+      4183,
+      4667,
+      6585,
+      6647,
+      7273,
+      9061,
+      9383,
+      10428,
+      10929,
+      11938,
+      12033,
+      12331,
+      12562,
+      13793,
+      14157,
+      14635,
+      15265,
+      15618,
+      16553,
+      16604,
+      18362,
+      18956,
+      20075,
+      21675,
+      22520,
+      26130,
+      26161,
+      26435,
+      28279,
+      29464,
+      31650,
+      32302,
+      32470,
+      36865,
+      42863,
+      47425,
+      49870,
+      50254,
+      50258,
+      50358,
+      50359,
+      50360,
+      50361,
+      50362
+    ],
+    "use_cache": true,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 51865
+  }
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/60271363e0e147450b0f.json ADDED Viewed

	@@ -0,0 +1,73 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_multiplier": 1.0,
+  "embedding_multiplier": 1.0,
+  "hidden_act": "silu",
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "logits_scaling": 1.0,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+    "checkpoint_revision": "c3074ebc0ac2fe545305f5e5f6cce2cc9b2aa0c5",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "residual_multiplier": 1.0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 49152
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/a9e5f04b708cd397fbdd.json ADDED Viewed

	@@ -0,0 +1,73 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_multiplier": 1.0,
+  "embedding_multiplier": 1.0,
+  "hidden_act": "silu",
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "logits_scaling": 1.0,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+    "checkpoint_revision": "c3074ebc0ac2fe545305f5e5f6cce2cc9b2aa0c5",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "residual_multiplier": 1.0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 49152
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/hf-internal-testing/tiny-random-GraniteForCausalLM/de79a3968941a6d3864f.json ADDED Viewed

	@@ -0,0 +1,73 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attention_multiplier": 1.0,
+  "embedding_multiplier": 1.0,
+  "hidden_act": "silu",
+  "hidden_size": 32,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "logits_scaling": 1.0,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "hf-internal-testing/tiny-random-GraniteForCausalLM",
+    "checkpoint_revision": "c3074ebc0ac2fe545305f5e5f6cce2cc9b2aa0c5",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "residual_multiplier": 1.0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 49152
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/granite/ibm-granite/granite-3.1-2b-instruct/88b875373b8f560b1846.json ADDED Viewed

	@@ -0,0 +1,73 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "ibm-granite/granite-3.1-2b-instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "GraniteForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.1,
+  "attention_multiplier": 0.015625,
+  "embedding_multiplier": 12.0,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "logits_scaling": 8.0,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "granite",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "ibm-granite/granite-3.1-2b-instruct",
+    "checkpoint_revision": "bbc2aed595bd38bd770263dc3ab831db9794441d",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 40,
+  "num_key_value_heads": 8,
+  "residual_multiplier": 0.22,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 5000000.0,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "vocab_size": 49155
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/HuggingFaceTB/SmolLM-360M-Instruct/6be50a69453e7cde56e6.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "HuggingFaceTB/SmolLM-360M-Instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 960,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "HuggingFaceTB/SmolLM-360M-Instruct",
+    "checkpoint_revision": "73b7144f76331266f5f45d5642fd8da653583b13",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 15,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 5,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "vocab_size": 49152
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/HuggingFaceTB/SmolLM-360M-Instruct/e001545c160c490bc3dc.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "HuggingFaceTB/SmolLM-360M-Instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 960,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "HuggingFaceTB/SmolLM-360M-Instruct",
+    "checkpoint_revision": "73b7144f76331266f5f45d5642fd8da653583b13",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 1,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 1,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 15,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 5,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "vocab_size": 49152
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/28b90633a77c30e8a187.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/88a97541d018d7aa0b29.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/d5ebfe6b214bbe06f508.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 131072,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 131072,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 131072,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/llamafactory/tiny-random-Llama-3/d8f338a72f4bb0a4682d.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "llamafactory/tiny-random-Llama-3",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 4,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 64,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "llamafactory/tiny-random-Llama-3",
+    "checkpoint_revision": "bf2a2e3bf199ad2ee96f02a3c00246c608db22a8",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/unsloth/Llama-3.2-1B-Instruct/1493d95b28224e557402.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "unsloth/Llama-3.2-1B-Instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "unsloth/Llama-3.2-1B-Instruct",
+    "checkpoint_revision": null,
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 5,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "unsloth_fixed": true,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/unsloth/Llama-3.2-1B-Instruct/c0e55ed19e394eae72e1.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "unsloth/Llama-3.2-1B-Instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "unsloth/Llama-3.2-1B-Instruct",
+    "checkpoint_revision": null,
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "unsloth_fixed": true,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/llama/unsloth/Llama-3.2-1B-Instruct/f7ed18f9ae29fab731ad.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "unsloth/Llama-3.2-1B-Instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "unsloth/Llama-3.2-1B-Instruct",
+    "checkpoint_revision": "5a8abab4a5d6f164389b1079fb721cfab8d7126c",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 16,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 32.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": true,
+  "unsloth_fixed": true,
+  "use_cache": true,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/microsoft/Phi-3-mini-4k-instruct/bc49a96387cb4ac54b52.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "microsoft/Phi-3-mini-4k-instruct",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "microsoft/Phi-3-mini-4k-instruct",
+    "checkpoint_revision": "0a67737cc96d2554230f90338b163bc6380a2a85",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 32064
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/yujiepan/phi-4-tiny-random/0d648a236d7cc578c5a8.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/phi-4-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {},
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "max_position_embeddings": 16384,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/phi-4-tiny-random",
+    "checkpoint_revision": "18a9a1168dc97ac6d128f811925670c275610f5a",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "original_max_position_embeddings": 16384,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 250000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 100352
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/yujiepan/phi-4-tiny-random/1228009b3909ec8d9751.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/phi-4-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {},
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "max_position_embeddings": 16384,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/phi-4-tiny-random",
+    "checkpoint_revision": "18a9a1168dc97ac6d128f811925670c275610f5a",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "original_max_position_embeddings": 16384,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 250000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 100352
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/phi3/yujiepan/phi-4-tiny-random/1c5104d89e025d3fb8db.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/phi-4-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {},
+  "embd_pdrop": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 16,
+  "initializer_range": 0.02,
+  "intermediate_size": 32,
+  "max_position_embeddings": 16384,
+  "model_type": "phi3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/phi-4-tiny-random",
+    "checkpoint_revision": "18a9a1168dc97ac6d128f811925670c275610f5a",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 1,
+  "original_max_position_embeddings": 16384,
+  "partial_rotary_factor": 1.0,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 250000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "vocab_size": 100352
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/Qwen/Qwen2.5-0.5B/7d50efbc97c5d9065339.json ADDED Viewed

	@@ -0,0 +1,97 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen2.5-0.5B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen2.5-0.5B",
+    "checkpoint_revision": "060db6499f32faf8b98477b0a26969ef7d8b9987",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/Qwen/Qwen2.5-0.5B/bc2305d84871fc53d104.json ADDED Viewed

	@@ -0,0 +1,97 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen2.5-0.5B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen2.5-0.5B",
+    "checkpoint_revision": "060db6499f32faf8b98477b0a26969ef7d8b9987",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 128,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 128,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 128,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/Qwen/Qwen2.5-0.5B/c1641d901bddd7fcd951.json ADDED Viewed

	@@ -0,0 +1,97 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen2.5-0.5B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen2.5-0.5B",
+    "checkpoint_revision": "060db6499f32faf8b98477b0a26969ef7d8b9987",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/yujiepan/qwen2.5-128k-tiny-random/4f65451820dd0eadcdca.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen2.5-128k-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 8,
+  "initializer_range": 0.02,
+  "intermediate_size": 16,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 1,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 2,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen2.5-128k-tiny-random",
+    "checkpoint_revision": "c8296d4ca3f87782876d2382fbb6481d1beb8ef0",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 2,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "original_max_position_embeddings": 32768,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/yujiepan/qwen2.5-128k-tiny-random/d7566c1b656e75712c0c.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen2.5-128k-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 8,
+  "initializer_range": 0.02,
+  "intermediate_size": 16,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 1,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen2.5-128k-tiny-random",
+    "checkpoint_revision": "c8296d4ca3f87782876d2382fbb6481d1beb8ef0",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "original_max_position_embeddings": 32768,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen2/yujiepan/qwen2.5-128k-tiny-random/f47233e40681eaec5807.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "yujiepan/qwen2.5-128k-tiny-random",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 8,
+  "initializer_range": 0.02,
+  "intermediate_size": 16,
+  "layer_types": [
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 1,
+  "model_type": "qwen2",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "yujiepan/qwen2.5-128k-tiny-random",
+    "checkpoint_revision": "c8296d4ca3f87782876d2382fbb6481d1beb8ef0",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": false,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 100,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 100,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "float16",
+    "sequence_length": 100,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "float16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 4,
+  "num_hidden_layers": 2,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "original_max_position_embeddings": 32768,
+    "rope_type": "yarn",
+    "type": "yarn"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/qwen3/Qwen/Qwen3-0.6B/dbab350f637653f9573c.json ADDED Viewed

	@@ -0,0 +1,102 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "Qwen/Qwen3-0.6B",
+  "_task": "text-generation",
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 28,
+  "model_type": "qwen3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "Qwen/Qwen3-0.6B",
+    "checkpoint_revision": "c1899de289a04d12100db370d81485cdf75e47ca",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": false,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/smollm3/HuggingFaceTB/SmolLM3-3B/201514bb851048acee3d.json ADDED Viewed

	@@ -0,0 +1,149 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "HuggingFaceTB/SmolLM3-3B",
+  "_task": "text-generation",
+  "architectures": [
+    "SmolLM3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 65536,
+  "max_window_layers": 28,
+  "mlp_bias": false,
+  "model_type": "smollm3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "HuggingFaceTB/SmolLM3-3B",
+    "checkpoint_revision": "988f1dde6bd2a36e3e7f45777a36507ea004fe22",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 1,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 1,
+    "vocab_parallel": false
+  },
+  "no_rope_layer_interval": 4,
+  "no_rope_layers": [
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0
+  ],
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000.0,
+  "sliding_window": null,
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/smollm3/HuggingFaceTB/SmolLM3-3B/452ec18c8952f9cf8540.json ADDED Viewed

	@@ -0,0 +1,149 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "HuggingFaceTB/SmolLM3-3B",
+  "_task": "text-generation",
+  "architectures": [
+    "SmolLM3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 65536,
+  "max_window_layers": 28,
+  "mlp_bias": false,
+  "model_type": "smollm3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 1,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "HuggingFaceTB/SmolLM3-3B",
+    "checkpoint_revision": "988f1dde6bd2a36e3e7f45777a36507ea004fe22",
+    "continuous_batching": false,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 1,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "no_rope_layer_interval": 4,
+  "no_rope_layers": [
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0
+  ],
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000.0,
+  "sliding_window": null,
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/0_REGISTRY/0.3.1.dev1/smollm3/HuggingFaceTB/SmolLM3-3B/5d8c5cf3fc0708ee5e47.json ADDED Viewed

	@@ -0,0 +1,149 @@

+{
+  "_entry_class": "SingleModelCacheEntry",
+  "_model_id": "HuggingFaceTB/SmolLM3-3B",
+  "_task": "text-generation",
+  "architectures": [
+    "SmolLM3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 65536,
+  "max_window_layers": 28,
+  "mlp_bias": false,
+  "model_type": "smollm3",
+  "neuron": {
+    "_serialized_key": "NxDNeuronConfig",
+    "async_mode": false,
+    "attn_kernel_enabled": false,
+    "batch_size": 4,
+    "capacity_factor": null,
+    "cc_pipeline_tiling_factor": 2,
+    "checkpoint_id": "HuggingFaceTB/SmolLM3-3B",
+    "checkpoint_revision": "988f1dde6bd2a36e3e7f45777a36507ea004fe22",
+    "continuous_batching": true,
+    "enable_bucketing": false,
+    "ep_degree": 1,
+    "flash_decoding_enabled": false,
+    "fused_qkv": true,
+    "glu_mlp": true,
+    "is_chunked_prefill": false,
+    "local_ranks_size": 2,
+    "logical_nc_config": 1,
+    "max_batch_size": 4,
+    "max_context_length": 4096,
+    "max_topk": 256,
+    "mlp_kernel_enabled": false,
+    "mlp_kernel_fuse_residual_add": false,
+    "n_active_tokens": 4096,
+    "neuronxcc_version": "2.19.8089.0+8ab9f450",
+    "num_cores_per_group": 1,
+    "on_device_sampling": true,
+    "optimum_neuron_version": "0.3.1.dev1",
+    "output_logits": false,
+    "padding_side": "right",
+    "pp_degree": 1,
+    "qk_layernorm": false,
+    "qkv_kernel_enabled": false,
+    "rpl_reduce_dtype": "bfloat16",
+    "sequence_length": 4096,
+    "sequence_parallel_enabled": false,
+    "speculation_length": 0,
+    "start_rank_id": 0,
+    "target": null,
+    "torch_dtype": "bfloat16",
+    "tp_degree": 2,
+    "vocab_parallel": false
+  },
+  "no_rope_layer_interval": 4,
+  "no_rope_layers": [
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0
+  ],
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000.0,
+  "sliding_window": null,
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 128256
+}

neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ "--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"

neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.done ADDED Viewed

File without changes

neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb5b3502a486e02b0386121a01740535f6091990cfe4f9c193a5adbd5e2791b4
+size 156646

neuronxcc-2.19.8089.0+8ab9f450/MODULE_01247b9853d0822c0d7c+431f5505/model.neff ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86d6fcaea804b096000d13df22666ec232d082e92594fc25bc6e37ab189ac30a
+size 5776384

neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9781963bc46791320c4934fa51f90051160216a8dcd633f856b24540b91aaa3e
+size 1449

neuronxcc-2.19.8089.0+8ab9f450/MODULE_10383755082811589812+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.19.8089.0+8ab9f450/MODULE_11137652962366101371+e30acd3a/model.neff CHANGED Viewed

Binary files a/neuronxcc-2.19.8089.0+8ab9f450/MODULE_11137652962366101371+e30acd3a/model.neff and b/neuronxcc-2.19.8089.0+8ab9f450/MODULE_11137652962366101371+e30acd3a/model.neff differ

neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ ["--target=trn1"]

neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/model.done ADDED Viewed

File without changes

neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/model.hlo_module.pb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d46ff71f85b473b9dc957a387087f763721182880d7a1b40bf9cde94034cf005
+size 1449

neuronxcc-2.19.8089.0+8ab9f450/MODULE_17970101803578203099+e30acd3a/model.neff ADDED Viewed

Binary file (31.7 kB). View file

neuronxcc-2.19.8089.0+8ab9f450/MODULE_180632648874ecca533b+431f5505/compile_flags.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ "--model-type=transformer -O1 --lnc=1 --internal-hlo2tensorizer-options=--experimental-unsafe-fp8e4m3fn-as-fp8e4m3 --logfile=/tmp/nxd_model/layout_opt/log-neuron-cc.txt"