kmouratidis
/

Qwen3-32B-AWQ-GEMM-sc

4-bit precision

Model card Files Files and versions

kmouratidis commited on May 1

Commit

3c1cd8c

·

verified ·

1 Parent(s): 9ade1a5

Update README.md

Files changed (1) hide show

README.md +9 -2

README.md CHANGED Viewed

@@ -3,7 +3,7 @@ license: apache-2.0
 base_model:
 - Qwen/Qwen3-32B
 ---
-# Qwen3-32B-AWQ-w4-GEMM-sc
 Original Model: https://huggingface.co/Qwen/Qwen3-32B
@@ -48,4 +48,11 @@ model.quantize(tokenizer, quant_config=quant_config)
 quant_path = './Qwen3-32B-AWQ-4bit-GEMM-sc'
 model.save_quantized(quant_path)
 tokenizer.save_pretrained(quant_path)
-```

 base_model:
 - Qwen/Qwen3-32B
 ---
+# Qwen3-32B-AWQ-GEMM-sc
 Original Model: https://huggingface.co/Qwen/Qwen3-32B
 quant_path = './Qwen3-32B-AWQ-4bit-GEMM-sc'
 model.save_quantized(quant_path)
 tokenizer.save_pretrained(quant_path)
+```
+## Final notes
+The quant appears to be significantly degraded. I'm trying one more quantization
+with 128 samples, a different dataset (HuggingFaceTB/cosmopedia-100k), and a longer
+max sequence length (40960). It will be ready in a few hours, and I'll upload it here:
+https://huggingface.co/kmouratidis/Qwen3-32B-AWQ-GEMM-lc