Данная модель была получена квантизацией RefalMachine/RuadaptQwen3-32B-Instruct
через библиотеку autogptq на датасете pomelk1n/RuadaptQwen-Quantization-Dataset
Почему AWQ, а не GGUF?
На 09-06-2025
Qwen3 с квантизацией gguf не поддерживается в vLLM. FP8 квантизации же не работают с tensor parallelism = 4, из-за чего была выбрана точность 4bit
TODO
- Прогнать модель на бенчмарках
- Сделать GPTQ версию
- Downloads last month
- 39
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support