Update README.md

139a543 verified 15 days ago

6.48 kB

	---
	license: mit
	language:
	- ru
	- en
	base_model:
	- ai-sage/GigaChat3-702B-A36B-preview-bf16
	pipeline_tag: text-generation
	tags:
	- moe
	library_name: transformers
	---

	# GigaChat 3 Ultra Preview

	Представляем `GigaChat 3 Ultra Preview` — флагманскую instruct-модель семейства GigaChat.
	Модель основана на архитектуре Mixture-of-Experts (MoE) с 702B общих и 36B активных параметров.
	Архитектура включает Multi-head Latent Attention (MLA) и Multi-Token Prediction (MTP), за счет чего модель оптимизирована для высокой пропускной способности (throughput) при инференсе.
	Данная версия предназначена для высокопроизводительного инференса в fp8, модель в bf16 — [GigaChat3-702B-A36B-preview-bf16](https://huggingface.co/ai-sage/GigaChat3-702B-A36B-preview-bf16).


	Больше подробностей [в хабр статье](https://habr.com/en/companies/sberdevices/articles/968904/).

	## Архитектура модели

	`GigaChat 3 Ultra Preview` использует кастомную MoE-архитектуру:

	### Multi-head Latent Attention (MLA)

	Вместо стандартного Multi-head Attention модель использует MLA. MLA обеспечивает эффективный инференс за счет сжатия Key-Value (KV) кэша в латентный вектор, что значительно снижает требования к памяти и ускоряет обработку.

	### Multi-Token Prediction (MTP)

	Модель обучена с использованием задачи Multi-Token Prediction (MTP). Это позволяет модели предсказывать несколько токенов за один проход, что ускоряет генерацию до 40% с помощью техник спекулятивной/параллельной генерации.


	## Данные для обучения

	Мы добавили в датасет 10 языков — от китайского и арабского до узбекского и казахского, а также расширили набор источников: книги, академические данные, датасеты по коду и математике. Все данные проходят дедупликацию, языковую фильтрацию и автоматические проверки качества при помощи эвристик и классификаторов.
	Ключевой вклад в качество внесла синтетика: мы сгенерировали около 5,5 триллионов токенов синтетических данных. В корпус входят вопросы-ответы к текстам, цепочки reverse-prompt для структурирования данных, LLM-заметки с комментариями от модели внутри текстов, миллионы синтетических задач с решениями по математике и олимпиадному программированию (с синтетическими тестами) на основе PromptCot.

	## Бенчмарки

	\| Metric \| GigaChat 3 Ultra \| GigaChat 2 Max \|
	\| ------------------------- \| -------------: \| -----------: \|
	\| MERA text \| 0.683 \| 0.663 \|
	\| MERA industrial \| 0.645 / 0.824 \| — \|
	\| MERA code \| 0.338 \| — \|
	\| AUTOLOGI_EN_ZERO_SHOT \| 0.6857 \| 0.6489 \|
	\| GPQA_COT_ZERO_SHOT \| 0.5572 \| 0.4714 \|
	\| HUMAN_EVAL_PLUS_ZERO_SHOT \| 0.8659 \| 0.7805 \|
	\| LBPP_PYTHON_ZERO_SHOT \| 0.5247 \| 0.4753 \|
	\| MMLU_PRO_EN_FIVE_SHOT \| 0.7276 \| 0.6655 \|
	\| GSM8K_FIVE_SHOT \| 0.9598 \| 0.9052 \|
	\| MATH_500_FOUR_SHOT \| 0.7840 \| 0.7160 \|

	## Как проверить метрики модели

	```shell
	# lm-eval[api]==0.4.9.1
	# sglang[all]==0.5.5
	# или
	# vllm==0.11.2

	export HF_ALLOW_CODE_EVAL=1

	# sglang server up

	# 702B
	python -m sglang.launch_server --model-path <path_to_model> --host 127.0.0.1 --port 30000 --nnodes 2 --node-rank <0/1> --tp 16 --ep 16 --dtype auto --mem-fraction-static 0.7 --trust-remote-code --allow-auto-truncate --speculative-algorithm EAGLE --speculative-num-steps 1 --speculative-eagle-topk 1 --speculative-num-draft-tokens 2 --dist-init-addr <master_node_ip>:50000

	# mmlu pro check
	python -m lm_eval --model sglang-generate --output_path <path_to_model> --batch_size 16 --model_args base_url=http://127.0.0.1:30000/generate,num_concurrent=16,tokenized_requests=True,max_length=131072,tokenizer=<path_to_model> --trust_remote_code --confirm_run_unsafe_code --num_fewshot 5 --tasks mmlu_pro
	```

	## Инференс и деплой

	`GigaChat 3 Ultra Preview` ориентирована на кластерные и on-prem-сценарии с серьёзной инфраструктурой.

	Основные моменты:

	- поддержка популярных inference-движков (vLLM, SGLang, LMDeploy, TensorRT-LLM и др.);
	- режимы BF16 и FP8 (для FP8 — отдельная сборка и рекомендации по конфигурации GPU);
	- использование MLA и MTP для уменьшения KV-кэша и ускорения генерации;
	- прокси- и gateway-слой для интеграции с внешними сервисами, инструментами и агентными фреймворками.

	Для конфигурации можно ориентироваться на публикуемые гайды для моделей схожего масштаба:

	- DeepSeek-V3 — раздел How to run locally в официальной модельной карточке:
	- <https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file#6-how-to-run-locally>
	- Kimi-K2-Instruct — рекомендации по деплою (vLLM / SGLang / LMDeploy):
	- <https://huggingface.co/moonshotai/Kimi-K2-Instruct/blob/main/docs/deploy_guidance.md>