YuFeng-XGuard-Reason-8B-MNN

🐬 介绍（Introduction）

此模型是使用llmexport从YuFeng-XGuard-Reason-0.6B导出的4bit量化版本的MNN模型。

YuFeng-XGuard-Reason 是一系列专为内容安全设计的护栏模型，旨在精准识别用户请求、模型响应及通用文本中的安全风险，并提供可配置的风险归因信息。

模型基于 Qwen3 架构构建，针对线上实时交互场景进行了深度优化，兼顾推理时延、识别精度与策略扩展能力。为了在保证可解释性的同时最大限度降低生成开销，模型采用了“先判定、后归因”的两阶段输出范式：优先输出结构化的风险结论，随后按需提供详细的风险解释。目前模型在多语言风险识别、攻击指令防御及安全补全等多个内容安全基准测试中均达到SOTA水平。

关键特性

多尺寸规模覆盖：提供 0.6B 和 8B 两种参数版本。0.6B 版本侧重极速推理，适配高并发、低延迟的实时场景；8B 版本侧重复杂风险理解，提供更高的识别效果。
低延迟推理范式：采用两阶段输出策略，首词优先生成风险判定（风险分类及分值），随后生成风险归因（关键触发点与合规解释），兼顾判定的即时性与审计的透明度。
完善的安全体系：内置覆盖广泛的通用安全与合规分类体系，深度适配监管场景与高风险内容识别。
动态策略适配：8B 版本支持在推理时通过 Prompt 动态引入自定义安全类别或调整既有维度的判定标准，助力业务侧快速迭代防控口径，无需频繁微调模型。

评测效果

在多个内容安全基准测试中，YuFeng-XGuard-Reason 与主流护栏模型进行了性能对比。更多详实数据请参阅技术报告。

Download

# install huggingface
pip install huggingface

# shell download
huggingface download --model 'taobao-mnn/YuFeng-XGuard-Reason-8B-MNN' --local_dir 'path/to/dir'

# SDK download
from huggingface_hub import snapshot_download
model_dir = snapshot_download('taobao-mnn/YuFeng-XGuard-Reason-8B-MNN')

# git clone
git clone https://www.modelscope.cn/taobao-mnn/YuFeng-XGuard-Reason-8B-MNN

Usage

# clone MNN source
git clone https://github.com/alibaba/MNN.git

# compile
cd MNN
mkdir build && cd build
cmake .. -DMNN_LOW_MEMORY=true -DMNN_CPU_WEIGHT_DEQUANT_GEMM=true -DMNN_BUILD_LLM=true -DMNN_SUPPORT_TRANSFORMER_FUSE=true
make -j

# run
./llm_demo /path/to/YuFeng-XGuard-Reason-8B-MNN/config.json prompt.txt

Document

MNN-LLM

Downloads last month: 10

Model tree for taobao-mnn/YuFeng-XGuard-Reason-8B-MNN

Base model

Qwen/Qwen3-8B-Base

Finetuned

Qwen/Qwen3-8B

Finetuned

Alibaba-AAIG/YuFeng-XGuard-Reason-8B

Quantized

(2)

this model

Paper for taobao-mnn/YuFeng-XGuard-Reason-8B-MNN

YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models

Paper • 2601.15588 • Published Jan 22