RWKV-Red-Team
/

Mini_RWKV_7_34.2M

Model card Files Files and versions Community

🪿 Mini-RWKV-V7-LM

🚀 让我们来从头训练一个属于自己的Mini-RWKV-7吧~ 小小的鹅也能飞得很高喔~

🌟 模型简介

前往 Mini_RWKV_7 查看完整项目

本模型是基于 RWKV-V7 架构 训练的一个 34M 参数量 的语言模型Mini-RWKV-V7-LM-34M。它在保持轻量的同时，具备良好的语言理解和生成能力，非常适合资源极其有限的设备部署和快速迭代开发。

📦 模型结构

参数	数值
参数量	34.2M 🎯
层数	8 🧱
隐藏维度	512 📐
上下文长度	512->1024->2048 📏
词表大小	6400 📚

Vocab 和MiniMind的保持一致

🧪 训练信息

🪿 架构：RWKV-V7
📚 数据源：minimind_dataset 特别感谢MiniMind的作者 @jingyaogong开源了训练数据集 🤗
📈 学习率：动态调整
🖥️ 硬件：可以使用4060laptop等显卡进行训练，甚至Radeon 780M 核显也可以在轻薄本上进行训练 😜
👀我是在AMD Instinct MI300X 上快速复现的(十分感谢AMD公司的对我个人以及RWKV的云算力赞助)😊
📦 模型大小：68.4MB 参数量 34.2M Params
📊 预损失曲线：预训练收敛稳定 loss = 2.12左右波动(因为预训练数据量比较少)
📊 SFT训练损失曲线 SFT训练最终loss=0.5左右波动

🎉 效果展示

🧰 推理方法

🐍 安装依赖

pip install -r torch numpy prompt_toolkit transformers rwkv

如果你使用的是AAMD显卡，请安装对应最新版本的torch
比如说pip3 install torch --index-url https://download.pytorch.org/whl/rocm6.3
具体安装指令可以参考Pytorch官网下载链接

🧪 加载模型 & 推理示例

python3 ./API_DEMO_CHAT.py

📢 致谢

🖥️ 感谢AMD公司的对我个人以及RWKV的云算力赞助
🙌 感谢 RWKV 社区提供的开源代码和训练框架！
🚀 感谢 MiniMind 提供的 README 模板灵感！
如发现 bug 或有任何建议，欢迎提交 issue 或 PR 🛠️

🎉 感谢小伙伴们使用 Mini_RWKV_7！如果你喜欢这个项目，欢迎推给大家一起来玩！🌟

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train RWKV-Red-Team/Mini_RWKV_7_34.2M

Collection including RWKV-Red-Team/Mini_RWKV_7_34.2M

Mini_RWKV_7_34.2M

1 item • Updated 10 days ago