Chinese
English
34.2M

🪿 Mini-RWKV-V7-LM

🚀 让我们来从头训练一个属于自己的Mini-RWKV-7吧~ 小小的鹅也能飞得很高喔~

🌟 模型简介

前往 Mini_RWKV_7 查看完整项目

本模型是基于 RWKV-V7 架构 训练的一个 34M 参数量 的语言模型Mini-RWKV-V7-LM-34M。它在保持轻量的同时,具备良好的语言理解和生成能力,非常适合资源极其有限的设备部署和快速迭代开发。


📦 模型结构

参数 数值
参数量 34.2M 🎯
层数 8 🧱
隐藏维度 512 📐
上下文长度 512->1024->2048 📏
词表大小 6400 📚
  • Vocab 和MiniMind的保持一致

🧪 训练信息

  • 🪿 架构:RWKV-V7
  • 📚 数据源:minimind_dataset 特别感谢MiniMind的作者 @jingyaogong开源了训练数据集 🤗
  • 📈 学习率:动态调整
  • 🖥️ 硬件:可以使用4060laptop等显卡进行训练,甚至Radeon 780M 核显也可以在轻薄本上进行训练 😜
  • 👀我是在AMD Instinct MI300X 上快速复现的(十分感谢AMD公司的对我个人以及RWKV的云算力赞助)😊
  • 📦 模型大小:68.4MB 参数量 34.2M Params
  • 📊 预损失曲线:预训练收敛稳定 loss = 2.12左右波动(因为预训练数据量比较少)
  • 📊 SFT训练损失曲线 SFT训练最终loss=0.5左右波动

🎉 效果展示

火星旅行小说 冒牌排序代码 心理问答

🧰 推理方法

🐍 安装依赖

pip install -r torch numpy prompt_toolkit transformers rwkv
  • 如果你使用的是AAMD显卡,请安装对应最新版本的torch
  • 比如说pip3 install torch --index-url https://download.pytorch.org/whl/rocm6.3
  • 具体安装指令可以参考Pytorch官网下载链接

🧪 加载模型 & 推理示例

python3 ./API_DEMO_CHAT.py

📢 致谢

  • 🖥️ 感谢AMD公司的对我个人以及RWKV的云算力赞助
  • 🙌 感谢 RWKV 社区提供的开源代码和训练框架!
  • 🚀 感谢 MiniMind 提供的 README 模板灵感!
  • 如发现 bug 或有任何建议,欢迎提交 issue 或 PR 🛠️

🎉 感谢小伙伴们使用 Mini_RWKV_7!如果你喜欢这个项目,欢迎推给大家一起来玩!🌟


Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train RWKV-Red-Team/Mini_RWKV_7_34.2M

Collection including RWKV-Red-Team/Mini_RWKV_7_34.2M