update
Browse files
README.md
CHANGED
|
@@ -3,21 +3,27 @@
|
|
| 3 |
<div align="left">
|
| 4 |
|
| 5 |

|
| 6 |
-
[](https://huggingface.co/
|
|
|
|
| 7 |
|
| 8 |
-
[//]: # ([](./pics/wechat.jpeg))
|
| 9 |
</div>
|
| 10 |
|
| 11 |
|
| 12 |
欢迎加入虚幻引擎大模型的学习🤗。
|
| 13 |
|
| 14 |
|
|
|
|
| 15 |
|
| 16 |
-
|
|
|
|
|
|
|
|
|
|
| 17 |
|
| 18 |
-
|
| 19 |
-
|
| 20 |
-
-
|
|
|
|
|
|
|
| 21 |
|
| 22 |
|
| 23 |
## 相关项目
|
|
@@ -29,6 +35,7 @@
|
|
| 29 |
|
| 30 |
## 项目简介
|
| 31 |
|
|
|
|
| 32 |
**虚幻引擎对话式大语言模型** 是一个开源的虚幻引擎大语言模型项目,支持QLoRA和全量参数微调InternLM等开源模型。
|
| 33 |
|
| 34 |
正如项目名称一样,希望本项目能够为为虚幻引擎社区尽绵薄之力,促进游戏以及游戏引擎的发展。
|
|
@@ -39,8 +46,8 @@
|
|
| 39 |
- 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、其中QLoRA是我们主推的一种高效的训练方式。
|
| 40 |
- 📗 支持绝大部分主流的开源大模型,如Baichuan2、CodeLLaMA、LLaMA2、LLaMA、Qwen、Baichuan、ChatGLM2、InternLM、Ziya、Bloom、XVERSE等。
|
| 41 |
- 📗 支持lora与base model进行权重合并,推理更便捷。
|
| 42 |
-
- 📗️ 模型裁剪:通过[LLMPruner:大语言模型裁剪工具](https://github.com/yangjianxin1/LLMPruner) ,开源[裁剪后的Bloom模型权重](https://huggingface.co/
|
| 43 |
-
- 📗 开源[UEGPT系列指令微调模型权重](https://huggingface.co/
|
| 44 |
- 📗 在Open LLM Leaderboard上验证了QLoRA训练流程的有效性。
|
| 45 |
|
| 46 |
|
|
@@ -52,7 +59,7 @@
|
|
| 52 |
pip install requirements.txt
|
| 53 |
```
|
| 54 |
|
| 55 |
-
## 模型列表
|
| 56 |
|
| 57 |
🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
|
| 58 |
|
|
@@ -62,18 +69,13 @@ pip install requirements.txt
|
|
| 62 |
|--------------------------------------------------------------------------------|-------------------------------------|------------|
|
| 63 |
| [InternLM-UEGPT-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | internlm/internlm-7b |1024 |
|
| 64 |
| [InternLM-UEGPT-20b](https://huggingface.co/YeungNLP/firefly-baichuan-13b) | internlm/internlm-20b |1024 |
|
| 65 |
-
|
| 66 |
|
| 67 |
## 训练数据
|
| 68 |
-
🔔 目前本项目参考复旦大学MOSS团队开源的中英文多轮对话数据统一的数据格式,整理了上千条虚幻引擎问答多轮数据对话:
|
| 69 |
-
|
| 70 |
-
| 数据集 | 介绍 |
|
| 71 |
-
|---------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------|
|
| 72 |
|
| 73 |
| [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据
|
| 74 |
-
|
| 75 |
|
| 76 |
-
|
| 77 |
|
| 78 |
训练数据为jsonl格式,每一行的数据格式如下,其中conversation字段是必需的,可以根据实际需求添加或删除其他字段。
|
| 79 |
可以参考项目中的data/dummy_data.jsonl文件。
|
|
@@ -201,27 +203,6 @@ python single_chat.py
|
|
| 201 |
下面的样例均为UEGPT-InternLM2-20b模型所生成,未经修改,仅供参考。
|
| 202 |
|
| 203 |
|
| 204 |
-
</details>
|
| 205 |
-
<details><summary><b>Nanite Virtual Geometry</b></summary>
|
| 206 |
-
|
| 207 |
-
</details>
|
| 208 |
-
|
| 209 |
-
<details><summary><b>Lumen illumination</b></summary>
|
| 210 |
-
|
| 211 |
-
|
| 212 |
-
</details>
|
| 213 |
-
|
| 214 |
-
<details><summary><b>Physics Chaos</b></summary>
|
| 215 |
-
|
| 216 |
-
</details>
|
| 217 |
-
|
| 218 |
-
|
| 219 |
-
<details><summary><b>VR & AR</b></summary>
|
| 220 |
-
|
| 221 |
-
</details>
|
| 222 |
-
|
| 223 |
-
|
| 224 |
-
<details><summary><b>Toolchains</b></summary>
|
| 225 |
|
| 226 |
|
| 227 |
</details>
|
|
@@ -233,6 +214,8 @@ python single_chat.py
|
|
| 233 |
|
| 234 |
😎Stay tune!
|
| 235 |
|
|
|
|
|
|
|
| 236 |
|
| 237 |
|
| 238 |
|
|
|
|
| 3 |
<div align="left">
|
| 4 |
|
| 5 |

|
| 6 |
+
[](https://huggingface.co/Jiayao)
|
| 7 |
+
[](https://www.modelscope.cn/profile/Jannie)
|
| 8 |
|
|
|
|
| 9 |
</div>
|
| 10 |
|
| 11 |
|
| 12 |
欢迎加入虚幻引擎大模型的学习🤗。
|
| 13 |
|
| 14 |
|
| 15 |
+
## News: 😎 开源模型
|
| 16 |
|
| 17 |
+
**在1/2*V100上进行训练**,经过中文词表扩充、增量预训练、多轮指令微调。该项目也支持对Baichuan、Qwen、InternLM、LLaMA、Falcon等模型进行高效增量预训练。
|
| 18 |
+
🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
|
| 19 |
+
|
| 20 |
+
中文模型:
|
| 21 |
|
| 22 |
+
| 模型 | Huggingface | Modelscope|
|
| 23 |
+
|--------------------------------------------------------------------------------|-------------------------------------|------------|
|
| 24 |
+
| InternLM-UEGPT-7b | [Huggingface-internLM2-7b](https://huggingface.co/Jiayao/UEGPT-internlm-7b-qlora-sft-merge/tree/main) | [UEGPT-internLM2-7b](https://www.modelscope.cn/models/Jannie/UEGPT-internlm-7b-qlora-sft-merge/files) |
|
| 25 |
+
| InternLM-UEGPT-20b | [Huggingface-internLM2-20b](https://huggingface.co/Jiayao/UnrealGPT-internlm-20b-qlora-sft-merge) | [Modelscope-internLM2-20b](https://www.modelscope.cn/models/Jannie/UEGPT-internlm-20b-qlora-sft-merge/files)|
|
| 26 |
+
| UEGPT-Datasets | [Huggingface-UEGPT-Datasets](https://huggingface.co/datasets/Jiayao/UEGPT-Datasets) |[Modelscope-UEGPT-Datasets](https://www.modelscope.cn/datasets/Jannie/UEGPT-Datasets/files) |
|
| 27 |
|
| 28 |
|
| 29 |
## 相关项目
|
|
|
|
| 35 |
|
| 36 |
## 项目简介
|
| 37 |
|
| 38 |
+
|
| 39 |
**虚幻引擎对话式大语言模型** 是一个开源的虚幻引擎大语言模型项目,支持QLoRA和全量参数微调InternLM等开源模型。
|
| 40 |
|
| 41 |
正如项目名称一样,希望本项目能够为为虚幻引擎社区尽绵薄之力,促进游戏以及游戏引擎的发展。
|
|
|
|
| 46 |
- 📗 支持全量参数指令微调、QLoRA低成本高效指令微调、其中QLoRA是我们主推的一种高效的训练方式。
|
| 47 |
- 📗 支持绝大部分主流的开源大模型,如Baichuan2、CodeLLaMA、LLaMA2、LLaMA、Qwen、Baichuan、ChatGLM2、InternLM、Ziya、Bloom、XVERSE等。
|
| 48 |
- 📗 支持lora与base model进行权重合并,推理更便捷。
|
| 49 |
+
- 📗️ 模型裁剪:通过[LLMPruner:大语言模型裁剪工具](https://github.com/yangjianxin1/LLMPruner) ,开源[裁剪后的Bloom模型权重](https://huggingface.co/Jiayao) 。在保留预训练中文知识的前提下,有效减少模型参数量,降低训练成本,提高训练效率。
|
| 50 |
+
- 📗 开源[UEGPT系列指令微调模型权重](https://huggingface.co/Jiayao) 。
|
| 51 |
- 📗 在Open LLM Leaderboard上验证了QLoRA训练流程的有效性。
|
| 52 |
|
| 53 |
|
|
|
|
| 59 |
pip install requirements.txt
|
| 60 |
```
|
| 61 |
|
| 62 |
+
<!-- ## 模型列表
|
| 63 |
|
| 64 |
🔔 使用本项目的训练代码,以及上述训练数据,我们训练并开源了以下模型。
|
| 65 |
|
|
|
|
| 69 |
|--------------------------------------------------------------------------------|-------------------------------------|------------|
|
| 70 |
| [InternLM-UEGPT-7b](https://huggingface.co/YeungNLP/firefly-baichuan2-13b) | internlm/internlm-7b |1024 |
|
| 71 |
| [InternLM-UEGPT-20b](https://huggingface.co/YeungNLP/firefly-baichuan-13b) | internlm/internlm-20b |1024 |
|
| 72 |
+
-->
|
| 73 |
|
| 74 |
## 训练数据
|
|
|
|
|
|
|
|
|
|
|
|
|
| 75 |
|
| 76 |
| [moss-003-sft-data](https://huggingface.co/datasets/YeungNLP/moss-003-sft-data) | 由复旦大学MOSS团队开源的中英文多轮对话数据,包含100万+数据
|
|
|
|
| 77 |
|
| 78 |
+
🔔 目前本项目参考复旦大学MOSS团队开源的中英文多轮对话数据统一的数据格式,整理了上千条虚幻引擎问答多轮数据对话
|
| 79 |
|
| 80 |
训练数据为jsonl格式,每一行的数据格式如下,其中conversation字段是必需的,可以根据实际需求添加或删除其他字段。
|
| 81 |
可以参考项目中的data/dummy_data.jsonl文件。
|
|
|
|
| 203 |
下面的样例均为UEGPT-InternLM2-20b模型所生成,未经修改,仅供参考。
|
| 204 |
|
| 205 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 206 |
|
| 207 |
|
| 208 |
</details>
|
|
|
|
| 214 |
|
| 215 |
😎Stay tune!
|
| 216 |
|
| 217 |
+
license: Apache License 2.0
|
| 218 |
+
|
| 219 |
|
| 220 |
|
| 221 |
|