Spaces:
Sleeping
Sleeping
Update report.md
Browse files
report.md
CHANGED
@@ -1,24 +1,108 @@
|
|
1 |
-
|
|
|
2 |
|
3 |
-
##
|
4 |
-
本实验比较两个 LLM 模型的输出质量,采用 GRACE 框架评估其表现。
|
5 |
|
6 |
-
|
7 |
-
- **Model A**:GPT-2
|
8 |
-
- **Model B**:DistilGPT2
|
9 |
|
10 |
-
|
11 |
-
|
12 |
-
|----------|----------------|-----------|----------|------------|
|
13 |
-
| Model A | 4.0 | 4.5 | 3.5 | 4.0 |
|
14 |
-
| Model B | 3.5 | 4.0 | 4.0 | 3.5 |
|
15 |
|
16 |
-
|
17 |
-
模型 A 在通用性和效率上表现更优;模型 B 在艺术性方面略胜一筹。
|
18 |
|
19 |
-
|
20 |
-
|
21 |
-
-
|
|
|
22 |
|
23 |
-
|
24 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
✅ report.md 模板内容
|
2 |
+
# 📊 LLM 对比实验报告
|
3 |
|
4 |
+
## 1. 模型及类别选择
|
|
|
5 |
|
6 |
+
本实验选择了两种主流的语言生成模型:
|
|
|
|
|
7 |
|
8 |
+
- **Model A**:GPT-2(由 OpenAI 发布,基于 Transformer 架构的大型预训练生成模型)
|
9 |
+
- **Model B**:DistilGPT2(由 Hugging Face 发布,是 GPT-2 的轻量级蒸馏版本)
|
|
|
|
|
|
|
10 |
|
11 |
+
### 模型用途对比简述
|
|
|
12 |
|
13 |
+
| 模型 | 主要用途 | 模型体积 | 相对性能 |
|
14 |
+
|------------|----------------------|----------|----------|
|
15 |
+
| GPT-2 | 通用文本生成任务 | 较大 | 高 |
|
16 |
+
| DistilGPT2 | 快速部署与边缘生成场景 | 较小 | 中等偏上 |
|
17 |
|
18 |
+
### 选取标准与模型异同点分析
|
19 |
+
|
20 |
+
- **选取标准**:在 Hugging Face 上广泛使用、API 接口一致、具备代表性。
|
21 |
+
- **异同点**:
|
22 |
+
- 相同点:均为预训练文本生成模型、使用 `transformers` 提供的 pipeline 方式封装。
|
23 |
+
- 不同点:模型体积与生成质量略有差异,DistilGPT2 更轻便,但生成表达力略弱。
|
24 |
+
|
25 |
+
---
|
26 |
+
|
27 |
+
## 2. 系统实现细节
|
28 |
+
|
29 |
+
### Gradio 交互界面截图
|
30 |
+
|
31 |
+
(请补充截图,可使用 `` 插入)
|
32 |
+
|
33 |
+
### 输入与输出流程图
|
34 |
+
|
35 |
+
```mermaid
|
36 |
+
graph TD
|
37 |
+
用户输入Prompt --> Gradio前端
|
38 |
+
Gradio前端 --> 模型A
|
39 |
+
Gradio前端 --> 模型B
|
40 |
+
模型A --> 输出A
|
41 |
+
模型B --> 输出B
|
42 |
+
输出A & 输出B --> 页面展示
|
43 |
+
模型集成方式说明
|
44 |
+
所有模型均通过 transformers.pipeline("text-generation") 加载,封装于 model_wrappers/model_a.py 与 model_wrappers/model_b.py 中,支持统一输入后同时生成输出内容,便于 Arena 场景展示与结果对比。
|
45 |
+
|
46 |
+
3. GRACE 评估维度定义
|
47 |
+
本次评估采用 GRACE 框架中的 4 个维度:
|
48 |
+
|
49 |
+
维度名 说明(结合任务)
|
50 |
+
Generalization 模型面对多样输入时保持合理输出的能力
|
51 |
+
Relevance 输出与输入主题的相关性
|
52 |
+
Artistry 生成文本的自然度、流畅性及语言多样性
|
53 |
+
Efficiency 模型的响应速度和资源占用效率(尤其是推理速度)
|
54 |
+
|
55 |
+
选择理由:这四个维度覆盖了生成模型在质量、表达与使用效率方面的主要考量。
|
56 |
+
|
57 |
+
4. 结果与分析
|
58 |
+
多条输入样例输出结果对比
|
59 |
+
Prompt 输入 Model A 输出片段 Model B 输出片段
|
60 |
+
Tell me a story about a dragon ... the dragon flew over... ... once there was a dragon...
|
61 |
+
写一首关于春天的诗 ...花开满地,风送绿意... ...春天来了,阳光明媚...
|
62 |
+
|
63 |
+
维度评分图(雷达图)
|
64 |
+
图像生成方式使用:evaluate.visualization.radar_plot,如下图所示:
|
65 |
+
|
66 |
+
(由系统自动生成图形展示)
|
67 |
+
|
68 |
+
分析每个模型的优劣势
|
69 |
+
GPT-2:表现更自然、上下文连贯度高,但体积大、推理速度稍慢。
|
70 |
+
|
71 |
+
DistilGPT2:响应更快,占用资源更低,但有时生成文本显得简单或重复。
|
72 |
+
|
73 |
+
5. 合作与反思
|
74 |
+
👤 同学 A 负责内容
|
75 |
+
集成 GPT-2 模型 (model_a.py)
|
76 |
+
|
77 |
+
实现主界面结构和 GRACE 雷达图模块
|
78 |
+
|
79 |
+
完成 report.md 文档框架搭建
|
80 |
+
|
81 |
+
学到的内容:
|
82 |
+
|
83 |
+
熟悉 Gradio 多页签应用搭建
|
84 |
+
|
85 |
+
掌握 Hugging Face 模型集成流程
|
86 |
+
|
87 |
+
遇到的困难:
|
88 |
+
|
89 |
+
模型加载初期速度较慢,需增加缓存处理
|
90 |
+
|
91 |
+
雷达图模块在 Hugging Face Spaces 上需手动安装 evaluate
|
92 |
+
|
93 |
+
👤 同学 B 负责内容
|
94 |
+
集成 DistilGPT2 模型 (model_b.py)
|
95 |
+
|
96 |
+
实现 Arena 输入驱动模块(prompt + 输出框)
|
97 |
+
|
98 |
+
撰写维度说明、样例输出及最终分析内容
|
99 |
+
|
100 |
+
学到的内容:
|
101 |
+
|
102 |
+
掌握文本生成模型的输出特性差异
|
103 |
+
|
104 |
+
使用 Mermaid 绘制流程图,改进报告表达力
|
105 |
+
|
106 |
+
遇到的困难:
|
107 |
+
|
108 |
+
模型输出的稳定性不一,需调试 do_sample 与 max_length 参数
|