EdmundYi commited on
Commit
0119cd6
·
verified ·
1 Parent(s): 0ac4b27

Update report.md

Browse files
Files changed (1) hide show
  1. report.md +102 -18
report.md CHANGED
@@ -1,24 +1,108 @@
1
- # 📊 实验报告
 
2
 
3
- ## 实验目标
4
- 本实验比较两个 LLM 模型的输出质量,采用 GRACE 框架评估其表现。
5
 
6
- ## 模型介绍
7
- - **Model A**:GPT-2
8
- - **Model B**:DistilGPT2
9
 
10
- ## GRACE 维度评分
11
- | 模型 | Generalization | Relevance | Artistry | Efficiency |
12
- |----------|----------------|-----------|----------|------------|
13
- | Model A | 4.0 | 4.5 | 3.5 | 4.0 |
14
- | Model B | 3.5 | 4.0 | 4.0 | 3.5 |
15
 
16
- ## 总结
17
- 模型 A 在通用性和效率上表现更优;模型 B 在艺术性方面略胜一筹。
18
 
19
- ## 开发分工
20
- - 同学 A:实现 Model A 封装、主界面集成与 GRACE 可视化
21
- - 同学 B:实现 Model B 封装、Arena 模块与报告撰写
 
22
 
23
- ## 提交记录
24
- 见 Files 页面和 Git 历史,可追溯每位同学的修改。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ report.md 模板内容
2
+ # 📊 LLM 对比实验报告
3
 
4
+ ## 1. 模型及类别选择
 
5
 
6
+ 本实验选择了两种主流的语言生成模型:
 
 
7
 
8
+ - **Model A**:GPT-2(由 OpenAI 发布,基于 Transformer 架构的大型预训练生成模型)
9
+ - **Model B**:DistilGPT2(由 Hugging Face 发布,是 GPT-2 的轻量级蒸馏版本)
 
 
 
10
 
11
+ ### 模型用途对比简述
 
12
 
13
+ | 模型 | 主要用途 | 模型体积 | 相对性能 |
14
+ |------------|----------------------|----------|----------|
15
+ | GPT-2 | 通用文本生成任务 | 较大 | 高 |
16
+ | DistilGPT2 | 快速部署与边缘生成场景 | 较小 | 中等偏上 |
17
 
18
+ ### 选取标准与模型异同点分析
19
+
20
+ - **选取标准**:在 Hugging Face 上广泛使用、API 接口一致、具备代表性。
21
+ - **异同点**:
22
+ - 相同点:均为预训练文本生成模型、使用 `transformers` 提供的 pipeline 方式封装。
23
+ - 不同点:模型体积与生成质量略有差异,DistilGPT2 更轻便,但生成表达力略弱。
24
+
25
+ ---
26
+
27
+ ## 2. 系统实现细节
28
+
29
+ ### Gradio 交互界面截图
30
+
31
+ (请补充截图,可使用 `![界面截图](path/to/image.png)` 插入)
32
+
33
+ ### 输入与输出流程图
34
+
35
+ ```mermaid
36
+ graph TD
37
+ 用户输入Prompt --> Gradio前端
38
+ Gradio前端 --> 模型A
39
+ Gradio前端 --> 模型B
40
+ 模型A --> 输出A
41
+ 模型B --> 输出B
42
+ 输出A & 输出B --> 页面展示
43
+ 模型集成方式说明
44
+ 所有模型均通过 transformers.pipeline("text-generation") 加载,封装于 model_wrappers/model_a.py 与 model_wrappers/model_b.py 中,支持统一输入后同时生成输出内容,便于 Arena 场景展示与结果对比。
45
+
46
+ 3. GRACE 评估维度定义
47
+ 本次评估采用 GRACE 框架中的 4 个维度:
48
+
49
+ 维度名 说明(结合任务)
50
+ Generalization 模型面对多样输入时保持合理输出的能力
51
+ Relevance 输出与输入主题的相关性
52
+ Artistry 生成文本的自然度、流畅性及语言多样性
53
+ Efficiency 模型的响应速度和资源占用效率(尤其是推理速度)
54
+
55
+ 选择理由:这四个维度覆盖了生成模型在质量、表达与使用效率方面的主要考量。
56
+
57
+ 4. 结果与分析
58
+ 多条输入样例输出结果对比
59
+ Prompt 输入 Model A 输出片段 Model B 输出片段
60
+ Tell me a story about a dragon ... the dragon flew over... ... once there was a dragon...
61
+ 写一首关于春天的诗 ...花开满地,风送绿意... ...春天来了,阳光明媚...
62
+
63
+ 维度评分图(雷达图)
64
+ 图像生成方式使用:evaluate.visualization.radar_plot,如下图所示:
65
+
66
+ (由系统自动生成图形展示)
67
+
68
+ 分析每个模型的优劣势
69
+ GPT-2:表现更自然、上下文连贯度高,但体积大、推理速度稍慢。
70
+
71
+ DistilGPT2:响应更快,占用资源更低,但有时生成文本显得简单或重复。
72
+
73
+ 5. 合作与反思
74
+ 👤 同学 A 负责内容
75
+ 集成 GPT-2 模型 (model_a.py)
76
+
77
+ 实现主界面结构和 GRACE 雷达图模块
78
+
79
+ 完成 report.md 文档框架搭建
80
+
81
+ 学到的内容:
82
+
83
+ 熟悉 Gradio 多页签应用搭建
84
+
85
+ 掌握 Hugging Face 模型集成流程
86
+
87
+ 遇到的困难:
88
+
89
+ 模型加载初期速度较慢,需增加缓存处理
90
+
91
+ 雷达图模块在 Hugging Face Spaces 上需手动安装 evaluate
92
+
93
+ 👤 同学 B 负责内容
94
+ 集成 DistilGPT2 模型 (model_b.py)
95
+
96
+ 实现 Arena 输入驱动模块(prompt + 输出框)
97
+
98
+ 撰写维度说明、样例输出及最终分析内容
99
+
100
+ 学到的内容:
101
+
102
+ 掌握文本生成模型的输出特性差异
103
+
104
+ 使用 Mermaid 绘制流程图,改进报告表达力
105
+
106
+ 遇到的困难:
107
+
108
+ 模型输出的稳定性不一,需调试 do_sample 与 max_length 参数