homework1

Sleeping

App Files Files Community

EdmundYi commited on Jun 27

Commit

0119cd6

verified ·

1 Parent(s): 0ac4b27

Update report.md

Browse files

Files changed (1) hide show

report.md +102 -18

report.md CHANGED Viewed

@@ -1,24 +1,108 @@
-# 📊 实验报告
-## 实验目标
-本实验比较两个 LLM 模型的输出质量，采用 GRACE 框架评估其表现。
-## 模型介绍
-- **Model A**：GPT-2
-- **Model B**：DistilGPT2
-## GRACE 维度评分
-| 模型     | Generalization | Relevance | Artistry | Efficiency |
-|----------|----------------|-----------|----------|------------|
-| Model A  | 4.0            | 4.5       | 3.5      | 4.0        |
-| Model B  | 3.5            | 4.0       | 4.0      | 3.5        |
-## 总结
-模型 A 在通用性和效率上表现更优；模型 B 在艺术性方面略胜一筹。
-## 开发分工
-- 同学 A：实现 Model A 封装、主界面集成与 GRACE 可视化
-- 同学 B：实现 Model B 封装、Arena 模块与报告撰写
-## 提交记录
-见 Files 页面和 Git 历史，可追溯每位同学的修改。

+✅ report.md 模板内容
+# 📊 LLM 对比实验报告
+## 1. 模型及类别选择
+本实验选择了两种主流的语言生成模型：
+- **Model A**：GPT-2（由 OpenAI 发布，基于 Transformer 架构的大型预训练生成模型）
+- **Model B**：DistilGPT2（由 Hugging Face 发布，是 GPT-2 的轻量级蒸馏版本）
+### 模型用途对比简述
+| 模型       | 主要用途             | 模型体积 | 相对性能 |
+|------------|----------------------|----------|----------|
+| GPT-2      | 通用文本生成任务     | 较大     | 高       |
+| DistilGPT2 | 快速部署与边缘生成场景 | 较小     | 中等偏上 |
+### 选取标准与模型异同点分析
+- **选取标准**：在 Hugging Face 上广泛使用、API 接口一致、具备代表性。
+- **异同点**：
+  - 相同点：均为预训练文本生成模型、使用 `transformers` 提供的 pipeline 方式封装。
+  - 不同点：模型体积与生成质量略有差异，DistilGPT2 更轻便，但生成表达力略弱。
+---
+## 2. 系统实现细节
+### Gradio 交互界面截图
+（请补充截图，可使用 `![界面截图](path/to/image.png)` 插入）
+### 输入与输出流程图
+```mermaid
+graph TD
+    用户输入Prompt --> Gradio前端
+    Gradio前端 --> 模型A
+    Gradio前端 --> 模型B
+    模型A --> 输出A
+    模型B --> 输出B
+    输出A & 输出B --> 页面展示
+模型集成方式说明
+所有模型均通过 transformers.pipeline("text-generation") 加载，封装于 model_wrappers/model_a.py 与 model_wrappers/model_b.py 中，支持统一输入后同时生成输出内容，便于 Arena 场景展示与结果对比。
+3. GRACE 评估维度定义
+本次评估采用 GRACE 框架中的 4 个维度：
+维度名	说明（结合任务）
+Generalization	模型面对多样输入时保持合理输出的能力
+Relevance	输出与输入主题的相关性
+Artistry	生成文本的自然度、流畅性及语言多样性
+Efficiency	模型的响应速度和资源占用效率（尤其是推理速度）
+选择理由：这四个维度覆盖了生成模型在质量、表达与使用效率方面的主要考量。
+4. 结果与分析
+多条输入样例输出结果对比
+Prompt 输入	Model A 输出片段	Model B 输出片段
+Tell me a story about a dragon	... the dragon flew over...	... once there was a dragon...
+写一首关于春天的诗	...花开满地，风送绿意...	...春天来了，阳光明媚...
+维度评分图（雷达图）
+图像生成方式使用：evaluate.visualization.radar_plot，如下图所示：
+（由系统自动生成图形展示）
+分析每个模型的优劣势
+GPT-2：表现更自然、上下文连贯度高，但体积大、推理速度稍慢。
+DistilGPT2：响应更快，占用资源更低，但有时生成文本显得简单或重复。
+5. 合作与反思
+👤 同学 A 负责内容
+集成 GPT-2 模型 (model_a.py)
+实现主界面结构和 GRACE 雷达图模块
+完成 report.md 文档框架搭建
+学到的内容：
+熟悉 Gradio 多页签应用搭建
+掌握 Hugging Face 模型集成流程
+遇到的困难：
+模型加载初期速度较慢，需增加缓存处理
+雷达图模块在 Hugging Face Spaces 上需手动安装 evaluate
+👤 同学 B 负责内容
+集成 DistilGPT2 模型 (model_b.py)
+实现 Arena 输入驱动模块（prompt + 输出框）
+撰写维度说明、样例输出及最终分析内容
+学到的内容：
+掌握文本生成模型的输出特性差异
+使用 Mermaid 绘制流程图，改进报告表达力
+遇到的困难：
+模型输出的稳定性不一，需调试 do_sample 与 max_length 参数