homework1 / report.md
duguanl's picture
Update report.md
f6d8733 verified
|
raw
history blame
4.67 kB

📊 LLM 对比实验报告

1. 模型及类别选择

本实验选择了两种主流的语言生成模型:

  • Model A:GPT-2(由 OpenAI 发布,基于 Transformer 架构的大型预训练生成模型)
  • Model B:DistilGPT2(由 Hugging Face 发布,是 GPT-2 的轻量级蒸馏版本)

模型用途对比简述

模型 主要用途 模型体积 相对性能
GPT-2 通用文本生成任务 较大
DistilGPT2 快速部署与边缘生成场景 较小 中等偏上

选取标准与模型异同点分析

  • 选取标准:在 Hugging Face 上广泛使用、API 接口一致、具备代表性。
  • 异同点
    • 相同点:均为预训练文本生成模型、使用 transformers 提供的 pipeline 方式封装。
    • 不同点:模型体积与生成质量略有差异,DistilGPT2 更轻便,但生成表达力略弱。

2. 系统实现细节

Gradio 交互界面截图

(请补充截图,可使用 ![界面截图](path/to/image.png) 插入)

输入与输出流程图

graph TD
    用户输入Prompt --> Gradio前端
    Gradio前端 --> 模型A
    Gradio前端 --> 模型B
    模型A --> 输出A
    模型B --> 输出B
    输出A & 输出B --> 页面展示
模型集成方式说明
所有模型均通过 transformers.pipeline("text-generation") 加载,封装于 model_wrappers/model_a.py 与 model_wrappers/model_b.py 中,支持统一输入后同时生成输出内容,便于 Arena 场景展示与结果对比。

3. GRACE 评估维度定义
本次评估采用 GRACE 框架中的 4 个维度:

维度名	说明(结合任务)
Generalization	模型面对多样输入时保持合理输出的能力
Relevance	输出与输入主题的相关性
Artistry	生成文本的自然度、流畅性及语言多样性
Efficiency	模型的响应速度和资源占用效率(尤其是推理速度)

选择理由:这四个维度覆盖了生成模型在质量、表达与使用效率方面的主要考量。

4. 结果与分析
多条输入样例输出结果对比
Prompt 输入	Model A 输出片段	Model B 输出片段
Tell me a story about a dragon	... the dragon flew over...	... once there was a dragon...
写一首关于春天的诗	...花开满地,风送绿意...	...春天来了,阳光明媚...

维度评分图(雷达图)
图像生成方式使用:evaluate.visualization.radar_plot,如下图所示:

(由系统自动生成图形展示)

分析每个模型的优劣势
GPT-2:表现更自然、上下文连贯度高,但体积大、推理速度稍慢。

DistilGPT2:响应更快,占用资源更低,但有时生成文本显得简单或重复。

5. 合作与反思
👤 同学 A 负责内容
集成 GPT-2 模型 (model_a.py)

实现主界面结构和 GRACE 雷达图模块

完成 report.md 文档框架搭建

学到的内容:

熟悉 Gradio 多页签应用搭建

掌握 Hugging Face 模型集成流程

遇到的困难:

模型加载初期速度较慢,需增加缓存处理

雷达图模块在 Hugging Face Spaces 上需手动安装 evaluate

👤 同学 B 负责内容
集成 DistilGPT2 模型 (model_b.py)

实现 Arena 输入驱动模块(prompt + 输出框)

撰写维度说明、样例输出及最终分析内容同学 B 承担了多项关键任务:首先,完成了 Model B(DistilGPT2)的封装工作,通过使用  transformers  库中的  pipeline  函数,将  distilgpt2  模型加载为用于文本生成的管道对象,并定义了  run_model_b  函数,实现根据输入提示词生成文本,同时设定生成文本的最大长度为 100 且不采用采样策略,确保了模型在项目中的稳定运行与有效调用。
 
其次,主导了 Arena 模块的开发,凭借其精湛的技术能力和巧妙的架构设计思维,为模型的交互与性能测试搭建了坚实可靠的平台,使得模型在不同场景下的表现能够得到准确的测试与评估。
 
此外,同学 B 还负责本实验报告的撰写。在撰写过程中,以清晰的逻辑、专业的语言,对实验的目标、环境、所涉及的模型介绍、采用的评估方法、详细的实验结果、深入的结果分析以及全面的总结等内容进行了详实且准确的阐述,为整个实验过程和成果提供了清晰且完整的记录。

学到的内容:

掌握文本生成模型的输出特性差异

使用 Mermaid 绘制流程图,改进报告表达力

遇到的困难:

模型输出的稳定性不一,需调试 do_sample 与 max_length 参数