add zeroclue

Browse files

Files changed (4) hide show

.gitattributes +1 -0
README.md +93 -0
pytorch_model.bin +1 -1
zeroclue.png +3 -0

.gitattributes CHANGED Viewed

@@ -31,3 +31,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -23,6 +23,12 @@ widget:
 On the basis of Randeng-T5-784M, about 100 Chinese datasets were collected and pre-trained for the supervised task of Text2Text unified paradigm.
 ## 模型分类 Model Taxonomy
 |  需求 Demand  | 任务 Task       | 系列 Series      | 模型 Model    | 参数 Parameter | 额外 Extra |
@@ -105,9 +111,96 @@ example_dict={
     '实体识别':{"text_a":"北京大学是我国的一座历史名校，坐落在海淀区，蔡元培曾经担任校长","question":"机构"},
     '抽取式阅读理解':{"text_a":"《H》正式定档3月7日下午两点整在京东商城独家平台开启第一批5000份预售,定价230元人民币,回馈最忠实的火星歌迷,意在用精品回馈三年来跟随华晨宇音乐不离不弃的粉丝们的支持与厚爱","question":"华晨宇专辑h预售价格是多少？"},
     '关键词抽取':{"text_a":"今儿在大众点评，找到了口碑不错的老茶故事私房菜。"},
     "生成式摘要":{"text_a":"针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于web的在线的流量分类管理系统.该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果.实验表明:在采用适应在线分类的特征集和c4.5决策树算法做分类时,系统能快速做出分类,且精度达到94％以上;数据可视化有助于人机交互,改善分类指导."}
 }
 ```
 ## 预训练或微调 prtrain or finetune

 On the basis of Randeng-T5-784M, about 100 Chinese datasets were collected and pre-trained for the supervised task of Text2Text unified paradigm.
+本模型在中文zero-shot榜单ZeroClue上取得了第三名（不包括人类）的成绩，在所有基于T5（encoder-decoder架构）的模型中排名第一。
+This model achieved the 3rd place (excluding humans) on the Chinese zero-shot benchmark ZeroClue, ranking first among all models based on T5 (encoder-decoder architecture).
+![截图于Screenshot taken on 2022.12.01](zeroclue.png)
 ## 模型分类 Model Taxonomy
 |  需求 Demand  | 任务 Task       | 系列 Series      | 模型 Model    | 参数 Parameter | 额外 Extra |
     '实体识别':{"text_a":"北京大学是我国的一座历史名校，坐落在海淀区，蔡元培曾经担任校长","question":"机构"},
     '抽取式阅读理解':{"text_a":"《H》正式定档3月7日下午两点整在京东商城独家平台开启第一批5000份预售,定价230元人民币,回馈最忠实的火星歌迷,意在用精品回馈三年来跟随华晨宇音乐不离不弃的粉丝们的支持与厚爱","question":"华晨宇专辑h预售价格是多少？"},
     '关键词抽取':{"text_a":"今儿在大众点评，找到了口碑不错的老茶故事私房菜。"},
+    '关键词识别':{"text_a":"今儿在大众点评，找到了口碑不错的老茶故事私房菜。","question":"请问这篇文章的关键词是大众点评、老茶私房菜吗？,"choices":["是","不是"]}
     "生成式摘要":{"text_a":"针对传统的流量分类管理系统存在不稳定、结果反馈不及时、分类结果显示不直观等问题,设计一个基于web的在线的流量分类管理系统.该系统采用流中前5个包(排除3次握手包)所含信息作为特征值计算资源,集成一种或多种分类算法用于在线网络流量分类,应用数据可视化技术处理分类结果.实验表明:在采用适应在线分类的特征集和c4.5决策树算法做分类时,系统能快速做出分类,且精度达到94％以上;数据可视化有助于人机交互,改善分类指导."}
 }
+# 构造prompt的过程中，verbalizer这个占位key的内容，是通过 "/".join(choices) 拼接起来
+dataset2instruction = {
+    "情感分析": {
+        "prompt": "{}任务：【{}】这篇文章的情感态度是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+    "文本分类": {
+        "prompt": "{}任务：【{}】这篇文章的类别是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+    "新闻分类": {
+        "prompt": "{}任务：【{}】这篇文章的类别是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+    "意图识别": {
+        "prompt": "{}任务：【{}】这句话的意图是什么？{}",
+        "keys_order": ["subtask_type","text_a", "verbalizer"],
+        "data_type": "classification",
+    },
+# --------------------
+    "自然语言推理": {
+        "prompt": "{}任务：【{}】和【{}】，以上两句话的逻辑关系是什么？{}",
+        "keys_order": ["subtask_type","text_a", "text_b", "verbalizer"],
+        "data_type": "classification",
+    },
+    "语义匹配": {
+        "prompt": "{}任务：【{}】和【{}】，以上两句话的内容是否相似？{}",
+        "keys_order": ["subtask_type","text_a", "text_b", "verbalizer"],
+        "data_type": "classification",
+    },
+# -----------------------
+    "指代消解": {
+        "prompt": "{}任务：文章【{}】中{}{}",
+        "keys_order": ["subtask_type","text_a", "question", "verbalizer"],
+        "data_type": "classification",
+    },
+    "多项选择": {
+        "prompt": "{}任务：阅读文章【{}】问题【{}】？{}",
+        "keys_order": ["subtask_type","text_a", "question", "verbalizer"],
+        "data_type": "classification",
+    },
+# ------------------------
+    "抽取式阅读理解": {
+        "prompt": "{}任务：阅读文章【{}】问题【{}】的答案是什么？",
+        "keys_order": ["subtask_type","text_a", "question"],
+        "data_type": "mrc",
+    },
+    "实体识别": {
+        "prompt": "{}任务：找出【{}】这篇文章中所有【{}】类型的实体？",
+        "keys_order": ["subtask_type","text_a", "question"],
+        "data_type": "ner",
+    },
+# ------------------------
+    "关键词抽取": {
+        "prompt": "{}任务：【{}】这篇文章的关键词是什么？",
+        "keys_order": ["subtask_type","text_a"],
+        "data_type": "keys",
+    },
+    "关键词识别":{
+        "prompt": "{}任务：阅读文章【{}】问题【{}】{}",
+        "keys_order": ["subtask_type","text_a","question","verbalizer"],
+        "data_type": "classification",
+    },
+    "生成式摘要": {
+        "prompt": "{}任务：【{}】这篇文章的摘要是什么？",
+        "keys_order": ["subtask_type","text_a"],
+        "data_type": "summ",
+    },
+}
+def get_instruction(sample):
+    template = dataset2instruction[sample["subtask_type"]]
+    # print(template)
+    # print(sample)
+    sample["instruction"] = template["prompt"].format(*[
+                sample[k] for k in template["keys_order"]
+            ])
+    print(sample["instruction"])
+    return sample["instruction"]
 ```
 ## 预训练或微调 prtrain or finetune

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f7231e9482940b12b4e067030c9f25b0aee562a88ab9d1683fc1612febcc30e
 size 3136623589

 version https://git-lfs.github.com/spec/v1
+oid sha256:53a9274353c0e873b6c61a84d5210bfc78d3d2f78653f7911eb5cf09a9b964ca
 size 3136623589

zeroclue.png ADDED Viewed

Git LFS Details

SHA256: f4b469df35a19a35cdb57c0517d6a4c145496d37271bc6a0fae2aa2a256eb708
Pointer size: 132 Bytes
Size of remote file: 1.14 MB