Update README.md
Browse files
README.md
CHANGED
|
@@ -50,13 +50,41 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
|
|
| 50 |
device = "cuda" # the device to load the model onto
|
| 51 |
|
| 52 |
model = AutoModelForCausalLM.from_pretrained(
|
| 53 |
-
"sii-research/InnoSpark-
|
| 54 |
torch_dtype="auto",
|
| 55 |
device_map="auto"
|
| 56 |
)
|
| 57 |
-
tokenizer = AutoTokenizer.from_pretrained("sii-research/InnoSpark-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 58 |
|
| 59 |
-
prompt = "Introduce yourself in detail."
|
| 60 |
messages = [
|
| 61 |
{"role": "system", "content": "You are InnoSpark(启创), created by Shanghai Innovation Institute (上海创智学院) and East China Normal University(华东师范大学). You are a helpful assistant."},
|
| 62 |
{"role": "user", "content": prompt}
|
|
|
|
| 50 |
device = "cuda" # the device to load the model onto
|
| 51 |
|
| 52 |
model = AutoModelForCausalLM.from_pretrained(
|
| 53 |
+
"sii-research/InnoSpark-HPC-RM-32B",
|
| 54 |
torch_dtype="auto",
|
| 55 |
device_map="auto"
|
| 56 |
)
|
| 57 |
+
tokenizer = AutoTokenizer.from_pretrained("sii-research/InnoSpark-HPC-RM-32B")
|
| 58 |
+
|
| 59 |
+
Q = ""
|
| 60 |
+
A = ""
|
| 61 |
+
|
| 62 |
+
prompt = f'''用户问了一个问题如下:
|
| 63 |
+
{Q}
|
| 64 |
+
下面是模型给的回复如下:
|
| 65 |
+
{A}
|
| 66 |
+
请你进行仔细的思考从意义深度,创造力,个性化3个角度分别进行考虑,对模型给出的回答进行打分,评分范围为0,1,2。分数越高表示模型在该方面的能力表现越好。
|
| 67 |
+
具体的评分要求如下:
|
| 68 |
+
意义深度方面:
|
| 69 |
+
1.如果模型的回复在内容上具有深刻内涵,且高度体现了积极、健康、富有启发性的思想内容,则“意义深度”的得分为2 ;如果模型的回复仅表面回答问题,但未能有效传
|
| 70 |
+
达更深层次的思考或正向导向,缺乏启发性,则“意义深度”的得分为1;如果模型的回复内容浅薄、空泛,缺乏任何积极意义,甚至存在误导或极端倾向,则“意义深度”的
|
| 71 |
+
得分为0
|
| 72 |
+
2.如果模型能够在回答问题的同时,通过潜移默化的方式传达出积极向上、有教育意义的内容,体现出良好的思想表达与语言组织,则可视为得分为2
|
| 73 |
+
3.如果模型本有机会通过更高质量的内容传递有意义的信息,但最终未能展现出来,得分为1
|
| 74 |
+
4.如果回答内容缺乏任何内涵,甚至引起误解或产生负面情绪影响,则得分为0
|
| 75 |
+
创造力方面:
|
| 76 |
+
1.如果模型的回复能够非常好进一步激发用户的思考,提升用户的创造力,则创造力的得分为2;如果模型的回复能够一定程度上激发用户的思考,来培养用户的创造力,
|
| 77 |
+
则创造力的得分为1;如果模型的回复完全没有激发用户思考的作用,则创造力的得分为0
|
| 78 |
+
2.如果模型的回复在回答问题的同时,给出了更多思考问题,更多的解题方法或思路,给出了激发用户思考的一些问题,能够多角度解释,提供有趣易懂的新颖独创的解
|
| 79 |
+
答和回复,具有多种解题,解答方式,则创造力的得分为2
|
| 80 |
+
3.如果模型的回复在回答问题的同时,一定程度上给出了更多思考问题,更多的解题方法或思路,但仍然有改进空间,则创造力的得分为1
|
| 81 |
+
4.如果模型的回复只是简单的回答问题,没有任何激发用户思考的回复内容,则创造力的得分为0
|
| 82 |
+
个性化方面:
|
| 83 |
+
1.如果用户的问题中不存在任何用户的个性化信息(个人信息或个人画像,性格,年龄身份等),则个性化的得分为2
|
| 84 |
+
2.如果问题中存在了用户的个性化信息(个人信息或个人画像),且模型的回复非常适合用户,例如年龄,爱好等方面的回复,则个性化的得分为2
|
| 85 |
+
3.如果问题中存在了用户的个性化信息(个人信息或个人画像),但模型的回复不是非常完美地适合于该用户,存在改进的空间,则个性化的得分为1
|
| 86 |
+
4.如果问题中存在了用户的个性化信息(个人信息或个人画像),但模型的回复是非常通用的,完全没有考虑到用户的信息来给出更好的回复,则个性化的得分为0'''
|
| 87 |
|
|
|
|
| 88 |
messages = [
|
| 89 |
{"role": "system", "content": "You are InnoSpark(启创), created by Shanghai Innovation Institute (上海创智学院) and East China Normal University(华东师范大学). You are a helpful assistant."},
|
| 90 |
{"role": "user", "content": prompt}
|