本文主要分享我们对「弱智吧模型」与「Yi-6B-Chat」的对比实验,以认清弱智吧模型与强Baseline之间的差距,对弱智吧数据进行祛魅。
实验结果与我们的猜想一致:
在GPT4评测与人工评测中,Yi-6B-Chat均显著优于弱智吧模型。
在COIG-CQIA数据集中,弱智吧数据鹤立鸡群,更多源于其对比对象的能力较弱。
在COIG-CQIA论文中,弱智吧数据“表现惊艳”,在BELLE-EVAL评测集中,大幅超越其他数据。
对于该现象,在上一篇文章「关于弱智吧数据封神的若干疑问和猜想,以及数据验证实验」中,我们提出了若干猜想,并且进行了数据实验。可得出以下结论:「在CQIA数据集中,弱智吧数据优于知乎数据」,并且基本上能够复现出原论文中的性能差距。
但我们尚无法排除是否因为对比对象太弱,才衬托出弱智吧数据的“强大”,因此,我们补充了弱智吧模型与强Baseline的对比实验。
其中,弱智吧模型的训练细节与文章「关于弱智吧数据封神的若干疑问和猜想,以及数据验证实验」中的保持一致,训练数据共240条,采用QLoRA训练5个epoch,学习率为2e-4,采用constant学习率,batch size为16,一共训练75步。我们采用Yi-6B-Chat作为强baseline进行对比。
我们在BELLE-EVAL上进行模型评测,使用GPT4对模型回复进行打分,分数为0~1之间,沿用了BELLE项目中的打分prompt。除此之外,我们还随机采样了64条生成结果进行人工评测。
评测结果为:在GPT4评测与人工评测中,Yi-6B-Chat均显著优于弱智吧模型。
在BELLE-EVAL评测集中,各模型的GPT4评分如下表所示,Yi-6B-Chat的评分结果显著优于弱智吧模型。
评测任务 | Yi-6B-Chat | 弱智吧模型 | 知乎模型 |
Open QA | 0.7342 | 0.6958 | 0.5316 |
Classification | 0.7465 | 0.6342 | 0.3905 |
Math | 0.6493 | 0.392 | 0.3187 |
Summarization | 0.815 | 0.7625 | 0.44 |
Closed QA | 0.7552 | 0.6846 | 0.4221 |
Extract | 0.5911 | 0.4703 | 0.2216 |
我们进一步对Yi-6B-Chat和弱智吧模型的生成结果进行了人工评测,在评测中,每条数据存在胜负平三种结果。在抽检评测的64条数据中,Yi-6B-Chat获得34胜、26平、4负的压倒性的成绩。详细评测结果如下表所示。
评测任务 | Yi-6B-Chat获胜 | 平局 | Yi-6B-Chat落败 |
总和 | 34 | 26 | 4 |
Open QA | 12 | 8 | 2 |
Classification | 5 | 7 | 0 |
Math | 4 | 5 | 1 |
Rewrite | 9 | 1 | 0 |
Closed QA | 4 | 5 | 1 |
当然,该对比实验确实还存在“不公平”的因素,弱智吧的训练数据量太少了,但不妨碍我们得出「在COIG-CQIA数据集中,弱智吧数据鹤立鸡群,更多源于其对比对象的能力较弱」这个结论。
COIG-CQIA本身是一项非常不错的工作,最主要的贡献是开源了一个中文指令数据集,此前该团队也开源了CMMMU、COIG、COIG-PC等具有影响力的工作。弱智吧数据确有其积极作用,可提高模型的推理能力、逻辑能力等。
但各大媒体在宣传时,往往过度宣传「弱智吧 is all you need、弱智吧数据天下第一」,对该工作进行捧杀,希望科技媒体也能更加求真务实一些,更加有利于技术的传播和交流。
模型的生成样例如下:
题目:
解释以下职业的社会刻板印象。
医生
弱智吧模型:
医生通常被认为是一个高尚、有知识和专业的职业。在社会中,医生通常被赋予了较高的信任和尊敬。他们被认为是治疗和拯救生命的专业人员,负责诊断和治疗疾病。医生通常需要经过多年的专业教育和培训,他们的工作内容包括看病、做检查、开处方等。
然而,医生也面临着一些负面的刻板印象,比如认为他们只是执行医嘱,而不是参与病人的治疗决策。此外,医生有时也被认为过于严肃、冷漠或不近人情。
总的来说,医生通常被认为是一个有责任感和专业精神的职业,但在社会中,人们对医生的看法和期望也会受到医疗行业本身以及社会对健康和医疗问题认知的不断变化的影响。
Yi-6B-Chat:
医生是一个职业,其社会刻板印象通常包括以下几点:
1. 专业知识:医生被认为拥有医学领域的深入知识和专业技能,能够提供高质量的医疗服务。
2. 责任和权威:医生在医疗领域拥有较高的地位和权威,他们负责患者的诊断、治疗和健康建议。
3. 稳定和保障:医生通常被认为是一个稳定和有保障的职业选择,尤其是在医疗行业中工作通常可以享受到较好的薪资和福利待遇。
4. 高压力:医生工作通常面临高压力,需要快速做出决策,特别是在急诊室或重症监护室等高压力环境中。
5. 长时间工作:医生可能需要长时间工作,特别是急诊室医生或手术室医生,可能需要长时间值班和轮班。
6. 个人牺牲:医生可能需要牺牲个人时间和生活,特别是在值班或紧急情况下,需要随时待命。
7. 社会尊重:医生因其专业能力和对社会的贡献而受到普遍尊重。
8. 教育和培训要求高:成为一名医生通常需要多年的教育和培训,包括医学院校的学习和住院医师的培训。
9. 医学伦理:医生需要遵守严格的医学伦理和道德标准,以保护患者利益和维护医疗专业形象。
这些刻板印象并非适用于所有医生,而是对整个职业群体的概括。实际上,医生职业中的个体会有自己独特的经历和职业道路。
问题:
某工厂九月份用煤80吨,十月份用煤70吨,十月份比九月份节约用煤百分之几?
弱智吧模型:
要计算十月份比九月份节约用煤的百分比,我们首先需要知道九月份的用煤量。由于在问题中没有提供九月份的用煤量,因此无法计算出十月份比九月份节约用煤的具体百分比。
要计算百分比,我们通常需要知道两个数值:一个是九月份的用煤量,另一个是十月份的用煤量。然后,我们用十月份的用煤量减去九月份的用煤量,再除以九月份的用煤量,就可以得到一个百分比。
如果没有提供这两个数值,我们无法计算出确切的百分比。你可以通过提供九月份的用煤量,或者十月份的用煤量,来帮助计算。
Yi-6B-Chat:
要计算十月份比九月份节约用煤的百分比,我们需要先计算出节约的重量,然后再用节约的重量除以九月份的用煤重量。
九月份用煤重量:80吨
十月份用煤重量:70吨
节约的重量为:80吨 - 70吨 = 10吨
现在我们可以计算百分比:
节约的百分比 = 节约的重量 / 九月份的用煤重量 * 100%
节约的百分比 = 10吨 / 80吨 * 100%
节约的百分比 = 12.5%
所以,十月份比九月份节约用煤12.5%。
题目:
翻译文本 - 翻译以下英文句子为汉语:
One small step for man, one giant leap for mankind.
弱智吧模型:
这句话是阿波罗登月计划中的著名名言,它是由美国宇航员尼尔·阿姆斯特朗在1969年首次登月时说的。这句话表达了一种谦逊和自豪的混合情感,将人类登月的壮举与人类在漫长历史中的进步和奋斗联系在一起。它象征着人类在探索太空和推动科技发展方面所迈出的一小步,同时也代表着人类在更广泛层面上迈出的巨大飞跃,推动了人类对知识和文明的认知。
Yi-6B-Chat:
对于一个人来说,这是小小的一步;但对于整个人类来说,这是一次巨大的飞跃
在「知乎」也能找到我们了,搜索「红雨瓢泼」即可。
给公众号添加【星标⭐️】不迷路