Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
yusendai committed Mar 17, 2023
1 parent 188a10f commit 3640554
Showing 1 changed file with 21 additions and 1 deletion.
22 changes: 21 additions & 1 deletion README.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,25 @@
# ZhenBench

---
Z-Bench 0.9 by 真格基金 一个非技术人员的大语言模型中文测试集

贡献者:陈芳洲、Peak Ji、代码家、李植、陈万里、戴雨森

© 2023 [ZhenFund](http:https://zhenfund.com)

自从ChatGPT发布以来,我们经常会在使用它时发出惊叹:“啊,这个居然它也会!”同时,我们也欣喜地看到越来越多的大模型团队和产品如雨后春笋般出现,作为早期投资人,我们经常需要试用评估一些新出来的对话式AI产品。这时,我们会使用一些prompts来与行业龙头ChatGPT进行对比。我们逐渐记录下了很多有意思的prompts,以及一些目前大语言模型可能还不能很好处理的prompts。

OpenAI已经公布了ChatGPT的48种典型能力,之前在NLP领域也有MMLU、Big-bench、Glue等广为使用的测试集,并且研究表明,大模型随着参数和数据规模增大,会涌现出新的能力。但是之前的NLP任务测试集里,有的任务不一定适合对话式系统,有的任务不一定有好的中文版本。并且随着这些测试集成为行业标准,可能也会出现定向优化和过拟合的情况。因此,我们几个VC麻瓜,从自己的需求出发,作为对话式AI的重度用户,总结推出了Z-Bench——一个为非技术人员定性测试大模型对话式产品(类ChatGPT产品)准备的测试集。

Z-Bench 0.9测试集提供了基础能力,进阶能力,垂直能力共300个prompts,我们希望尽量覆盖不同类型的NLP任务。但是我们的目标并不是提供一个学术上非常严谨完整的测试集,而是希望通过结合学术上已有的测试集、日常搜集的一些有意思的案例,以及大模型出现之后学术界发现的涌现和顿悟能力,提供一个适合非技术专业人士使用的大模型能力测试集。因此,难免会漏掉一些场景,或是出现很多专业角度看比较业余的内容。我们会在未来不断的根据搜集到的反馈去补充完善,并且及时予以公布。

参考资料:

OpenAI介绍的ChatGPT基础能力列表:https://platform.openai.com/examples

SuperGLUE:https://arxiv.org/abs/1905.00537

MMLU:https://arxiv.org/abs/2009.03300

Big-Bench:https://arxiv.org/abs/2206.04615

Emergent Abilities of Large Language Models:https://arxiv.org/abs/2206.07682

0 comments on commit 3640554

Please sign in to comment.