-
背景
本研究探讨了大型语言模型(LLMs),特别是GPT-3.5和GPT-4,结合思维链(Chain-of-Thought,CoT)在自动评分学生科学评估作文中的应用。这是为了克服自动评估工具在可访问性、技术复杂性和可解释性方面的局限性,这些局限性在过去限制了研究人员和教育者使用这些工具。 -
已有的工作 已有的自动评分方法主要依靠机器学习和自然语言处理(NLP)的进步。虽然这些系统已经能够理解学生回答的句法结构,但受到学生科学推理和思维过程解释的挑战。研发这些评分模型需要大量的时间和努力。因此,最近的研究利用了提示工程,并提出了利用这种新方法来免除研究人员标记大量训练用例的可能性。但是,报告中的评分准确率仍需要大幅提高,这通常被归因于LLMs理解内容特定知识深度和学生答案背后逻辑的有限能力。迄今为止,尽管已经发布了许多LLMs,例如GPT系列,但仍未明确哪些模型和哪些超参数最适合自动评分。
- 提出了科学教育中自动评分系统的新方法
-
挑战1:自动评分工具的局限性 这项研究提出用大型语言模型和思维链(CoT)提示方法相结合可以显著增强自动评分系统的准确性,并解决自动评分工具的可访问性、技术复杂性和缺乏解释性等问题。论文的方法可以减少人工努力,同时能够捕捉学生在构建科学解释中的思考过程,可能更贴近人类评分结果。
-
挑战2:评分准确性的提高 在研究中,研究者通过实验设计测试了不同条件下LLMs的评分准确度。这些条件具体包括提示方法的对比(零次学习vs.少数答案学习),LLMs推理策略(CoT vs. 非CoT),以及提供背景信息项和评分标准。研究还测试了GPT家族的不同版本和超参数对自动评分性能的影响。结果表明,GPT-4在多种评分任务中表现优于GPT-3.5,并且CoT在配合项目茎和评分标准时,可以极大提升评分准确度。
-
论文中的实验测试了六种提示工程策略,将零次学习或少数答案学习与CoT相结合,研究结果表明少数答案学习的准确率(67%)优于零次学习的准确率(60%),增幅为12.6%。CoT在没有项目茎和评分准则时对评分准确度没有显著影响(准确度60%),但是CoT与背景项目茎和评分准则相结合,可以显着提高评分准确度(零次学习增加13.44%,少数答案学习增加3.7%)。此外,GPT-4比GPT-3.5在不同的评分任务中表现更好,差异达到8.64%。在单次调用策略中,特别是使用贪婪采样的GPT-4性能优于其他方法,包括集合投票策略。
本文展示了LLMs在促进自动评分方面的潜力,并强调CoT在配合项茎和评分标准使用时能显著增强评分的准确度。通过结合LLMs和CoT的方法,可以降低自动评分模型构建的复杂性和人力成本,并可能提供更接近人类评分结果的评分。