Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.08 KB

2311.1876.md

File metadata and controls

20 lines (15 loc) · 2.08 KB

背景

  • 背景
    文章介绍了大型语言模型(Large Language Models, LLMs)在任务自动化领域的应用和评估。目前,LLMs通常需要解析自动化任务和用户指令,这一解析包括任务分解、调用工具和参数,而往常这些被解析的任务更容易收集和构建,因此本文探讨了一个简单的问题:是否可能基于预期的解析任务合成用户指令?

  • 已有的工作 已有的研究不能有效地解决数据收集的复杂性,不足以模拟更实际更复杂的用户指令,亦缺乏一个能够综合评估LLM在任务分解、工具调用和参数预测方面能力的系统。

核心贡献

  • 提出了一个名为TaskBench的新基准测试
    • 挑战1:数据收集的复杂性 文章中提出了工具图(Tool Graph,TG)的概念,通过在TG中随机采样一个子图,代表用户指令中期望的任务列表,然后采用后指令策略生成最终的用户指令,从而模拟用户指令,解决数据收集的复杂性问题。

    • 挑战2:有效和量化的评估LLM的能力 提出了一个名为TASKEVAL的评估系统,包含一系列指标,客观评估LLM在任务分解、工具调用和工具参数预测方面的能力,同时通过人类评价来证实该评估系统与人类评估之间的正相关性。

实现与部署

在评估过程中,研究使用了三个不同的架构进行采样,以实现更好的控制性,分别是节点、链和有向无环图(DAG),并附加了自评机制以提升数据集的质量。为了保证评估的多样性,数据生成涵盖了三个领域(例如Hugging Face、多媒体和日常生活),形成了一个用于评估LLM在任务自动化方面能力的TaskBench。实验结果显示,所提出的TaskBench能够有效反映LLMs在多个维度上的能力,且具有与人评价的高度相关性。

总结

该文献提出了TaskBench基准测试和TASKEVAL评估系统,通过数据生成和量化评估系统,有效地解决了在任务自动化领域对LLMs的评估问题。