Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.8 KB

2312.17294.md

File metadata and controls

20 lines (15 loc) · 2.8 KB

背景

  • 背景
    文章指出,大型语言模型(LLMs)如 ChatGPT 和 GPT-4 在自然语言处理(NLP)方面展现了出色的能力,但在处理复杂多面向任务时仍显得有限。越来越多的研究集中在使用外部工具的基于LLM的代理上,这些工具使得代理能够执行更为复杂的任务,从而扩展了LLM超越NLP任务的能力范围。然而,现有的基于LLM的代理只支持有限的工具集,无法涵盖用户查询的广泛范围,尤其是那些涉及专业领域的查询。

  • 已有的工作 尽管存在许多在像GitHub这样的托管平台中的资源库,可以作为工具的良好资源,特别是包含了许多跨越不同领域的专业工具,但现有的基于LLM的代理无法自主地扩展其工具集以满足用户的需求。工具扩展基于GitHub的工作面临一些挑战,比如缺少库的标准化、存在缺陷的库以及文档不完整。

核心贡献

  • 提出了一个名为GITAGENT的自主代理
    • 挑战1:非标准化的工具库 研究者们指出,GitHub上的库存在缺陷,并且文档可能不完整,这对代理集成库和进一步使用库来完成用户查询造成了困难。GITAGENT采取的方法是利用GitHub上的Issues和Pull Requests(PRs),它们包含了人类实践经验。GITAGENT首先将问题概括为一个查询,然后利用GitHub Issues/PRs API来搜索相关的Issues/PRs。之后判断这些Issues/PRs的相关性并逐个应用来解决当前的问题,如果找到合适的,将会学习Issues/PRs的内容来解决问题。最后,GITAGENT会归纳在此过程中获得的实践经验,以指导将来的使用。

    • 挑战2:自动工具扩展 GITAGENT 对自动工具扩展过程进行了四阶段的分解:搜索(Search)、配置(Setup)、应用(Apply)和存储(Store)。它从GitHub中搜索合适的库来开始,然后配置其环境。然后GITAGENT使用配置好的库来满足用户查询,最后将库存储起来,以便高效处理后续的查询。GITAGENT可以自主集成GitHub中的库,从而满足用户查询的多样化需求。

实现与部署

实验评估涉及30个用户查询,结果显示GITAGENT平均成功率为69.4%,有效展示了GITAGENT在自主集成工具以完成跨专业领域任务方面的效果。此外,研究讨论了失败的原因,为未来的研究方向提供了启示。

总结

文章主要介绍了一个名为GITAGENT的自主代理,它可以自主从GitHub扩展工具,以满足用户查询的多种需求。GITAGENT通过解决非标准化挑战,能够自主学习基于GitHub Issues/PRs的人类经验,以解决工具扩展过程中的问题,并且展示了在自主集成工具以完成跨专业领域任务方面的有效性。