背景
文章指出，大型语言模型（LLMs）如 ChatGPT 和 GPT-4 在自然语言处理（NLP）方面展现了出色的能力，但在处理复杂多面向任务时仍显得有限。越来越多的研究集中在使用外部工具的基于LLM的代理上，这些工具使得代理能够执行更为复杂的任务，从而扩展了LLM超越NLP任务的能力范围。然而，现有的基于LLM的代理只支持有限的工具集，无法涵盖用户查询的广泛范围，尤其是那些涉及专业领域的查询。
已有的工作 尽管存在许多在像GitHub这样的托管平台中的资源库，可以作为工具的良好资源，特别是包含了许多跨越不同领域的专业工具，但现有的基于LLM的代理无法自主地扩展其工具集以满足用户的需求。工具扩展基于GitHub的工作面临一些挑战，比如缺少库的标准化、存在缺陷的库以及文档不完整。

提出了一个名为GITAGENT的自主代理
- 挑战1：非标准化的工具库 研究者们指出，GitHub上的库存在缺陷，并且文档可能不完整，这对代理集成库和进一步使用库来完成用户查询造成了困难。GITAGENT采取的方法是利用GitHub上的Issues和Pull Requests（PRs），它们包含了人类实践经验。GITAGENT首先将问题概括为一个查询，然后利用GitHub Issues/PRs API来搜索相关的Issues/PRs。之后判断这些Issues/PRs的相关性并逐个应用来解决当前的问题，如果找到合适的，将会学习Issues/PRs的内容来解决问题。最后，GITAGENT会归纳在此过程中获得的实践经验，以指导将来的使用。
- 挑战2：自动工具扩展 GITAGENT 对自动工具扩展过程进行了四阶段的分解：搜索（Search）、配置（Setup）、应用（Apply）和存储（Store）。它从GitHub中搜索合适的库来开始，然后配置其环境。然后GITAGENT使用配置好的库来满足用户查询，最后将库存储起来，以便高效处理后续的查询。GITAGENT可以自主集成GitHub中的库，从而满足用户查询的多样化需求。

实验评估涉及30个用户查询，结果显示GITAGENT平均成功率为69.4％，有效展示了GITAGENT在自主集成工具以完成跨专业领域任务方面的效果。此外，研究讨论了失败的原因，为未来的研究方向提供了启示。

文章主要介绍了一个名为GITAGENT的自主代理，它可以自主从GitHub扩展工具，以满足用户查询的多种需求。GITAGENT通过解决非标准化挑战，能够自主学习基于GitHub Issues/PRs的人类经验，以解决工具扩展过程中的问题，并且展示了在自主集成工具以完成跨专业领域任务方面的有效性。

Provide feedback

Saved searches