背景

背景
论文提出一种新的方法来研究和恢复大型语言模型 (LLMs) 中的心理表征，这种方法灵感来源于认知心理学，并通过人类表现来研究 AI 系统所用的表现。当前，对于深度神经网络这样的“黑箱”AI系统，其内部机制通常难以访问，且随着模型参数的增多，针对神经元层面的分析效果逐渐降低。
已有的工作 目前，解释深度学习模型主要是通过分析神经元激活模式来识别其内部表示，但随着AI系统的深度和参数数量的增加，这种方法的有效性降低了。

核心贡献

提出了一个使用采样算法来研究 LLM 的心理表征的方法
- 挑战1：无法直观观察心理表征 论文利用基于采样概率分布的行为方法，将这些方法应用于了大型语言模型，特别是 GPT-4，并且展示了如何通过行为（即它们产生的输出）来推断心理表征。此举提高了查出这些表征的效率。
- 挑战2：如何提高效率与性能 该工作通过将 LLMs 作为采样算法的一部分，并利用直接采样和马尔可夫链蒙特卡洛（MCMC）方法来探究它们的心理表征，提高了效率与性能，并且指出这种方法有潜力成为一种更通用的基于 LLMs 的贝叶斯推断方法。

实现与部署

论文详细描述了通过使用直接提示（Direct Prompting）、直接采样（Direct Sampling）、马尔可夫链蒙特卡洛（MCMC）和吉布斯采样（Gibbs Sampling）四种行为方法来从 GPT-4 中恢复心理表征的具体实施方式。这些方法通过询问 GPT-4 有关颜色与对象的匹配性问题，来提取模型中的颜色表征。实验结果表明，与直接提示相比，使用 MCMC 基的自适应采样算法可以显著提高效率和性能。

总结

本文通过将 LLMs 整合到采样算法中，并运用直接采样与 MCMC 的方式提取心理表征，有效提升了效率和性能，并探索了用 LLM 进行贝叶斯推断的潜力。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2401.16657.md

2401.16657.md

背景

核心贡献

实现与部署

总结

Files

2401.16657.md

Latest commit

History

2401.16657.md

File metadata and controls

背景

核心贡献

实现与部署

总结