Transformer调试器

Transformer Debugger (TDB) 是 OpenAI 的Superalignment 团队开发的工具，旨在支持对小语言模型的特定行为的调查。该工具将自动解释技术与稀疏自动编码器相结合。

TDB 能够在需要编写代码之前进行快速探索，并能够干预前向传递并查看它如何影响特定行为。它可用于回答诸如“为什么模型在此提示中输出标记 A 而不是标记 B？”之类的问题。或“为什么注意力头 H 会注意这个提示的标记 T？” 它通过识别对行为有贡献的特定组件（神经元、注意力头、自动编码器潜伏）、显示自动生成的导致这些组件激活最强烈的原因的解释以及跟踪组件之间的连接以帮助发现电路来实现这一点。

这些视频概述了 TDB，并展示了如何使用它来研究GPT-2 小中的间接对象识别：

发布内容是什么？

Neuron 查看器：一个 React 应用程序，托管 TDB 以及包含有关各个模型组件（MLP 神经元、注意力头和两者的自动编码器潜伏）信息的页面。
激活服务器：对主题模型进行推理，为TDB提供数据的后端服务器。它还从公共 Azure 存储桶读取数据并提供数据。
模型：一个用于 GPT-2 模型及其自动编码器的简单推理库，带有用于获取激活的钩子。
整理的激活数据集：MLP 神经元、注意力头和自动编码器潜伏的顶级激活数据集示例。

设置

请按照以下步骤安装存储库。您首先需要 python/pip 以及 node/npm。

虽然可选，但我们建议您使用虚拟环境或等效环境：

# If you're already in a venv, deactivate it.
deactivate
# Create a new venv.
python -m venv ~/.virtualenvs/transformer-debugger
# Activate the new venv.
source ~/.virtualenvs/transformer-debugger/bin/activate

设置环境后，请按照以下步骤操作：

git clone [email protected]:openai/transformer-debugger.git cd transformer-debugger

# Install neuron_explainer pip install -e .

# Set up the pre-commit hooks. pre-commit install

# Install neuron_viewer. cd neuron_viewer npm install cd ..

要运行 TDB 应用程序，您需要按照说明设置激活服务器后端和神经元查看器前端。

做出改变

要验证更改：

跑步pytest
跑步mypy --config=mypy.ini .
运行激活服务器和神经元查看器并确认 TDB 和神经元查看器页面等基本功能仍然有效

链接

术语

如何引用

请引用为：

Mossing, et al., “Transformer Debugger”, GitHub, 2024.

BibTex 引文：

@misc{mossing2024tdb,
  title={Transformer Debugger},
  author={Mossing, Dan and Bills, Steven and Tillman, Henk and Dupré la Tour, Tom and Cammarata, Nick and Gao, Leo and Achiam, Joshua and Yeh, Catherine and Leike, Jan and Wu, Jeff and Saunders, William},
  year={2024},
  publisher={GitHub},
  howpublished={\url{https://github.com/openai/transformer-debugger}},
}

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
neuron_explainer		neuron_explainer
neuron_viewer		neuron_viewer
.gitignore		.gitignore
.isort.cfg		.isort.cfg
.pre-commit-config.yaml		.pre-commit-config.yaml
LICENSE		LICENSE
README.md		README.md
datasets.md		datasets.md
mypy.ini		mypy.ini
pyproject.toml		pyproject.toml
pytest.ini		pytest.ini
setup.py		setup.py
terminology.md		terminology.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Transformer调试器

发布内容是什么？

设置

做出改变

链接

如何引用

About

Releases

Packages

Languages

License

yuanzhongqiao/transformer-debugger

Folders and files

Latest commit

History

Repository files navigation

Transformer调试器

发布内容是什么？

设置

做出改变

链接

如何引用

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages