README 深度解析Transformer(大模型场景),提供图、代码等,力求每个人都能吃透它。 有疑惑的地方欢迎issue或邮件我,😀Enjoin! Attention Is All You Need 论文地址 GPT-2 官方代码 动态图解 nanoGPT 学习章节: 人人都能看懂的Transformer 第一章——Transformer网络架构 第二章——文字向量化 第三章——位置编码 第四章——多头注意力机制——QK矩阵相乘 第五章——多头注意力机制——全流程 第六章——数值缩放 第七章——前馈神经网络 第八章——最后的输出