学习札记 · 彩蛋

彩蛋 01 · 前世今生

Transformer 的前世今生:一篇翻译论文,怎么变成全 AI 的地基

—— 你学的这条线(bigram → 注意力 → GPT)到底打哪儿来。

它本来只是想把翻译做快一点

2017 年,Google 一帮人发了篇《Attention Is All You Need》。当时的痛点很"工程":做翻译用的 RNN/LSTM 必须一个词一个词顺着算 —— 慢、没法并行、还记不住长句。他们想要个能并行、又能抓长距离的东西。

注意力机制本身 2014 年就有人用了。他们真正"狠"的一招是: 干脆把循环结构整个删掉,只留注意力 —— 论文标题 Attention Is All You Need(你只需要注意力)还带着点调皮的炫耀。实验跑的就是英→德、英→法翻译,压根没想着"统一全 AI"。

🎯 会心一笑点:你在 02_attention.py 里写的那个"只看过去、不许偷看未来"的因果掩码, 正是这篇论文为了"预测下一个词"埋下的种子;而你 Step 2 那"一次矩阵乘法搞定一整句", 就是它取代 RNN"逐词顺算"的并行威力。

署名 8 个人,后来几乎全部"飞升"

论文署名 8 位作者,全在 Google,还特意加了个著名脚注:"贡献均等,排名随机"。如今这 8 人几乎个个开公司或进顶级团队 —— AI 圈最豪华的一次"师门散叶":

作者	后来去了哪(大致)
Ashish Vaswani	创办 Adept → 再创 Essential AI
Noam Shazeer ★	创办 Character.AI → 2024 被 Google 重金请回,联合领导 Gemini
Niki Parmar	Adept → Essential AI(和 Vaswani 一路)
Jakob Uszkoreit	创办 Inceptive(用 AI 设计 mRNA / 生物药)
Llion Jones	创办 Sakana AI(东京)
Aidan N. Gomez	Cohere CEO(头部大模型公司;当年他还是实习生)
Łukasz Kaiser	进 OpenAI(做推理模型 o 系列那条线)
Illia Polosukhin	创办 NEAR Protocol(区块链)

光这 8 人后来创立/主导的公司,估值加起来好几百亿美金,方向还五花八门:大模型、生物、区块链、日本 AI……

无心插柳,还是本该如此?——两个都沾边

无心插柳的一半:他们解的是个很具体的"翻译提速"问题,没预见它会变成全 AI 的地基 —— 连作者后来都公开说"没想到能到这规模"。真正引爆威力的,是后来 GPT 把它往大了 scale。

本该如此的一半:这也不是瞎猫碰死耗子。他们是一线顶尖研究员,踩在一个真实的核心瓶颈上 (并行 + 长距离依赖),给的答案又足够干净通用 —— 好的抽象往往如此:为翻译而造,却能解一切。所以那句"活该他们当大牛",算实至名归。

一张家谱:你学的是哪一栋楼

关键一句:Transformer 是架构(地基);BERT 和 GPT 是盖在上面的两栋楼。 不是"Transformer vs BERT" —— BERT 的全名里就带着 Transformer。

🏛 理解楼 · BERT 系

2018, Google. 用 Transformer 编码器那半边;完形填空式训练(能看左右两边)。擅长理解 / 搜索 / 打标签,不擅长生成。2018–2021 统治 NLP,Google 搜索就用它。百度 文心 ERNIE 1.0(2019)也站这栋(知识增强的编码器)。

🏗 生成楼 · GPT 系

2018, OpenAI. 用 Transformer 解码器那半边;预测下一个词(只看过去,带因果掩码)。擅长生成 / 续写 / 对话。ChatGPT 这波爆发就在这栋 —— 也是你这套教程走的路线 (bigram → 注意力,一直在强调"只看过去")。

~2017前RNN / LSTM 时代:逐词顺算,慢、记不住长句。
2017Transformer 诞生(本是翻译论文)—— 地基。
2018分叉:GPT-1(生成楼)与 BERT(理解楼)同年现身,都建在 Transformer 上。
2019百度 文心 ERNIE 1.0(理解楼,知识增强);BERT 进 Google 搜索。
2020–22Diffusion(扩散)崛起做图像 —— 本是另一套生成范式(从噪声一步步去噪), 早期骨干是卷积 U-Net。
2022→ChatGPT 引爆生成楼;Diffusion 也改用 Transformer 当骨干(DiT:Sora、SD3、FLUX)。
2023百度 文心一言(ERNIE Bot)切到生成楼,对标 ChatGPT。

🧩 连 Diffusion 都来借它:扩散是"怎么生成"的配方,Transformer 是"用什么网络干活"的骨架, 两者本是正交的两层。早期 Diffusion 配卷积(U-Net),如今主流配 Transformer(DiT)—— 强到别的范式都来拿它当钢筋,这就是它为什么是这个时代的地基。