Transformer 的前世今生:一篇翻译论文,怎么变成全 AI 的地基
—— 你学的这条线(bigram → 注意力 → GPT)到底打哪儿来。
它本来只是想把翻译做快一点
2017 年,Google 一帮人发了篇 《Attention Is All You Need》。 当时的痛点很"工程":做翻译用的 RNN/LSTM 必须一个词一个词顺着算 —— 慢、没法并行、还记不住长句。他们想要个能并行、又能抓长距离的东西。
注意力机制本身 2014 年就有人用了。他们真正"狠"的一招是: 干脆把循环结构整个删掉,只留注意力 —— 论文标题 Attention Is All You Need(你只需要注意力)还带着点调皮的炫耀。 实验跑的就是英→德、英→法翻译,压根没想着"统一全 AI"。
02_attention.py 里写的那个"只看过去、不许偷看未来"的因果掩码,
正是这篇论文为了"预测下一个词"埋下的种子;而你 Step 2 那"一次矩阵乘法搞定一整句",
就是它取代 RNN"逐词顺算"的并行威力。
署名 8 个人,后来几乎全部"飞升"
论文署名 8 位作者,全在 Google,还特意加了个著名脚注:"贡献均等,排名随机"。 如今这 8 人几乎个个开公司或进顶级团队 —— AI 圈最豪华的一次"师门散叶":
| 作者 | 后来去了哪(大致) |
|---|---|
| Ashish Vaswani | 创办 Adept → 再创 Essential AI |
| Noam Shazeer ★ | 创办 Character.AI → 2024 被 Google 重金请回,联合领导 Gemini |
| Niki Parmar | Adept → Essential AI(和 Vaswani 一路) |
| Jakob Uszkoreit | 创办 Inceptive(用 AI 设计 mRNA / 生物药) |
| Llion Jones | 创办 Sakana AI(东京) |
| Aidan N. Gomez | Cohere CEO(头部大模型公司;当年他还是实习生) |
| Łukasz Kaiser | 进 OpenAI(做推理模型 o 系列那条线) |
| Illia Polosukhin | 创办 NEAR Protocol(区块链) |
光这 8 人后来创立/主导的公司,估值加起来好几百亿美金,方向还五花八门:大模型、生物、区块链、日本 AI……
无心插柳,还是本该如此?——两个都沾边
无心插柳的一半:他们解的是个很具体的"翻译提速"问题,没预见它会变成全 AI 的地基 —— 连作者后来都公开说"没想到能到这规模"。真正引爆威力的,是后来 GPT 把它往大了 scale。
本该如此的一半:这也不是瞎猫碰死耗子。他们是一线顶尖研究员,踩在一个真实的核心瓶颈上 (并行 + 长距离依赖),给的答案又足够干净通用 —— 好的抽象往往如此:为翻译而造,却能解一切。 所以那句"活该他们当大牛",算实至名归。
一张家谱:你学的是哪一栋楼
关键一句:Transformer 是架构(地基);BERT 和 GPT 是盖在上面的两栋楼。 不是"Transformer vs BERT" —— BERT 的全名里就带着 Transformer。
🏛 理解楼 · BERT 系
2018, Google. 用 Transformer 编码器那半边;完形填空式训练(能看左右两边)。 擅长理解 / 搜索 / 打标签,不擅长生成。2018–2021 统治 NLP,Google 搜索就用它。 百度 文心 ERNIE 1.0(2019)也站这栋(知识增强的编码器)。🏗 生成楼 · GPT 系
2018, OpenAI. 用 Transformer 解码器那半边;预测下一个词(只看过去,带因果掩码)。 擅长生成 / 续写 / 对话。ChatGPT 这波爆发就在这栋 —— 也是你这套教程走的路线 (bigram → 注意力,一直在强调"只看过去")。- ~2017前RNN / LSTM 时代:逐词顺算,慢、记不住长句。
- 2017Transformer 诞生(本是翻译论文)—— 地基。
- 2018分叉:GPT-1(生成楼)与 BERT(理解楼)同年现身,都建在 Transformer 上。
- 2019百度 文心 ERNIE 1.0(理解楼,知识增强);BERT 进 Google 搜索。
- 2020–22Diffusion(扩散)崛起做图像 —— 本是另一套生成范式(从噪声一步步去噪), 早期骨干是卷积 U-Net。
- 2022→ChatGPT 引爆生成楼;Diffusion 也改用 Transformer 当骨干(DiT:Sora、SD3、FLUX)。
- 2023百度 文心一言(ERNIE Bot)切到生成楼,对标 ChatGPT。