第 1–3 章的零件拼成整台 tiny GPT(≈0.8M)。两段全自动动画:① 装机(训练把所有权重调到位)+ ② 跑起来(forward 算出 logits → decode 采样,预设开头自回归生成)。跑起来里点开 4×Block 还能掀盖看注意力热力图 + FFN 内部。

全自动播放 · 进整机俯瞰 →

PHASE 1 · 124M

第一阶段 · 124M 模型

▶ 已上线

CHAPTER 05

第 5 章 · 跑起来:从 logits 到文字(采样与 KV-cache)

对应 phase1-124m/05_sample.py:把推理"从打分到吐字"拆成五步亲手拨——base 只续写不答题、temperature 捏尖/摊平分布、top_k 砍掉长尾、自回归逐 token 滚动、KV-cache 并排省掉重复计算(实测约 2.5–3.1×)。

共 5 步 · 从第一步开始 →

CHAPTER 06

第 6 章 · 真训练:把玩具 GPT 喂真实数据

对应 phase1-124m/04_gpt2_124m.py:把 GPT-2 124M 预训练拆成五步亲手拨——配置从字符级玩具跃迁到 12/12/768、FineWeb-Edu 切 shard 顺序喂、梯度累积攒满 524288 token 再走一步、warmup + 余弦学习率实时画曲线、用两个真实端点(300M→3.65 / 10B→3.02)看数据量 33× 的收敛对照。

共 5 步 · 从第一步开始 →

PHASE 2 · SFT + LoRA

第二阶段 · 后训练

CHAPTER 07

第 7 章 · 从"会续写"到"会听话":后训练地图

动手写代码前先对齐全景与术语:参数量 vs 数据量、任务 vs 手段(SFT/DPO × 全量/LoRA)、SFT 改了哪三处(数据/模板/loss mask)、偏好对齐里 RLHF 与 DPO 的关系。

共 6 步 · 从第一步开始 →

CHAPTER 08

第 8 章 · SFT:把 base 调成会答题

拿 Phase 1 的 124M base 做监督微调:对话模板 + EOS、loss mask(只对回答算 loss)、训练循环。配套代码 06_sft.py,内含训练前后真实采样对比。

共 5 步 · 从第一步开始 →

CHAPTER 09

第 9 章 · 手搓 LoRA:冻结底座,只训 1% 参数

换手段不换任务:同一件 SFT,冻住 124M 底座,只在每层旁挂低秩旁路 B·A,只训 ~0.94% 参数、存 4.7MB adapter。配套代码 07_lora.py,内含真实采样与 loss 曲线。

共 5 步 · 从第一步开始 →

CHAPTER 10

第 10 章 · 手搓 DPO:从会答到答得合人意

换任务:从"会答"到"答得合人意"。接在 SFT 之后,用偏好对(chosen/rejected)+ 冻结参考模型做 DPO——不训奖励模型、不走 RL。配套代码 08_dpo.py,真实曲线 loss↓ / margin↑ / 准确率 0→100%;加 --lora 可切 LoRA 手段。

共 5 步 · 从第一步开始 →