Learning Tutorial of LLM & RL

最近几年，LLM 技术发展如火如荼，各大厂商正围绕更大的模型规模、更高质量的预训练 (Pre-training) 数据和更强的基础能力展开激烈竞争。预训练决定了 LLM 的知识底座和通用能力，因此长期以来一直是业界和学术界关注的核心。

然而，一个仅经过预训练的基础模型，并不等同于我们日常使用的 ChatGPT、Claude、DeepSeek 或各类开源 Instruct 模型。预训练模型更像是一个会续写文本的语言模型，它未必能够稳定遵循用户指令，也未必具备良好的对话体验、安全边界和任务完成能力。真正让 LLM 从能生成文本走向能作为助手使用的关键步骤，正是后训练 (Post-training)。

后训练可以看作是 LLM 产品化和能力对齐的核心阶段。通过 SFT、RLHF 等一系列方法，模型逐渐学会理解人类意图、遵守输出格式、拒绝不安全请求，并在复杂任务中给出更符合预期的答案。

本文将从学习者的角度出发，梳理 LLM 后训练的主要技术路线，以及值得上手的教程和资料，帮助读者更系统更扎实地进入这个方向。

Learning Tutorial of LLM & RL

强化学习基础

相关代码库（只需要看算法实现部分）

强化学习基础#

相关代码库（只需要看算法实现部分）#

强化学习基础

相关代码库（只需要看算法实现部分）