AI工程师 - 🎯转了码的刘公子

# Summary #第一性原理当前 AI 岗位类似互联网早期，定义混乱、知识真空、话语缺失。我来帮你提取这篇关于系统性学习大模型的关键信息：学完CS336和minGPT后如何学习[[RLHF]] # Cues （持续更新中）技术总监收藏夹的学习资源汇总：计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型 - CodeCrafter的文章 - 知乎 https://zhuanlan.zhihu.com/p/1918954720678098873 # Notes 我觉得很多人有个错觉：我写过两个 demo 项目、用过几行 API、微调过个开源模型，那应该算“入坑LLM”了吧。怎么说呢，这就像当你第一次用 Photoshop 抠了一张图，你会说自己是“入坑平面设计”了吗？算是碰了边，但坑里那一圈水，你还没真正下去趟过。你做的那些项目，至少证明你动手能力强，能跟上热点，这已经比很多人强了。但你感觉虚，是因为你现在处在“应用层”和“技术层”的夹缝里。你摸到了LLM这个机器，但你没拆开过它的发动机，不知道里面的活塞和齿轮是怎么咬合的。我个人觉得，当你不再把LLM当成一个黑盒API，而是开始有能力、有意识地去“掰开”这个黑盒，哪怕只掰开一条缝，往里瞅一眼，并且大概能看懂点门道，那时候，你才算真正开始入坑了。我自己是 2022 年底算是彻底掉坑里的，契机是帮公司用GPT-3写一个法律文本摘要工具，看着模型一顿输出，效果有 80 分，但那 20 分的“翻车”让我意识到，这玩意儿的核心不是“会用 API”，而是你能不能控制它的行为，甚至改造它内部。也就是你从“用”模型到能“改”模型，再到能“做”模型。这三个阶段，是我自己对“入坑”的分法。第一阶段：玩熟现成的轮子别看很多人说这个阶段“人人都会”，其实真把一款模型调到能在严苛业务场景跑稳定，不是件简单事。光prompt engineering这一块，我见过的典型错误有两个： • 以为写几行人话就是 prompt，结果生成的结果不稳定。实际上要学会结构化指令、few-shot、chain-of-thought 这些套路。 • 忽视上下文管理，token 用完就截断，模型就失忆。这个坑太多公司在踩。这里建议你找几个具体且复杂的应用场景去练，比如让模型帮你处理业务脏数据，是那种带拼写错误、混合英文、半结构化的 CSV，让它能稳定吐出干净结果，这个过程会逼你深入理解 context、temperature、top_p、system prompt 的关系。第二阶段：能改造轮子这个阶段你得搞懂模型背后的原理，不用到能写 Transformer 从零实现，但至少得知道它的每个环节能改到什么程度。比如微调这事，很多人觉得“找个LoRA脚本跑起来就是微调”，但模型为什么在特定任务上提升？为什么有时反而退化？你得能看懂数据质量、token 分布、loss 曲线的关系。我刚接触LLaMA微调的时候就翻车过：用几千条质量参差不齐的推荐系统交互数据直接喂，结果模型开始在别的任务上乱答，原因就是过拟合和 catastrophic forgetting。后来我才学会用混合数据集（任务数据 + 原始指令数据）去保持语言能力，同时用 cosine schedule 控制学习率，才缓过来。如果你现在在这个阶段卡住，建议去啃两类资料： • 开源微调框架的源码（例如 HuggingFace PEFT、Unsloth、Axolotl） • 模型结构可视化和调试工具（比如 transformer-lens）第三阶段：造轮子甚至改造车到这个时候，你可能才是真的“躺在坑底”了。你需要关心的不仅是单个模型，还有多模态、检索增强（RAG）、模型压缩、推理加速这些东西。我印象最深是 2023 年底我做一个超长上下文的文档问答系统，常规的 4k context 根本不够，硬怼 32k 直接爆算力，最后用了外部向量库 + 分片 re-ranking的方式，把检索和生成结合起来，效果在延迟和准确率之间平衡得不错。这种跨模块的系统设计，一旦你能独立搞定，就是能入组 LLM 核心研发的水准。很多人以为去大厂搞大模型算法有多难，其实难的不是技术本身，而是你根本找不到一个靠谱的带你入门的人或者资料。网上那些面经不是零碎就是过时，更别提系统性总结了。尤其是想进字节这种宇宙尽头大模型应用岗，光靠 Leetcode 和 huggingface 根本不够。这就是我为什么花了很多时间，掘地三尺从知乎、牛客、V2EX、小红书、技术博客、GitHub、微信群几十个地方翻出来，把所有和「字节跳动大模型应用算法岗」相关的面试题搜集起来，整理成了这个手册——内容涵盖大模型原理、训练与微调、推理加速、数据工程、业务落地等五大核心维度，不仅是题目集合，更是思路梳理和实战指南。每道题都给出核心回答逻辑、代码实现关键点、面试官可能追问的陷阱，就像有个靠谱mentor带着你一点点拆解和构建自己的答题框架。字节大模型算法岗面试手册mp.weixin.qq.com/s/12HW6knfhXaHgNCOZWBVVg 但是说到底，LLM 进步的速度确实快得离谱，想跟上只能靠两个习惯。第一，保留一条长期实验的分支，不管是本地的 lab repo 还是云上的 sandbox，你留一个地方专门放各种奇葩实验想法，很多技术就是在这种地方被留住的。第二，别只看标题党新闻，多翻源码和论文附录。我自己的信息源主要是几个 GitHub 热门项目的 commit 记录 + HuggingFace 的 Model Card。推特（现 X）是练手的素材库，但别迷信那里全是真东西。 LLM 入坑，关键不是你做了多少项目，而是你的脑子里逐渐形成了一个从数学基础 → 模型原理 → 工程实现 → 系统设计的闭环，而且闭环里至少有一条是你能打穿的。打穿一条，你就能混；打穿两条，你能在组里带人；打穿三条，你就能拉一个项目从零起盘。下面我按“刨根问底 + 干到落地 + 不被淘汰”这三个维度拆给你看。第一层：稳住基本盘——那些变化慢，但决定你上限的东西 LLM变得再快，它的地基没变。地基就是数学和经典的机器学习/深度学习。很多人觉得这玩意儿老掉牙，现在谁还手推公式啊。错了，大错特错。你不懂这些，你看论文、看源码，就永远是“浮在表面”。线性代数和概率论，捡起来。不用你像数学系那样去证明这个推导那个。但你至少得对几个核心概念有体感。比如，什么是向量空间？Embedding为啥能做语义相似度计算，不就是在高维空间里看俩向量的夹角么。什么是矩阵乘法？Transformer里那一堆Q、K、V矩阵乘来乘去，本质上是在干嘛？是在做“信息提取”和“权重分配”。概率论就更别说了，大模型的输出本质上就是个概率分布，为啥会有Temperature aampling这种参数？不就是为了调整这个概率分布的形状，让模型“更有创意”或者“更确定”嘛。你把这些想通了，很多模型的参数和操作，你就不是“死记硬背”，而是“哦，原来如此”。线代千万别啃大部头，直接学3Blue1Brown的《线性代数的本质》（Essence of Linear Algebra）系列，着几乎是每个学过线性代数的人都推荐的内容。视频地址：【官方双语/合集】线性代数的本质 - 系列合集。它的独特之处，不在于它讲了多少高深的理论，而在于它真正做到了“直观化”。大多数教材和课程习惯从定义、定理、证明开始，而3Blue1Brown则从几何视角切入，用动画展示矩阵乘法、行列式、特征值等概念的本质。关于3Blue1Brown的补充：视频终归只是一种呈现方式，真正深入消化理解，还得依靠笔记和文字。市面上已经出现不少针对3Blue1Brown系列的笔记整理，目的是帮助大家系统复盘内容、补充细节，也方便查找、回顾与复习。值得一提的是，有一批笔记，不只单纯翻译，还针对视频中略过的部分补充了更多细致的推导和背景知识。下面，我结合个人体验和观察，给大家介绍一份我认为值得参考的中英文笔记。（注：3Blue1Brown的讲解固然精彩，但它并非万能。它的核心价值在于建立几何直觉，而非替代传统学习中的计算训练和证明逻辑，可以配合《线性代数的几何意义》，有奇效！！注意是西安电子科技那本，这本书籍我也放在下面这个链接里面了） 3Blue1Brown线性代数笔记：可能是全网最好的中英文整理学线代，学完这些就基本够用了，经典的NLP和DL模型，过一遍。你不用去复现一个RNN或者LSTM，但你得知道它们是干嘛的，以及它们为什么“不行了”。为什么有了RNN还要有LSTM？为了解决长期依赖问题。那Transformer牛逼在哪？它用自注意力机制（Self-Attention）把这个长期依赖问题给“拍扁”了，可以直接计算序列里任意两个词的关系，不用像RNN那样一个一个往后传。你不了解前面的“不行”，就无法深刻理解后面的“行”。这就好像你没用过诺基亚，你可能很难体会iPhone的全触屏在当年是多么革命性。这个阶段，不用贪多。把花书（《深度学习》）里跟CNN、RNN、Attention相关的章节啃下来，再把李沐的《动手学深度学习》里对应的代码跑一跑，就差不多了。这是内功，急不来，但练好了，后面你学什么都快。第二层：啃下主干道——把Transformer到GPT这条线捋清楚地基打好了，就得修高速公路了。现在LLM这条高速公路的主干道，毫无疑问就是Transformer架构。你之前做的项目，都是在这条路上跑的车，现在你要去研究这条路本身是怎么修的。 • 精读圣经：《Attention Is All You Need》。这篇论文不长，但每个字都值得抠。别光看个结论，你要去想，它为什么要设计Multi-Head Attention？Positional Encoding是为了解决什么问题？Encoder和Decoder的结构差异是为什么？最好是找个视频（比如李沐的精读），再对着一份带注释的源码（比如 a popular annotated Transformer implementation on Github）自己敲一遍。这个过程会很痛苦，但你一旦啃下来，整个LLM的世界在你眼里都会变得清晰。 • 理解“预训练-微调”这个范式。这是LLM能成功的核心思想。你要搞明白BERT和GPT这两条技术路线的“哲学思想”有啥不同。BERT像个做完形填空的“理解高手”（双向语言模型），适合做NLU任务。GPT像个写续集的“生成天才”（单向语言模型），适合做NLG任务。知道了这个，你再去看什么T5、BART这些模型，你就知道它们是在做什么样的“融合创新”。 • 动手微调，但要带着问题去调。你之前微调过Llama做推荐，很好。但这次，你要更深入。比如，你试试用同样的数据，跑一遍全参数微调，再跑一遍LoRA。对比一下效果、显存占用、训练时间。去思考LoRA为什么能有效？它是在“冻结”了原有知识的基础上，加了一块“小插件”来学习新知识。这对于防止“灾难性遗忘”有什么好处？举个实际例子吧。我们之前给一个电商客户做智能客服，用一个通用大模型微调。刚开始效果不错，客户很满意。后来客户上了一批新品，有新的产品术语和特性，我们把新数据加进去一微调，发现模型对老产品的回答开始胡说八道了。这就是典型的灾难性遗忘。后来改用PEFT（参数高效微调，LoRA是其中一种）方法，针对新知识只训练很小一部分参数，就很好地解决了这个问题。你看，这就是从“会用工具”到“会解决问题”的差别。你得在实际场景里踩个坑，然后想办法填上，这个知识才算真正变成你自己的。这个阶段的学习资源，除了论文本身，Hugging Face的官方课程和文档是必看的，非常系统和实用。还有Andrej Karpathy大神手把手教你从零写一个GPT的视频（"Let's build GPT: from scratch, in code, spelled out."），强烈推荐，能让你对整个流程有非常具象的认识。第三层：面向战场——深入应用和工程化的“脏活累活” 前两层搞定了，你已经算半个专家了。但要在工业界立足，光懂理论还不行，你得能让它跑起来，跑得好，跑得省钱。 • 推理优化（Inference）。这是现在工业界非常非常核心的一块。模型训练一次，但推理要跑千千万万次。怎么让模型跑得更快、更省显存？这里面学问就大了。什么KV Cache、模型量化（Quantization）、剪枝、蒸馏，还有像vLLM、TensorRT-LLM这些推理框架。你不需要每个都精通，但你至少要知道它们分别解决了什么问题。比如，面试官问你：“一个百亿模型的推理，显存不够怎么办？” 你能答出“模型量化，比如用int8甚至int4，或者用模型并行把模型切到多张卡上”，这就不一样了。 • RAG和Agent的“深水区”。你做过Agent狼人杀，这很潮。但工业级的Agent和RAG，远比demo复杂。比如RAG，不是简单地“向量检索+扔给LLM”。检索的文档怎么切块（Chunking）最合理？用什么Embedding模型效果最好？检索出来的东西太多，“迷失在中间”（Lost in the Middle）问题怎么解决？是做rerank还是做query改写？这些都是坑，也是你拉开差距的地方。再比如Agent，怎么设计一个稳定、可靠的Prompt框架（像ReAct这种）？工具调用失败了怎么做容错和重试？怎么防止Agent陷入无限循环？这些问题，你只有在实际做一个有价值的、需要稳定运行的Agent时才会碰到，也才会逼着你去思考解决方案。 • 保持对前沿的敏锐，但别焦虑。新东西确实多，什么Mamba、MoE架构。我的建议是，别追着每一篇论文跑，你追不上的。抓住主线，比如新的模型架构主要解决了什么老问题（Mamba解决Transformer的二次方复杂度问题），新的应用范式有什么商业潜力。看一些高质量的解读，比如重要的论文出来后，看看圈子里大佬们的分析，比自己闷头看效率高。然后选择一两个你最感兴趣或者工作最需要的方向，深入跟进就行了。记住，你的目标是构建自己的知识体系，不是成为一个“论文速递机器人”。这个三层框架，其实就是“打好地基 -> 贯穿主干 -> 开枝散叶”的过程。 • 第一层是内功，决定了你能走多远。 • 第二层是招式，决定了你当下的战斗力。 • 第三层是实战经验，决定了你值多少钱。文中提到的很多资源都不太好找，可以在这个链接里面挖掘探索下。 [图片: https://picx.zhimg.com/v2-6782edde8446c119cca0dd7e4cc612db.jpg?source=7e7ef6e2&needBackground=1] （持续更新中）技术总监收藏夹的学习资源汇总：计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型233 赞同 · 5 评论文章你现在的情况，是第二层和第三层的“应用”都摸过了，但第一层和第二层的“原理”有点虚。所以，回过头去，把地基和主干道补扎实，你现在的这些项目经验就不会是空中楼阁，而是你坚实的武器。精心搜集了76本国外经典数学教材，涵盖代数、几何、分析、概率等多个数学分支，希望能帮助同学们构建更完善的知识体系。一口气看完76本国外数学经典！这份压箱底书单，让你少走10年弯路！mp.weixin.qq.com/s/3APcxptNAZvsmLhEZvsSaA 此外，见证国内数学学科发展的“活化石”，科学出版社的《现代数学基础丛书》自1981年诞生以来，已持续更新至204卷，堪称中国数学界的“四库全书”，也一并整理好了。 5000字硬核盘点！《现代数学基础丛书》204卷必读清单（附PDF及领域分类），建议收藏备用！mp.weixin.qq.com/s/7Su7Wf-1dmn_8-OU6kTDhw 别怕感觉自己什么都不会，有这种感觉，说明你开始从山脚往上爬，看到了山的巍峨。这是好事。真正可怕的是，站在山脚下，以为自己看到了全世界。就说这么多吧，希望能帮到你。路还长，慢慢来，比较快。 ## 📊 核心动作表 | 阶段 | 周次 | 核心动作 | 重点/产出 | | -------- | ------- | ------------------------------------------- | ---------------------- | | 阶段1 基础筑基 | Week1-2 | 手推 BPE / WordPiece 分词算法 | 对比压缩率，理解文本表示方式 | | | | 精读 Word2Vec (Skip-gram + 负采样) | 词向量与分布式假设 | | | | 手写 Self-Attention 矩阵 | 复杂度计算 √ | | | | 周末：PyTorch 实现 Transformer Encoder | 完成基础模型编码器 | | | Week3-4 | 推导 RoPE 旋转位置编码 | 面试手撕重点 | | | | 对比 LayerNorm / RMSNorm 梯度差异 | 理解归一化差别 | | | | 解析 FFN 结构 | 世界知识为何存于 MLP | | | | 周末：BatchNorm 在预训练为何失效 | 面试题准备 | | 阶段2 进阶实战 | Week5 | 数据清洗：实现 MinHash 去重 | 保证训练集干净 | | | | 掌握 ZeRO-3 分布式 (DeepSpeed) | 大模型训练可扩展性 | | | | 梯度累积 + 混合精度训练 | 训练提效关键 | | | | 面试题：百度训练数据配比策略 | 企业实战经验 | | | Week6 | LoRA / P-Tuning 原理对比 | 参数高效微调 | | | | 图解 PPO / DPO 算法 | RLHF 对齐核心 | | | | 考点：SFT vs 预训练 Loss 差异 | 面试准备 | | | Week7 | [[FlashAttention]] 手撕优化 | 显存降低 ~70% | | | | [[KV Cache]] 机制解析 | vLLM 源码解读 | | | | MoE vs Transformer 架构 | Gemini 前沿思路 | | | Week8 | 搭建 RAG 系统 (HNSW + Query 重排) | 实战 Retrieval-Augmented | | | | Agent 开发：[[ReAct]] 框架 | 工具调用链 | | | | 领域知识微调方案 | 简历加分项 | | | | [[Hugging Face]] [[Transformers]]、llama.cpp | | | | | 每天 1 篇 [[ArXiv]] | | 2. 角色赛道全景赛道典型职责关键技术栈适配度 A. 基础模型/预训练工程师从零到一构建或继续训练百亿/千亿级模型 Megatron‑LM、DeepSpeed、FSDP、NCCL、分布式数据管线、H100/A100 集群调度 ★★★★☆ B. 微调 & 对齐工程师 SFT、DPO、RLHF、指令增益、评测基准与安全对齐 LoRA/Q‑LoRA、TRL‑HF、ray/accelerate、Reward Modeling ★★★★★ C. LLM 应用工程师（RAG/Agent）将开源或商用 LLM 嵌入业务：检索增强、思考链、多模态、Agents LangChain、LlamaIndex、Haystack、向量库、提示工程 ★★★★★ D. MLOps / LLMOps 推理加速、模型监控、配置管理、灰度发布、成本调优 Triton, vLLM, BentoML, KServe, Prometheus, Grafana ★★★☆☆ E. 研究科学家模型架构、效率、对齐策略前沿研究 Torch/XLA、JAX/TPU、学术论文写作 ★★★★☆ 评分依据：与你已有的“自己从零写过 Transformer / GPT 模型”技能匹配度。 ⸻ 3. 细分领域（行业线）机会行业需求亮点合规/壁垒建议金融高频问答、投研摘要、风控自动化数据隐私、监管沙盒先从 B、C 角色切入，熟悉金融 NLP 语料医疗病历生成、临床知识问答 HIPAA/“四类专属”安全要求建议联合医生、药企做垂直微调教育 AI 导师、自动批改、陪练内容审核、低龄保护以 C 赛道出 MVP 快速验证游戏&虚拟世界 NPC 对话、多模态剧情实时性、高并发需要 A+D 组合，机会在新创工作室 ⸻ 4. 为什么重点推荐 B + C 赛道 5. 上手周期短，面向结果 * 你拥有完整的 minGPT 训练经验，能迅速跑通 SFT/LoRA 并调优提示、评测指标。 2. 岗位数量最大，需求稳定 * 企业普遍缺能把开源模型 “调到可用” 的工程师；B 提供能力，C 负责产品落地。 3. 成长空间大，可向两端延伸 * 做久了可“左拓”到 A（底层训练），“右拓”到 D（部署运维）。 5. 求职落地路径阶段操作目标产出 1. 作品集强化（1–2 个月）- 选 1–2 个垂直场景（如中文科研摘要、代码审校）- 用开源 Llama 3‑Instruct 微调，并给出自动评测 + demo GitHub repo + 在线 demo 2. Benchmark & 成本意识（第 3 个月）- 学会使用 vLLM/Flash‑Infer 推理- 对比不同量化策略耗时/成本 Blog/报告，证明能降本提速 3. 社区可见度 & 网络 - 在 Hugging Face 发布权重- 参加 Kaggle / CTF‑LLM 竞赛- 在知乎、B 站或 Medium 写技术笔记建立“可信数字足迹” 4. 锁定目标公司 - 国内：百度文心、阿里通义、字节火山、讯飞星火、连连 AI 生态 Startup- 海外：OpenAI API 生态伙伴、AI DevTools Startup、云厂商（AWS Bedrock、GCP Vertex）10 家左右长名单 5. 面试准备 - 分布式训练 + 参数高效微调原理- Prompt 设计 & Safety- 框架源码阅读（minGPT ➔ nanoGPT ➔ Llama‑cpp）面经备忘清单 6. 参考薪酬与谈判要点 * 国内一线：生成式 AI 应用工程师 $30k–60k$ RMB/月，$16$ 薪常见；有分布式训练经验可谈更高。 * 北美远程/现场：LLM Engineer 平均 $180k–$240k；具稀缺 GPU 并行调度经验可上 $300k+。 * 谈判技巧： 1. 强调“端到端（从数据→模型→上线）”闭环能力； 2. 量化展示你让推理成本降低或质量提升的数字； 3. 争取“算力/云点数”与“开源时间”作为非现金补偿。 4. 行动清单（TL;DR） 5. 选择赛道：首先瞄准 B（微调&对齐）+ C（应用工程）；未来可向 A/D 延伸。 6. 做作品：2 个月内上线至少 1 个垂直场景微调 Demo，并公开指标。 7. 建影响力：持续输出博客、参赛、开源权重。 8. 锁公司，投简历：目标 10 家，优先业务驱动、算力到位的团队。 9. 面试突击：分布式训练原理 + Prompt/Safety 案例 + MLOps 基础。 ## 核心学习方法论："体感-拆解-融合" ### 第一阶段：建立体感（从用户到产品经理视角） **核心任务**：做一个RAG应用（如公司内部文档问答系统） **技术栈选择**： * **框架**：[[LlamaIndex]] > [[langchain]]（RAG更专注）；[[LangGraph]]（从RAG到Agent） * **[[向量化模型]]**：OpenAI text-embedding-3-small（性价比高）或 bge-large-zh-v1.5（开源） * **[[向量数据库]]**： * 入门：ChromaDB（本地，pip install即可） * 进阶：[[Milvus]] 或 [[Weaviate]]（工业界主流） **重点掌握**： * 文档切片策略（chunks） * 向量索引原理（如[[HNSW]]） * Prompt工程技巧 ### 第二阶段：核心拆解（理解原理） **学习顺序**： 1. **[[Transformer]]架构**： * 先看 Andrej Karpathy 的 "Let's build GPT: from scratch"（YouTube/B站） * 再看李沐的课程 * 最后读论文《Attention Is All You Need》 2. **模型微调**： * 直接学 [[LoRA]] 和 QLoRA（跳过全量微调） * 使用 Hugging Face PEFT 库 * 用公司数据做一次实际微调 1. **[[模型评估]]**： * BLEU、ROUGE 分数 * [[LLM-as-a-judge]] 方法 ### 第三阶段：工程融合（发挥后端优势） **关键技术栈**： * **推理框架**：[[vLLM]]（必学）、TensorRT-LLM * **MLOps工具**： * 实验跟踪：[[wandb]] > MLflow * RAG评估：RAGAS框架 ## 学习资源优先级 **必看资源**： 1. [[LlamaIndex]] 官方文档（Getting Started + Cookbook） 2. Hugging Face [[MTEB]] 榜单（了解最新embedding模型） 3. Andrej Karpathy 的 GPT 教程 4. vLLM GitHub 和文档 **学习平台**： * Hugging Face（核心） * 各大模型公司的 GitHub * 知乎、公众号技术更新 ## 关键原则 **要做的**： * 先体验再理论 * 重视工程实践而非纯算法 * 结合实际业务场景 * 利用后端经验优势（分布式、高并发、稳定性、成本控制） **不要做的**： * 不要一开始就啃大量论文 * 不要做全量微调（成本太高） * 不要只停留在Demo阶段 * 不要忽视成本和性能优化 **时间预期**：半年左右可见成果这个学习路径的核心思想是：工程师不需要成为算法专家，而是要成为能把算法"用好、管好、优化好"的AI工程师。你的后端经验才是真正的护城河。标题: 如何系统性学习大模型相关知识？题主7年后端研发经验，软件工程科班，还啃过李沐老师的硬核课程，你不是站在悬崖边上，你是站在风口中央，手里还握着一把最趁手的技能---你的后端经验。可以说你这个问题，问的非常有代表性。让我突然感觉就好像到了2014年，那时候我们这些吭哧吭哧写着Java的后端，看着Hadoop、Spark的火苗，开始怀疑人生，焦虑“我的CRUD手艺，会不会被时代的大数据洪水给淹了？” 资本要增长，业务要降本增效，个人要有未来。你说以前大家学Python、学算法，都图个应试，顶多考个P7。现在不一样了，大模型直接让“全员智商增加50分”。普通程序员的差距怎么拉开？这真不是危言耸听。你要是不懂这些原理和落地，慢慢会有种技术“原地踏步”的危机，这种焦虑，我自己2018-2022年期间体会太深了。历史总是在重复，但又不是简单的重复。当年我就是那个焦虑的开发，眼瞅着身边搞算法的同事薪资一飞冲天，那种感觉，就跟现在你看着大模型新闻刷屏一样。后来心一横，一头扎了进去，从推荐系统到NLP，一路摸爬滚打，踩过的坑、熬过的夜，都能写本书了。坦白说，绝大多数写后端的同事，其实转大模型相关这步内心是有挣扎的。外部，是AI带飞一切的“行业口号”，职场上各种大模型岗位要价直线上升。内部，则是“我是不是来不及了？”、“会不会学一堆八股文，最后还是写写接口？” 我自己也是边摇摆边转变的。这几年灭了不少“知乎鸡汤”，要我真说，学习路线千万别只看风口，要结合自己的底子去拆，你得搞明白，“不是你得多懂Transformer本身，是你能不能通过它解决实际问题”。别听外面那些人吹得天花乱坠，也别被几百篇论文吓倒。大模型学习这事儿，对于我们这种工程师出身的人来说，得有自己的一套打法。我给你总结一个我自己的心法，就三个词：“体感-拆解-融合”。第一板斧：建立体感——从“用户”思维到“上帝”视角你先别管什么Transformer的内部结构，也别管什么LoRA的数学原理。你第一步要做的，是忘掉自己是个开发者，先当一个大模型应用的“超级用户”和“产品经理”。你的目标是，用最快的速度，建立起对这玩意儿能力边界的体感。什么叫体感？就是你知道它能干什么、干不好什么、怎么“骗”它干活、以及让它干活要花多少钱。最直接的路径，就是我之前带团队屡试不爽的一个方法：做一个“给自己用”的RAG应用。RAG（检索增强生成）是目前90%大模型应用的核心骨架，搞懂它，你就搞懂了一大半。比如，把你们公司所有的技术文档、会议纪要、产品需求文档（PRD）全部扔进去，做一个内部的“万事通”。这个项目虽小，但技术栈是全的： * 文档处理与向量化：别用那些花里胡哨的库，就用LlamaIndex或者LangChain。我个人现在更倾向LlamaIndex，它在RAG这条路上做得更专注，更深入。你需要搞明白怎么把一堆PDF、Markdown文件切成合适的chunks，然后调用OpenAI的text-embedding-3-small（目前性价比最高的选择）或者开源的bge-large-zh-v1.5这类模型，把文本变成向量。 * 向量存储与检索：入门玩玩本地的ChromaDB就行，不用装任何东西，pip install就行。但如果你想正经点，为以后工作做准备，我强烈建议你研究下Milvus或者Weaviate，这俩是开源的，也是工业界用得最多的。你需要理解什么是“向量索引”，比如HNSW，知道它怎么在亿万个向量里帮你光速找到最相似的那几个。 * Prompt工程与生成：这是灵魂。把检索出来的“参考资料”和用户问题，怎么组织成一个高质量的Prompt，喂给大模型（比如GPT-4o或者开源的Qwen2-7B-Instruct），这里面全是学问。你会亲身体会到，为什么有时候模型会“选择性失明”忽略你给的上下文，为什么它会一本正经地胡说八道。在这个阶段中，你可以用这些资源进行学习，这些都是我个人看过，并进行过去粗取精，化繁为简的。 * 框架：直接看LlamaIndex的官方文档，它的文档写得像教程，从头跟一遍Getting Started，然后重点看Cookbook里的各种实例。 * 模型：一定要多刷Hugging Face。去meta-llama/Llama-3-8B-Instruct或者Qwen/Qwen2-7B-Instruct的模型页面，看他们提供的Prompt模板。 * 向量模型榜单：没事就去Hugging Face的MTEB (Massive Text Embedding Benchmark)榜单上逛逛，看看现在哪个embedding模型在中英文上效果最好。 * 项目资源参考：构建基于 LLM 的检索增强生成（RAG）系统？（附代码）mp.weixin.qq.com/s/-f4tKR-qg3LbkOlT6jBTcQ 跑通这个项目，你对大模型的“脾气”就基本摸清了。这个阶段，你的代码可能很烂，但你的认知会发生质变。第二板斧：核心拆解——把“黑盒”砸开看看里面是什么当你有了体感，发现RAG有瓶颈了，比如模型的回答风格太死板，或者在某个极度垂直的领域（比如你们公司的祖传代码黑话），RAG给的上下文也救不了它。这时候，你就会自然而然地想：我能不能“改造”一下这个模型？恭喜你，你已经进入了第二个阶段：拆解。这个阶段，你才需要回头去啃硬骨头。但别怕，你的目标不是成为数学家，而是理解关键组件的“设计思想”。 * Transformer架构：李沐老师的课是基础。但我想给你推荐一个“神级”资源：Andrej Karpathy的"Let’s build GPT: from scratch"。去YouTube上找，有中文字幕。他会带你用几百行Python代码，从零开始写一个GPT。你看完这个，比你看十篇论文都管用。你会真正“摸到”Self-Attention、Positional Encoding这些东西在代码里长什么样。 * 高效微调（Fine-tuning）：别想了，现在没人做全量微调，成本太高。直接学LoRA和QLoRA。这俩是现在给大模型做“微创手术”的标准技术。Hugging Face的PEFT库（Parameter-Efficient Fine-Tuning）把这件事的门槛降到了地板。你找个教程，用你自己的数据（比如几百条你们公司的客服问答对），在Llama-3或者Qwen上跑一次LoRA微调，感受一下模型被你“驯化”的快感。 * 模型评估：你怎么知道微调后的模型比原来好？这是个大问题。除了主观感受，你需要了解一些基础的评估方法，比如针对特定任务的BLEU、ROUGE分数，以及现在更流行的“用更强的模型当裁判”（LLM-as-a-judge）的思路。 * 必看视频：Andrej Karpathy的"Let's build GPT"，B站上应该有搬运和翻译。 * 必读论文：《Attention Is All You Need》，这篇是“圣经”，配合Karpathy的视频看，效果拔群。然后是LoRA的论文《LoRA: Low-Rank Adaptation of Large Language Models》。 * 必用工具：Hugging Face的Transformers库、PEFT库、datasets库。他们的文档和教程就是最好的学习材料。这个阶段，你的目标是把大模型从一个黑盒，变成一个你能看懂、甚至能有限度修改的“白盒”。第三板斧：工程融合——你的后端经验，才是真正的护城河这是最关键的一步，也是你甩开90%半路出家的“算法新人”的地方。一个模型跑通了Demo，离一个能扛住真实流量、稳定可靠、还不能太烧钱的“产品”，差了十万八千里。而这十万八千里，全都是你那7年后端经验的用武之地。 * 模型部署与服务化：用Flask简单包一下API？并发一上来就得挂。你必须研究专业的推理服务框架，比如vLLM。它通过PagedAttention和Continuous Batching等技术，能把模型的吞吐量提升一个数量级。还有NVIDIA的TensorRT-LLM，也是大杀器。这些东西的原理，对你这个搞后端的来说，理解起来会比纯算法的人容易得多。 * 成本与性能优化：这才是CEO最关心的。调用一次GPT-4o要花多少钱？用开源模型自己部署，一个请求吃多少显存？QPS能到多少？延迟多少？怎么做智能路由，简单的请求用小模型，复杂的再上大模型？怎么设计缓存策略？这些问题，算法同学可能会挠头，但对你来说，不就是日常工作吗？ * LLMOps与系统架构：一个成熟的AI应用，背后是一整套的LLMOps流程。数据处理、模型微调、版本管理、A/B测试、线上监控、效果评估……这不就是我们后端熟悉的CI/CD、灰度发布、监控报警系统换了个“AI的皮”吗？你需要思考的是，怎么把大模型这个不稳定的“新物种”优雅地集成到你现有的微服务架构里。它可能是一个独立的“AI中台”，也可能是一组被Service Mesh管理的gRPC服务。 * 推理框架：vLLM的GitHub和官方文档，必看。 * MLOps/LLMOps：了解一下MLflow或WandB（WandB我个人更喜欢，UI做得好）做实验跟踪。研究一下RAGAS这样的框架，学习如何自动化评估RAG系统的质量。 * 前沿视野：多看看LangGraph这样的库，它代表了从简单的RAG链条到复杂的Agent智能体的演进方向。基础理论补齐，主流应用工具学明白，自建和微调实际跑几遍，多钻业务场景。工具和资源建议去huggingface，中文社区多发issue和问题，大模型公司github、知乎、公众号常更新，有空多看看官方文档，不懂就翻源码别怕丢人。你手里有7年的工程经验，你懂分布式、懂高并发、懂稳定性、懂成本，目标不用太高，半年左右就能见到成果。这几个关注度非常火爆的AI学习资源也可以码住，部分是有文本教程 + 视频讲解 + 全套代码，而且配了中文翻译。盘点几个我看过的，墙裂建议你快速过一次。遇到不懂的知识点可以在进行二刷，三刷回顾。推上大佬怎么都在学浙大的大模型教程还得是麻省！用AI做任何事的跨界新课来了微软爸爸出了一个小白友好的AI Agent课! 生成式AI时代zui值得听的中文课！--李宏毅大佬齐活儿了！OpenAI、Google、Anthropic 官方的AI教程都在这里了 hugging face出了幼儿级MCP教程---轻松玩转Agent + Tool + 模块组合式 Claude偷偷开了一门free的MCP神课！说白了，大模型正在从一个“算法问题”变成一个“工程问题”。未来最有价值的，不是那些能提出新算法的科学家（当然他们也很重要），而是能把这些强大的“算法引擎”用好、管好、优化好的AI工程师。