# Summary
#第一性原理 当前 AI 岗位类似互联网早期,定义混乱、知识真空、话语缺失。
我来帮你提取这篇关于系统性学习大模型的关键信息:
学完CS336和minGPT后如何学习[[RLHF]]
# Cues
(持续更新中)技术总监收藏夹的学习资源汇总:计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型 - CodeCrafter的文章 - 知乎
https://zhuanlan.zhihu.com/p/1918954720678098873
# Notes
我觉得很多人有个错觉:我写过两个 demo 项目、用过几行 API、微调过个开源模型,那应该算“入坑LLM”了吧。怎么说呢,这就像当你第一次用 Photoshop 抠了一张图,你会说自己是“入坑平面设计”了吗?算是碰了边,但坑里那一圈水,你还没真正下去趟过。
你做的那些项目,至少证明你动手能力强,能跟上热点,这已经比很多人强了。但你感觉虚,是因为你现在处在“应用层”和“技术层”的夹缝里。你摸到了LLM这个机器,但你没拆开过它的发动机,不知道里面的活塞和齿轮是怎么咬合的。
我个人觉得,当你不再把LLM当成一个黑盒API,而是开始有能力、有意识地去“掰开”这个黑盒,哪怕只掰开一条缝,往里瞅一眼,并且大概能看懂点门道,那时候,你才算真正开始入坑了。
我自己是 2022 年底算是彻底掉坑里的,契机是帮公司用GPT-3写一个法律文本摘要工具,看着模型一顿输出,效果有 80 分,但那 20 分的“翻车”让我意识到,这玩意儿的核心不是“会用 API”,而是你能不能控制它的行为,甚至改造它内部。也就是你从“用”模型到能“改”模型,再到能“做”模型。这三个阶段,是我自己对“入坑”的分法。
第一阶段:玩熟现成的轮子
别看很多人说这个阶段“人人都会”,其实真把一款模型调到能在严苛业务场景跑稳定,不是件简单事。光prompt engineering这一块,我见过的典型错误有两个:
• 以为写几行人话就是 prompt,结果生成的结果不稳定。实际上要学会结构化指令、few-shot、chain-of-thought 这些套路。
• 忽视上下文管理,token 用完就截断,模型就失忆。这个坑太多公司在踩。这里建议你找几个具体且复杂的应用场景去练,比如让模型帮你处理业务脏数据,是那种带拼写错误、混合英文、半结构化的 CSV,让它能稳定吐出干净结果,这个过程会逼你深入理解 context、temperature、top_p、system prompt 的关系。
第二阶段:能改造轮子
这个阶段你得搞懂模型背后的原理,不用到能写 Transformer 从零实现,但至少得知道它的每个环节能改到什么程度。比如微调这事,很多人觉得“找个LoRA脚本跑起来就是微调”,但模型为什么在特定任务上提升?为什么有时反而退化?你得能看懂数据质量、token 分布、loss 曲线的关系。
我刚接触LLaMA微调的时候就翻车过:用几千条质量参差不齐的推荐系统交互数据直接喂,结果模型开始在别的任务上乱答,原因就是过拟合和 catastrophic forgetting。后来我才学会用混合数据集(任务数据 + 原始指令数据)去保持语言能力,同时用 cosine schedule 控制学习率,才缓过来。
如果你现在在这个阶段卡住,建议去啃两类资料:
• 开源微调框架的源码(例如 HuggingFace PEFT、Unsloth、Axolotl)
• 模型结构可视化和调试工具(比如 transformer-lens)
第三阶段:造轮子甚至改造车
到这个时候,你可能才是真的“躺在坑底”了。你需要关心的不仅是单个模型,还有多模态、检索增强(RAG)、模型压缩、推理加速这些东西。
我印象最深是 2023 年底我做一个超长上下文的文档问答系统,常规的 4k context 根本不够,硬怼 32k 直接爆算力,最后用了外部向量库 + 分片 re-ranking的方式,把检索和生成结合起来,效果在延迟和准确率之间平衡得不错。这种跨模块的系统设计,一旦你能独立搞定,就是能入组 LLM 核心研发的水准。
很多人以为去大厂搞大模型算法有多难,其实难的不是技术本身,而是你根本找不到一个靠谱的带你入门的人或者资料。网上那些面经不是零碎就是过时,更别提系统性总结了。尤其是想进字节这种宇宙尽头大模型应用岗,光靠 Leetcode 和 huggingface 根本不够。
这就是我为什么花了很多时间,掘地三尺从知乎、牛客、V2EX、小红书、技术博客、GitHub、微信群几十个地方翻出来,把所有和「字节跳动大模型应用算法岗」相关的面试题搜集起来,整理成了这个手册——内容涵盖大模型原理、训练与微调、推理加速、数据工程、业务落地等五大核心维度,不仅是题目集合,更是思路梳理和实战指南。每道题都给出核心回答逻辑、代码实现关键点、面试官可能追问的陷阱,就像有个靠谱mentor带着你一点点拆解和构建自己的答题框架。
字节大模型算法岗面试手册mp.weixin.qq.com/s/12HW6knfhXaHgNCOZWBVVg
但是说到底,LLM 进步的速度确实快得离谱,想跟上只能靠两个习惯。
第一,保留一条长期实验的分支,不管是本地的 lab repo 还是云上的 sandbox,你留一个地方专门放各种奇葩实验想法,很多技术就是在这种地方被留住的。
第二,别只看标题党新闻,多翻源码和论文附录。我自己的信息源主要是几个 GitHub 热门项目的 commit 记录 + HuggingFace 的 Model Card。推特(现 X)是练手的素材库,但别迷信那里全是真东西。
LLM 入坑,关键不是你做了多少项目,而是你的脑子里逐渐形成了一个从数学基础 → 模型原理 → 工程实现 → 系统设计的闭环,而且闭环里至少有一条是你能打穿的。
打穿一条,你就能混;打穿两条,你能在组里带人;打穿三条,你就能拉一个项目从零起盘。
下面我按“刨根问底 + 干到落地 + 不被淘汰”这三个维度拆给你看。
第一层:稳住基本盘——那些变化慢,但决定你上限的东西
LLM变得再快,它的地基没变。地基就是数学和经典的机器学习/深度学习。很多人觉得这玩意儿老掉牙,现在谁还手推公式啊。错了,大错特错。
你不懂这些,你看论文、看源码,就永远是“浮在表面”。
线性代数和概率论,捡起来。不用你像数学系那样去证明这个推导那个。但你至少得对几个核心概念有体感。比如,什么是向量空间?Embedding为啥能做语义相似度计算,不就是在高维空间里看俩向量的夹角么。什么是矩阵乘法?Transformer里那一堆Q、K、V矩阵乘来乘去,本质上是在干嘛?是在做“信息提取”和“权重分配”。概率论就更别说了,大模型的输出本质上就是个概率分布,为啥会有Temperature aampling这种参数?不就是为了调整这个概率分布的形状,让模型“更有创意”或者“更确定”嘛。你把这些想通了,很多模型的参数和操作,你就不是“死记硬背”,而是“哦,原来如此”。
线代千万别啃大部头,直接学3Blue1Brown的《线性代数的本质》(Essence of Linear Algebra)系列,着几乎是每个学过线性代数的人都推荐的内容。
视频地址:【官方双语/合集】线性代数的本质 - 系列合集。
它的独特之处,不在于它讲了多少高深的理论,而在于它真正做到了“直观化”。
大多数教材和课程习惯从定义、定理、证明开始,而3Blue1Brown则从几何视角切入,用动画展示矩阵乘法、行列式、特征值等概念的本质。
关于3Blue1Brown的补充:视频终归只是一种呈现方式,真正深入消化理解,还得依靠笔记和文字。市面上已经出现不少针对3Blue1Brown系列的笔记整理,目的是帮助大家系统复盘内容、补充细节,也方便查找、回顾与复习。值得一提的是,有一批笔记,不只单纯翻译,还针对视频中略过的部分补充了更多细致的推导和背景知识。下面,我结合个人体验和观察,给大家介绍一份我认为值得参考的中英文笔记。(注:3Blue1Brown的讲解固然精彩,但它并非万能。它的核心价值在于建立几何直觉,而非替代传统学习中的计算训练和证明逻辑,可以配合《线性代数的几何意义》,有奇效!!注意是西安电子科技那本,这本书籍我也放在下面这个链接里面了)
3Blue1Brown线性代数笔记:可能是全网最好的中英文整理
学线代,学完这些就基本够用了,
经典的NLP和DL模型,过一遍。你不用去复现一个RNN或者LSTM,但你得知道它们是干嘛的,以及它们为什么“不行了”。为什么有了RNN还要有LSTM?为了解决长期依赖问题。那Transformer牛逼在哪?它用自注意力机制(Self-Attention)把这个长期依赖问题给“拍扁”了,可以直接计算序列里任意两个词的关系,不用像RNN那样一个一个往后传。你不了解前面的“不行”,就无法深刻理解后面的“行”。这就好像你没用过诺基亚,你可能很难体会iPhone的全触屏在当年是多么革命性。
这个阶段,不用贪多。把花书(《深度学习》)里跟CNN、RNN、Attention相关的章节啃下来,再把李沐的《动手学深度学习》里对应的代码跑一跑,就差不多了。这是内功,急不来,但练好了,后面你学什么都快。
第二层:啃下主干道——把Transformer到GPT这条线捋清楚
地基打好了,就得修高速公路了。现在LLM这条高速公路的主干道,毫无疑问就是Transformer架构。你之前做的项目,都是在这条路上跑的车,现在你要去研究这条路本身是怎么修的。
• 精读圣经:《Attention Is All You Need》。这篇论文不长,但每个字都值得抠。别光看个结论,你要去想,它为什么要设计Multi-Head Attention?Positional Encoding是为了解决什么问题?Encoder和Decoder的结构差异是为什么?最好是找个视频(比如李沐的精读),再对着一份带注释的源码(比如 a popular annotated Transformer implementation on Github)自己敲一遍。这个过程会很痛苦,但你一旦啃下来,整个LLM的世界在你眼里都会变得清晰。
• 理解“预训练-微调”这个范式。这是LLM能成功的核心思想。你要搞明白BERT和GPT这两条技术路线的“哲学思想”有啥不同。BERT像个做完形填空的“理解高手”(双向语言模型),适合做NLU任务。GPT像个写续集的“生成天才”(单向语言模型),适合做NLG任务。知道了这个,你再去看什么T5、BART这些模型,你就知道它们是在做什么样的“融合创新”。
• 动手微调,但要带着问题去调。你之前微调过Llama做推荐,很好。但这次,你要更深入。比如,你试试用同样的数据,跑一遍全参数微调,再跑一遍LoRA。对比一下效果、显存占用、训练时间。去思考LoRA为什么能有效?它是在“冻结”了原有知识的基础上,加了一块“小插件”来学习新知识。这对于防止“灾难性遗忘”有什么好处?举个实际例子吧。我们之前给一个电商客户做智能客服,用一个通用大模型微调。刚开始效果不错,客户很满意。后来客户上了一批新品,有新的产品术语和特性,我们把新数据加进去一微调,发现模型对老产品的回答开始胡说八道了。这就是典型的灾难性遗忘。后来改用PEFT(参数高效微调,LoRA是其中一种)方法,针对新知识只训练很小一部分参数,就很好地解决了这个问题。你看,这就是从“会用工具”到“会解决问题”的差别。你得在实际场景里踩个坑,然后想办法填上,这个知识才算真正变成你自己的。
这个阶段的学习资源,除了论文本身,Hugging Face的官方课程和文档是必看的,非常系统和实用。还有Andrej Karpathy大神手把手教你从零写一个GPT的视频("Let's build GPT: from scratch, in code, spelled out."),强烈推荐,能让你对整个流程有非常具象的认识。
第三层:面向战场——深入应用和工程化的“脏活累活”
前两层搞定了,你已经算半个专家了。但要在工业界立足,光懂理论还不行,你得能让它跑起来,跑得好,跑得省钱。
• 推理优化(Inference)。这是现在工业界非常非常核心的一块。模型训练一次,但推理要跑千千万万次。怎么让模型跑得更快、更省显存?这里面学问就大了。什么KV Cache、模型量化(Quantization)、剪枝、蒸馏,还有像vLLM、TensorRT-LLM这些推理框架。你不需要每个都精通,但你至少要知道它们分别解决了什么问题。比如,面试官问你:“一个百亿模型的推理,显存不够怎么办?” 你能答出“模型量化,比如用int8甚至int4,或者用模型并行把模型切到多张卡上”,这就不一样了。
• RAG和Agent的“深水区”。你做过Agent狼人杀,这很潮。但工业级的Agent和RAG,远比demo复杂。比如RAG,不是简单地“向量检索+扔给LLM”。检索的文档怎么切块(Chunking)最合理?用什么Embedding模型效果最好?检索出来的东西太多,“迷失在中间”(Lost in the Middle)问题怎么解决?是做rerank还是做query改写?这些都是坑,也是你拉开差距的地方。再比如Agent,怎么设计一个稳定、可靠的Prompt框架(像ReAct这种)?工具调用失败了怎么做容错和重试?怎么防止Agent陷入无限循环?这些问题,你只有在实际做一个有价值的、需要稳定运行的Agent时才会碰到,也才会逼着你去思考解决方案。
• 保持对前沿的敏锐,但别焦虑。新东西确实多,什么Mamba、MoE架构。我的建议是,别追着每一篇论文跑,你追不上的。抓住主线,比如新的模型架构主要解决了什么老问题(Mamba解决Transformer的二次方复杂度问题),新的应用范式有什么商业潜力。看一些高质量的解读,比如重要的论文出来后,看看圈子里大佬们的分析,比自己闷头看效率高。然后选择一两个你最感兴趣或者工作最需要的方向,深入跟进就行了。记住,你的目标是构建自己的知识体系,不是成为一个“论文速递机器人”。
这个三层框架,其实就是“打好地基 -> 贯穿主干 -> 开枝散叶”的过程。
• 第一层是内功,决定了你能走多远。
• 第二层是招式,决定了你当下的战斗力。
• 第三层是实战经验,决定了你值多少钱。
文中提到的很多资源都不太好找,可以在这个链接里面挖掘探索下。
[图片: https://picx.zhimg.com/v2-6782edde8446c119cca0dd7e4cc612db.jpg?source=7e7ef6e2&needBackground=1]
(持续更新中)技术总监收藏夹的学习资源汇总:计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型233 赞同 · 5 评论文章
你现在的情况,是第二层和第三层的“应用”都摸过了,但第一层和第二层的“原理”有点虚。所以,回过头去,把地基和主干道补扎实,你现在的这些项目经验就不会是空中楼阁,而是你坚实的武器。
精心搜集了76本国外经典数学教材,涵盖代数、几何、分析、概率等多个数学分支,希望能帮助同学们构建更完善的知识体系。
一口气看完76本国外数学经典!这份压箱底书单,让你少走10年弯路!mp.weixin.qq.com/s/3APcxptNAZvsmLhEZvsSaA
此外,见证国内数学学科发展的“活化石”,科学出版社的《现代数学基础丛书》自1981年诞生以来,已持续更新至204卷,堪称中国数学界的“四库全书”,也一并整理好了。
5000字硬核盘点!《现代数学基础丛书》204卷必读清单(附PDF及领域分类),建议收藏备用!mp.weixin.qq.com/s/7Su7Wf-1dmn_8-OU6kTDhw
别怕感觉自己什么都不会,有这种感觉,说明你开始从山脚往上爬,看到了山的巍峨。这是好事。真正可怕的是,站在山脚下,以为自己看到了全世界。
就说这么多吧,希望能帮到你。路还长,慢慢来,比较快。
## 📊 核心动作表
| 阶段 | 周次 | 核心动作 | 重点/产出 |
| -------- | ------- | ------------------------------------------- | ---------------------- |
| 阶段1 基础筑基 | Week1-2 | 手推 BPE / WordPiece 分词算法 | 对比压缩率,理解文本表示方式 |
| | | 精读 Word2Vec (Skip-gram + 负采样) | 词向量与分布式假设 |
| | | 手写 Self-Attention 矩阵 | 复杂度计算 √ |
| | | 周末:PyTorch 实现 Transformer Encoder | 完成基础模型编码器 |
| | Week3-4 | 推导 RoPE 旋转位置编码 | 面试手撕重点 |
| | | 对比 LayerNorm / RMSNorm 梯度差异 | 理解归一化差别 |
| | | 解析 FFN 结构 | 世界知识为何存于 MLP |
| | | 周末:BatchNorm 在预训练为何失效 | 面试题准备 |
| 阶段2 进阶实战 | Week5 | 数据清洗:实现 MinHash 去重 | 保证训练集干净 |
| | | 掌握 ZeRO-3 分布式 (DeepSpeed) | 大模型训练可扩展性 |
| | | 梯度累积 + 混合精度训练 | 训练提效关键 |
| | | 面试题:百度训练数据配比策略 | 企业实战经验 |
| | Week6 | LoRA / P-Tuning 原理对比 | 参数高效微调 |
| | | 图解 PPO / DPO 算法 | RLHF 对齐核心 |
| | | 考点:SFT vs 预训练 Loss 差异 | 面试准备 |
| | Week7 | [[FlashAttention]] 手撕优化 | 显存降低 ~70% |
| | | [[KV Cache]] 机制解析 | vLLM 源码解读 |
| | | MoE vs Transformer 架构 | Gemini 前沿思路 |
| | Week8 | 搭建 RAG 系统 (HNSW + Query 重排) | 实战 Retrieval-Augmented |
| | | Agent 开发:[[ReAct]] 框架 | 工具调用链 |
| | | 领域知识微调方案 | 简历加分项 |
| | | [[Hugging Face]] [[Transformers]]、llama.cpp | |
| | | 每天 1 篇 [[ArXiv]] | |
2. 角色赛道全景
赛道 典型职责 关键技术栈 适配度
A. 基础模型/预训练工程师 从零到一构建或继续训练百亿/千亿级模型 Megatron‑LM、DeepSpeed、FSDP、NCCL、分布式数据管线、H100/A100 集群调度 ★★★★☆
B. 微调 & 对齐工程师 SFT、DPO、RLHF、指令增益、评测基准与安全对齐 LoRA/Q‑LoRA、TRL‑HF、ray/accelerate、Reward Modeling ★★★★★
C. LLM 应用工程师(RAG/Agent)将开源或商用 LLM 嵌入业务:检索增强、思考链、多模态、Agents LangChain、LlamaIndex、Haystack、向量库、提示工程 ★★★★★
D. MLOps / LLMOps 推理加速、模型监控、配置管理、灰度发布、成本调优 Triton, vLLM, BentoML, KServe, Prometheus, Grafana ★★★☆☆
E. 研究科学家 模型架构、效率、对齐策略前沿研究 Torch/XLA、JAX/TPU、学术论文写作 ★★★★☆
评分依据:与你已有的“自己从零写过 Transformer / GPT 模型”技能匹配度。
⸻
3. 细分领域(行业线)机会
行业 需求亮点 合规/壁垒 建议
金融 高频问答、投研摘要、风控自动化 数据隐私、监管沙盒 先从 B、C 角色切入,熟悉金融 NLP 语料
医疗 病历生成、临床知识问答 HIPAA/“四类专属”安全要求 建议联合医生、药企做垂直微调
教育 AI 导师、自动批改、陪练 内容审核、低龄保护 以 C 赛道出 MVP 快速验证
游戏&虚拟世界 NPC 对话、多模态剧情 实时性、高并发 需要 A+D 组合,机会在新创工作室
⸻
4. 为什么重点推荐 B + C 赛道
5. 上手周期短,面向结果
* 你拥有完整的 minGPT 训练经验,能迅速跑通 SFT/LoRA 并调优提示、评测指标。
2. 岗位数量最大,需求稳定
* 企业普遍缺能把开源模型 “调到可用” 的工程师;B 提供能力,C 负责产品落地。
3. 成长空间大,可向两端延伸
* 做久了可“左拓”到 A(底层训练),“右拓”到 D(部署运维)。
5. 求职落地路径
阶段 操作 目标产出
1. 作品集强化(1–2 个月)- 选 1–2 个垂直场景(如中文科研摘要、代码审校)- 用开源 Llama 3‑Instruct 微调,并给出自动评测 + demo GitHub repo + 在线 demo
2. Benchmark & 成本意识(第 3 个月)- 学会使用 vLLM/Flash‑Infer 推理- 对比不同量化策略耗时/成本 Blog/报告,证明能降本提速
3. 社区可见度 & 网络 - 在 Hugging Face 发布权重- 参加 Kaggle / CTF‑LLM 竞赛- 在知乎、B 站或 Medium 写技术笔记 建立“可信数字足迹”
4. 锁定目标公司 - 国内:百度文心、阿里通义、字节火山、讯飞星火、连连 AI 生态 Startup- 海外:OpenAI API 生态伙伴、AI DevTools Startup、云厂商(AWS Bedrock、GCP Vertex)10 家左右长名单
5. 面试准备 - 分布式训练 + 参数高效微调原理- Prompt 设计 & Safety- 框架源码阅读(minGPT ➔ nanoGPT ➔ Llama‑cpp)面经备忘清单
6. 参考薪酬与谈判要点
* 国内一线:生成式 AI 应用工程师 $30k–60k$ RMB/月,$16$ 薪常见;有分布式训练经验可谈更高。
* 北美远程/现场:LLM Engineer 平均 $180k–$240k;具稀缺 GPU 并行调度经验可上 $300k+。
* 谈判技巧:
1. 强调“端到端(从数据→模型→上线)”闭环能力;
2. 量化展示你让推理成本降低或质量提升的数字;
3. 争取“算力/云点数”与“开源时间”作为非现金补偿。
4. 行动清单(TL;DR)
5. 选择赛道:首先瞄准 B(微调&对齐)+ C(应用工程);未来可向 A/D 延伸。
6. 做作品:2 个月内上线至少 1 个垂直场景微调 Demo,并公开指标。
7. 建影响力:持续输出博客、参赛、开源权重。
8. 锁公司,投简历:目标 10 家,优先业务驱动、算力到位的团队。
9. 面试突击:分布式训练原理 + Prompt/Safety 案例 + MLOps 基础。
## 核心学习方法论:"体感-拆解-融合"
### 第一阶段:建立体感(从用户到产品经理视角)
**核心任务**:做一个RAG应用(如公司内部文档问答系统)
**技术栈选择**:
* **框架**:[[LlamaIndex]] > [[langchain]](RAG更专注);[[LangGraph]](从RAG到Agent)
* **[[向量化模型]]**:OpenAI text-embedding-3-small(性价比高)或 bge-large-zh-v1.5(开源)
* **[[向量数据库]]**:
* 入门:ChromaDB(本地,pip install即可)
* 进阶:[[Milvus]] 或 [[Weaviate]](工业界主流)
**重点掌握**:
* 文档切片策略(chunks)
* 向量索引原理(如[[HNSW]])
* Prompt工程技巧
### 第二阶段:核心拆解(理解原理)
**学习顺序**:
1. **[[Transformer]]架构**:
* 先看 Andrej Karpathy 的 "Let's build GPT: from scratch"(YouTube/B站)
* 再看李沐的课程
* 最后读论文《Attention Is All You Need》
2. **模型微调**:
* 直接学 [[LoRA]] 和 QLoRA(跳过全量微调)
* 使用 Hugging Face PEFT 库
* 用公司数据做一次实际微调
1. **[[模型评估]]**:
* BLEU、ROUGE 分数
* [[LLM-as-a-judge]] 方法
### 第三阶段:工程融合(发挥后端优势)
**关键技术栈**:
* **推理框架**:[[vLLM]](必学)、TensorRT-LLM
* **MLOps工具**:
* 实验跟踪:[[wandb]] > MLflow
* RAG评估:RAGAS框架
## 学习资源优先级
**必看资源**:
1. [[LlamaIndex]] 官方文档(Getting Started + Cookbook)
2. Hugging Face [[MTEB]] 榜单(了解最新embedding模型)
3. Andrej Karpathy 的 GPT 教程
4. vLLM GitHub 和文档
**学习平台**:
* Hugging Face(核心)
* 各大模型公司的 GitHub
* 知乎、公众号技术更新
## 关键原则
**要做的**:
* 先体验再理论
* 重视工程实践而非纯算法
* 结合实际业务场景
* 利用后端经验优势(分布式、高并发、稳定性、成本控制)
**不要做的**:
* 不要一开始就啃大量论文
* 不要做全量微调(成本太高)
* 不要只停留在Demo阶段
* 不要忽视成本和性能优化
**时间预期**:半年左右可见成果
这个学习路径的核心思想是:工程师不需要成为算法专家,而是要成为能把算法"用好、管好、优化好"的AI工程师。你的后端经验才是真正的护城河。
标题: 如何系统性学习大模型相关知识?
题主7年后端研发经验,软件工程科班,还啃过李沐老师的硬核课程,你不是站在悬崖边上,你是站在风口中央,手里还握着一把最趁手的技能---你的后端经验。
可以说你这个问题,问的非常有代表性。
让我突然感觉就好像到了2014年,那时候我们这些吭哧吭哧写着Java的后端,看着Hadoop、Spark的火苗,开始怀疑人生,焦虑“我的CRUD手艺,会不会被时代的大数据洪水给淹了?”
资本要增长,业务要降本增效,个人要有未来。你说以前大家学Python、学算法,都图个应试,顶多考个P7。现在不一样了,大模型直接让“全员智商增加50分”。普通程序员的差距怎么拉开?这真不是危言耸听。你要是不懂这些原理和落地,慢慢会有种技术“原地踏步”的危机,这种焦虑,我自己2018-2022年期间体会太深了。
历史总是在重复,但又不是简单的重复。当年我就是那个焦虑的开发,眼瞅着身边搞算法的同事薪资一飞冲天,那种感觉,就跟现在你看着大模型新闻刷屏一样。后来心一横,一头扎了进去,从推荐系统到NLP,一路摸爬滚打,踩过的坑、熬过的夜,都能写本书了。
坦白说,绝大多数写后端的同事,其实转大模型相关这步内心是有挣扎的。外部,是AI带飞一切的“行业口号”,职场上各种大模型岗位要价直线上升。内部,则是“我是不是来不及了?”、“会不会学一堆八股文,最后还是写写接口?” 我自己也是边摇摆边转变的。这几年灭了不少“知乎鸡汤”,要我真说,学习路线千万别只看风口,要结合自己的底子去拆,你得搞明白,“不是你得多懂Transformer本身,是你能不能通过它解决实际问题”。
别听外面那些人吹得天花乱坠,也别被几百篇论文吓倒。大模型学习这事儿,对于我们这种工程师出身的人来说,得有自己的一套打法。我给你总结一个我自己的心法,就三个词:“体感-拆解-融合”。
第一板斧:建立体感——从“用户”思维到“上帝”视角
你先别管什么Transformer的内部结构,也别管什么LoRA的数学原理。你第一步要做的,是忘掉自己是个开发者,先当一个大模型应用的“超级用户”和“产品经理”。你的目标是,用最快的速度,建立起对这玩意儿能力边界的体感。
什么叫体感?就是你知道它能干什么、干不好什么、怎么“骗”它干活、以及让它干活要花多少钱。
最直接的路径,就是我之前带团队屡试不爽的一个方法:做一个“给自己用”的RAG应用。RAG(检索增强生成)是目前90%大模型应用的核心骨架,搞懂它,你就搞懂了一大半。
比如,把你们公司所有的技术文档、会议纪要、产品需求文档(PRD)全部扔进去,做一个内部的“万事通”。这个项目虽小,但技术栈是全的:
* 文档处理与向量化:别用那些花里胡哨的库,就用LlamaIndex或者LangChain。我个人现在更倾向LlamaIndex,它在RAG这条路上做得更专注,更深入。你需要搞明白怎么把一堆PDF、Markdown文件切成合适的chunks,然后调用OpenAI的text-embedding-3-small(目前性价比最高的选择)或者开源的bge-large-zh-v1.5这类模型,把文本变成向量。
* 向量存储与检索:入门玩玩本地的ChromaDB就行,不用装任何东西,pip install就行。但如果你想正经点,为以后工作做准备,我强烈建议你研究下Milvus或者Weaviate,这俩是开源的,也是工业界用得最多的。你需要理解什么是“向量索引”,比如HNSW,知道它怎么在亿万个向量里帮你光速找到最相似的那几个。
* Prompt工程与生成:这是灵魂。把检索出来的“参考资料”和用户问题,怎么组织成一个高质量的Prompt,喂给大模型(比如GPT-4o或者开源的Qwen2-7B-Instruct),这里面全是学问。你会亲身体会到,为什么有时候模型会“选择性失明”忽略你给的上下文,为什么它会一本正经地胡说八道。
在这个阶段中,你可以用这些资源进行学习,这些都是我个人看过,并进行过去粗取精,化繁为简的。
* 框架:直接看LlamaIndex的官方文档,它的文档写得像教程,从头跟一遍Getting Started,然后重点看Cookbook里的各种实例。
* 模型:一定要多刷Hugging Face。去meta-llama/Llama-3-8B-Instruct或者Qwen/Qwen2-7B-Instruct的模型页面,看他们提供的Prompt模板。
* 向量模型榜单:没事就去Hugging Face的MTEB (Massive Text Embedding Benchmark)榜单上逛逛,看看现在哪个embedding模型在中英文上效果最好。
* 项目资源参考:
构建基于 LLM 的检索增强生成(RAG)系统?(附代码)mp.weixin.qq.com/s/-f4tKR-qg3LbkOlT6jBTcQ
跑通这个项目,你对大模型的“脾气”就基本摸清了。这个阶段,你的代码可能很烂,但你的认知会发生质变。
第二板斧:核心拆解——把“黑盒”砸开看看里面是什么
当你有了体感,发现RAG有瓶颈了,比如模型的回答风格太死板,或者在某个极度垂直的领域(比如你们公司的祖传代码黑话),RAG给的上下文也救不了它。这时候,你就会自然而然地想:我能不能“改造”一下这个模型?
恭喜你,你已经进入了第二个阶段:拆解。
这个阶段,你才需要回头去啃硬骨头。但别怕,你的目标不是成为数学家,而是理解关键组件的“设计思想”。
* Transformer架构:李沐老师的课是基础。但我想给你推荐一个“神级”资源:Andrej Karpathy的"Let’s build GPT: from scratch"。去YouTube上找,有中文字幕。他会带你用几百行Python代码,从零开始写一个GPT。你看完这个,比你看十篇论文都管用。你会真正“摸到”Self-Attention、Positional Encoding这些东西在代码里长什么样。
* 高效微调(Fine-tuning):别想了,现在没人做全量微调,成本太高。直接学LoRA和QLoRA。这俩是现在给大模型做“微创手术”的标准技术。Hugging Face的PEFT库(Parameter-Efficient Fine-Tuning)把这件事的门槛降到了地板。你找个教程,用你自己的数据(比如几百条你们公司的客服问答对),在Llama-3或者Qwen上跑一次LoRA微调,感受一下模型被你“驯化”的快感。
* 模型评估:你怎么知道微调后的模型比原来好?这是个大问题。除了主观感受,你需要了解一些基础的评估方法,比如针对特定任务的BLEU、ROUGE分数,以及现在更流行的“用更强的模型当裁判”(LLM-as-a-judge)的思路。
* 必看视频:Andrej Karpathy的"Let's build GPT",B站上应该有搬运和翻译。
* 必读论文:《Attention Is All You Need》,这篇是“圣经”,配合Karpathy的视频看,效果拔群。然后是LoRA的论文《LoRA: Low-Rank Adaptation of Large Language Models》。
* 必用工具:Hugging Face的Transformers库、PEFT库、datasets库。他们的文档和教程就是最好的学习材料。
这个阶段,你的目标是把大模型从一个黑盒,变成一个你能看懂、甚至能有限度修改的“白盒”。
第三板斧:工程融合——你的后端经验,才是真正的护城河
这是最关键的一步,也是你甩开90%半路出家的“算法新人”的地方。一个模型跑通了Demo,离一个能扛住真实流量、稳定可靠、还不能太烧钱的“产品”,差了十万八千里。而这十万八千里,全都是你那7年后端经验的用武之地。
* 模型部署与服务化:用Flask简单包一下API?并发一上来就得挂。你必须研究专业的推理服务框架,比如vLLM。它通过PagedAttention和Continuous Batching等技术,能把模型的吞吐量提升一个数量级。还有NVIDIA的TensorRT-LLM,也是大杀器。这些东西的原理,对你这个搞后端的来说,理解起来会比纯算法的人容易得多。
* 成本与性能优化:这才是CEO最关心的。调用一次GPT-4o要花多少钱?用开源模型自己部署,一个请求吃多少显存?QPS能到多少?延迟多少?怎么做智能路由,简单的请求用小模型,复杂的再上大模型?怎么设计缓存策略?这些问题,算法同学可能会挠头,但对你来说,不就是日常工作吗?
* LLMOps与系统架构:一个成熟的AI应用,背后是一整套的LLMOps流程。数据处理、模型微调、版本管理、A/B测试、线上监控、效果评估……这不就是我们后端熟悉的CI/CD、灰度发布、监控报警系统换了个“AI的皮”吗?你需要思考的是,怎么把大模型这个不稳定的“新物种”优雅地集成到你现有的微服务架构里。它可能是一个独立的“AI中台”,也可能是一组被Service Mesh管理的gRPC服务。
* 推理框架:vLLM的GitHub和官方文档,必看。
* MLOps/LLMOps:了解一下MLflow或WandB(WandB我个人更喜欢,UI做得好)做实验跟踪。研究一下RAGAS这样的框架,学习如何自动化评估RAG系统的质量。
* 前沿视野:多看看LangGraph这样的库,它代表了从简单的RAG链条到复杂的Agent智能体的演进方向。
基础理论补齐,主流应用工具学明白,自建和微调实际跑几遍,多钻业务场景。工具和资源建议去huggingface,中文社区多发issue和问题,大模型公司github、知乎、公众号常更新,有空多看看官方文档,不懂就翻源码别怕丢人。你手里有7年的工程经验,你懂分布式、懂高并发、懂稳定性、懂成本,目标不用太高,半年左右就能见到成果。
这几个关注度非常火爆的AI学习资源也可以码住,部分是有文本教程 + 视频讲解 + 全套代码,而且配了中文翻译。
盘点几个我看过的,墙裂建议你快速过一次。遇到不懂的知识点可以在进行二刷,三刷回顾。
推上大佬怎么都在学浙大的大模型教程
还得是麻省!用AI做任何事的跨界新课来了
微软爸爸出了一个小白友好的AI Agent课!
生成式AI时代zui值得听的中文课!--李宏毅大佬
齐活儿了!OpenAI、Google、Anthropic 官方的AI教程都在这里了
hugging face出了幼儿级MCP教程---轻松玩转Agent + Tool + 模块组合式
Claude偷偷开了一门free的MCP神课!
说白了,大模型正在从一个“算法问题”变成一个“工程问题”。未来最有价值的,不是那些能提出新算法的科学家(当然他们也很重要),而是能把这些强大的“算法引擎”用好、管好、优化好的AI工程师。