# Summary #第一性原理 当前 AI 岗位类似互联网早期,定义混乱、知识真空、话语缺失。 我来帮你提取这篇关于系统性学习大模型的关键信息: 学完CS336和minGPT后如何学习[[RLHF]] # Cues (持续更新中)技术总监收藏夹的学习资源汇总:计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型 - CodeCrafter的文章 - 知乎 https://zhuanlan.zhihu.com/p/1918954720678098873 # Notes 我觉得很多人有个错觉:我写过两个 demo 项目、用过几行 API、微调过个开源模型,那应该算“入坑LLM”了吧。怎么说呢,这就像当你第一次用 Photoshop 抠了一张图,你会说自己是“入坑平面设计”了吗?算是碰了边,但坑里那一圈水,你还没真正下去趟过。 你做的那些项目,至少证明你动手能力强,能跟上热点,这已经比很多人强了。但你感觉虚,是因为你现在处在“应用层”和“技术层”的夹缝里。你摸到了LLM这个机器,但你没拆开过它的发动机,不知道里面的活塞和齿轮是怎么咬合的。 我个人觉得,当你不再把LLM当成一个黑盒API,而是开始有能力、有意识地去“掰开”这个黑盒,哪怕只掰开一条缝,往里瞅一眼,并且大概能看懂点门道,那时候,你才算真正开始入坑了。 我自己是 2022 年底算是彻底掉坑里的,契机是帮公司用GPT-3写一个法律文本摘要工具,看着模型一顿输出,效果有 80 分,但那 20 分的“翻车”让我意识到,这玩意儿的核心不是“会用 API”,而是你能不能控制它的行为,甚至改造它内部。也就是你从“用”模型到能“改”模型,再到能“做”模型。这三个阶段,是我自己对“入坑”的分法。 第一阶段:玩熟现成的轮子 别看很多人说这个阶段“人人都会”,其实真把一款模型调到能在严苛业务场景跑稳定,不是件简单事。光prompt engineering这一块,我见过的典型错误有两个: • 以为写几行人话就是 prompt,结果生成的结果不稳定。实际上要学会结构化指令、few-shot、chain-of-thought 这些套路。 • 忽视上下文管理,token 用完就截断,模型就失忆。这个坑太多公司在踩。这里建议你找几个具体且复杂的应用场景去练,比如让模型帮你处理业务脏数据,是那种带拼写错误、混合英文、半结构化的 CSV,让它能稳定吐出干净结果,这个过程会逼你深入理解 context、temperature、top_p、system prompt 的关系。 第二阶段:能改造轮子 这个阶段你得搞懂模型背后的原理,不用到能写 Transformer 从零实现,但至少得知道它的每个环节能改到什么程度。比如微调这事,很多人觉得“找个LoRA脚本跑起来就是微调”,但模型为什么在特定任务上提升?为什么有时反而退化?你得能看懂数据质量、token 分布、loss 曲线的关系。 我刚接触LLaMA微调的时候就翻车过:用几千条质量参差不齐的推荐系统交互数据直接喂,结果模型开始在别的任务上乱答,原因就是过拟合和 catastrophic forgetting。后来我才学会用混合数据集(任务数据 + 原始指令数据)去保持语言能力,同时用 cosine schedule 控制学习率,才缓过来。 如果你现在在这个阶段卡住,建议去啃两类资料: • 开源微调框架的源码(例如 HuggingFace PEFT、Unsloth、Axolotl) • 模型结构可视化和调试工具(比如 transformer-lens) 第三阶段:造轮子甚至改造车 到这个时候,你可能才是真的“躺在坑底”了。你需要关心的不仅是单个模型,还有多模态、检索增强(RAG)、模型压缩、推理加速这些东西。 我印象最深是 2023 年底我做一个超长上下文的文档问答系统,常规的 4k context 根本不够,硬怼 32k 直接爆算力,最后用了外部向量库 + 分片 re-ranking的方式,把检索和生成结合起来,效果在延迟和准确率之间平衡得不错。这种跨模块的系统设计,一旦你能独立搞定,就是能入组 LLM 核心研发的水准。 很多人以为去大厂搞大模型算法有多难,其实难的不是技术本身,而是你根本找不到一个靠谱的带你入门的人或者资料。网上那些面经不是零碎就是过时,更别提系统性总结了。尤其是想进字节这种宇宙尽头大模型应用岗,光靠 Leetcode 和 huggingface 根本不够。 这就是我为什么花了很多时间,掘地三尺从知乎、牛客、V2EX、小红书、技术博客、GitHub、微信群几十个地方翻出来,把所有和「字节跳动大模型应用算法岗」相关的面试题搜集起来,整理成了这个手册——内容涵盖大模型原理、训练与微调、推理加速、数据工程、业务落地等五大核心维度,不仅是题目集合,更是思路梳理和实战指南。每道题都给出核心回答逻辑、代码实现关键点、面试官可能追问的陷阱,就像有个靠谱mentor带着你一点点拆解和构建自己的答题框架。 字节大模型算法岗面试手册​mp.weixin.qq.com/s/12HW6knfhXaHgNCOZWBVVg 但是说到底,LLM 进步的速度确实快得离谱,想跟上只能靠两个习惯。 第一,保留一条长期实验的分支,不管是本地的 lab repo 还是云上的 sandbox,你留一个地方专门放各种奇葩实验想法,很多技术就是在这种地方被留住的。 第二,别只看标题党新闻,多翻源码和论文附录。我自己的信息源主要是几个 GitHub 热门项目的 commit 记录 + HuggingFace 的 Model Card。推特(现 X)是练手的素材库,但别迷信那里全是真东西。 LLM 入坑,关键不是你做了多少项目,而是你的脑子里逐渐形成了一个从数学基础 → 模型原理 → 工程实现 → 系统设计的闭环,而且闭环里至少有一条是你能打穿的。 打穿一条,你就能混;打穿两条,你能在组里带人;打穿三条,你就能拉一个项目从零起盘。 下面我按“刨根问底 + 干到落地 + 不被淘汰”这三个维度拆给你看。 第一层:稳住基本盘——那些变化慢,但决定你上限的东西 LLM变得再快,它的地基没变。地基就是数学和经典的机器学习/深度学习。很多人觉得这玩意儿老掉牙,现在谁还手推公式啊。错了,大错特错。 你不懂这些,你看论文、看源码,就永远是“浮在表面”。 线性代数和概率论,捡起来。不用你像数学系那样去证明这个推导那个。但你至少得对几个核心概念有体感。比如,什么是向量空间?Embedding为啥能做语义相似度计算,不就是在高维空间里看俩向量的夹角么。什么是矩阵乘法?Transformer里那一堆Q、K、V矩阵乘来乘去,本质上是在干嘛?是在做“信息提取”和“权重分配”。概率论就更别说了,大模型的输出本质上就是个概率分布,为啥会有Temperature aampling这种参数?不就是为了调整这个概率分布的形状,让模型“更有创意”或者“更确定”嘛。你把这些想通了,很多模型的参数和操作,你就不是“死记硬背”,而是“哦,原来如此”。 线代千万别啃大部头,直接学3Blue1Brown的《线性代数的本质》(Essence of Linear Algebra)系列,着几乎是每个学过线性代数的人都推荐的内容。 视频地址:【官方双语/合集】线性代数的本质 - 系列合集。 它的独特之处,不在于它讲了多少高深的理论,而在于它真正做到了“直观化”。 大多数教材和课程习惯从定义、定理、证明开始,而3Blue1Brown则从几何视角切入,用动画展示矩阵乘法、行列式、特征值等概念的本质。 关于3Blue1Brown的补充:视频终归只是一种呈现方式,真正深入消化理解,还得依靠笔记和文字。市面上已经出现不少针对3Blue1Brown系列的笔记整理,目的是帮助大家系统复盘内容、补充细节,也方便查找、回顾与复习。值得一提的是,有一批笔记,不只单纯翻译,还针对视频中略过的部分补充了更多细致的推导和背景知识。下面,我结合个人体验和观察,给大家介绍一份我认为值得参考的中英文笔记。(注:3Blue1Brown的讲解固然精彩,但它并非万能。它的核心价值在于建立几何直觉,而非替代传统学习中的计算训练和证明逻辑,可以配合《线性代数的几何意义》,有奇效!!注意是西安电子科技那本,这本书籍我也放在下面这个链接里面了) 3Blue1Brown线性代数笔记:可能是全网最好的中英文整理 学线代,学完这些就基本够用了, 经典的NLP和DL模型,过一遍。你不用去复现一个RNN或者LSTM,但你得知道它们是干嘛的,以及它们为什么“不行了”。为什么有了RNN还要有LSTM?为了解决长期依赖问题。那Transformer牛逼在哪?它用自注意力机制(Self-Attention)把这个长期依赖问题给“拍扁”了,可以直接计算序列里任意两个词的关系,不用像RNN那样一个一个往后传。你不了解前面的“不行”,就无法深刻理解后面的“行”。这就好像你没用过诺基亚,你可能很难体会iPhone的全触屏在当年是多么革命性。 这个阶段,不用贪多。把花书(《深度学习》)里跟CNN、RNN、Attention相关的章节啃下来,再把李沐的《动手学深度学习》里对应的代码跑一跑,就差不多了。这是内功,急不来,但练好了,后面你学什么都快。 第二层:啃下主干道——把Transformer到GPT这条线捋清楚 地基打好了,就得修高速公路了。现在LLM这条高速公路的主干道,毫无疑问就是Transformer架构。你之前做的项目,都是在这条路上跑的车,现在你要去研究这条路本身是怎么修的。 • 精读圣经:《Attention Is All You Need》。这篇论文不长,但每个字都值得抠。别光看个结论,你要去想,它为什么要设计Multi-Head Attention?Positional Encoding是为了解决什么问题?Encoder和Decoder的结构差异是为什么?最好是找个视频(比如李沐的精读),再对着一份带注释的源码(比如 a popular annotated Transformer implementation on Github)自己敲一遍。这个过程会很痛苦,但你一旦啃下来,整个LLM的世界在你眼里都会变得清晰。 • 理解“预训练-微调”这个范式。这是LLM能成功的核心思想。你要搞明白BERT和GPT这两条技术路线的“哲学思想”有啥不同。BERT像个做完形填空的“理解高手”(双向语言模型),适合做NLU任务。GPT像个写续集的“生成天才”(单向语言模型),适合做NLG任务。知道了这个,你再去看什么T5、BART这些模型,你就知道它们是在做什么样的“融合创新”。 • 动手微调,但要带着问题去调。你之前微调过Llama做推荐,很好。但这次,你要更深入。比如,你试试用同样的数据,跑一遍全参数微调,再跑一遍LoRA。对比一下效果、显存占用、训练时间。去思考LoRA为什么能有效?它是在“冻结”了原有知识的基础上,加了一块“小插件”来学习新知识。这对于防止“灾难性遗忘”有什么好处?举个实际例子吧。我们之前给一个电商客户做智能客服,用一个通用大模型微调。刚开始效果不错,客户很满意。后来客户上了一批新品,有新的产品术语和特性,我们把新数据加进去一微调,发现模型对老产品的回答开始胡说八道了。这就是典型的灾难性遗忘。后来改用PEFT(参数高效微调,LoRA是其中一种)方法,针对新知识只训练很小一部分参数,就很好地解决了这个问题。你看,这就是从“会用工具”到“会解决问题”的差别。你得在实际场景里踩个坑,然后想办法填上,这个知识才算真正变成你自己的。 这个阶段的学习资源,除了论文本身,Hugging Face的官方课程和文档是必看的,非常系统和实用。还有Andrej Karpathy大神手把手教你从零写一个GPT的视频("Let's build GPT: from scratch, in code, spelled out."),强烈推荐,能让你对整个流程有非常具象的认识。 第三层:面向战场——深入应用和工程化的“脏活累活” 前两层搞定了,你已经算半个专家了。但要在工业界立足,光懂理论还不行,你得能让它跑起来,跑得好,跑得省钱。 • 推理优化(Inference)。这是现在工业界非常非常核心的一块。模型训练一次,但推理要跑千千万万次。怎么让模型跑得更快、更省显存?这里面学问就大了。什么KV Cache、模型量化(Quantization)、剪枝、蒸馏,还有像vLLM、TensorRT-LLM这些推理框架。你不需要每个都精通,但你至少要知道它们分别解决了什么问题。比如,面试官问你:“一个百亿模型的推理,显存不够怎么办?” 你能答出“模型量化,比如用int8甚至int4,或者用模型并行把模型切到多张卡上”,这就不一样了。 • RAG和Agent的“深水区”。你做过Agent狼人杀,这很潮。但工业级的Agent和RAG,远比demo复杂。比如RAG,不是简单地“向量检索+扔给LLM”。检索的文档怎么切块(Chunking)最合理?用什么Embedding模型效果最好?检索出来的东西太多,“迷失在中间”(Lost in the Middle)问题怎么解决?是做rerank还是做query改写?这些都是坑,也是你拉开差距的地方。再比如Agent,怎么设计一个稳定、可靠的Prompt框架(像ReAct这种)?工具调用失败了怎么做容错和重试?怎么防止Agent陷入无限循环?这些问题,你只有在实际做一个有价值的、需要稳定运行的Agent时才会碰到,也才会逼着你去思考解决方案。 • 保持对前沿的敏锐,但别焦虑。新东西确实多,什么Mamba、MoE架构。我的建议是,别追着每一篇论文跑,你追不上的。抓住主线,比如新的模型架构主要解决了什么老问题(Mamba解决Transformer的二次方复杂度问题),新的应用范式有什么商业潜力。看一些高质量的解读,比如重要的论文出来后,看看圈子里大佬们的分析,比自己闷头看效率高。然后选择一两个你最感兴趣或者工作最需要的方向,深入跟进就行了。记住,你的目标是构建自己的知识体系,不是成为一个“论文速递机器人”。 这个三层框架,其实就是“打好地基 -> 贯穿主干 -> 开枝散叶”的过程。 • 第一层是内功,决定了你能走多远。 • 第二层是招式,决定了你当下的战斗力。 • 第三层是实战经验,决定了你值多少钱。 文中提到的很多资源都不太好找,可以在这个链接里面挖掘探索下。 [图片: https://picx.zhimg.com/v2-6782edde8446c119cca0dd7e4cc612db.jpg?source=7e7ef6e2&needBackground=1] (持续更新中)技术总监收藏夹的学习资源汇总:计算机基础、语言类、大数据、数据分析、数据科学、AI、大模型233 赞同 · 5 评论文章 你现在的情况,是第二层和第三层的“应用”都摸过了,但第一层和第二层的“原理”有点虚。所以,回过头去,把地基和主干道补扎实,你现在的这些项目经验就不会是空中楼阁,而是你坚实的武器。 精心搜集了76本国外经典数学教材,涵盖代数、几何、分析、概率等多个数学分支,希望能帮助同学们构建更完善的知识体系。 一口气看完76本国外数学经典!这份压箱底书单,让你少走10年弯路!​mp.weixin.qq.com/s/3APcxptNAZvsmLhEZvsSaA 此外,见证国内数学学科发展的“活化石”,科学出版社的《现代数学基础丛书》自1981年诞生以来,已持续更新至204卷,堪称中国数学界的“四库全书”,也一并整理好了。 5000字硬核盘点!《现代数学基础丛书》204卷必读清单(附PDF及领域分类),建议收藏备用!​mp.weixin.qq.com/s/7Su7Wf-1dmn_8-OU6kTDhw 别怕感觉自己什么都不会,有这种感觉,说明你开始从山脚往上爬,看到了山的巍峨。这是好事。真正可怕的是,站在山脚下,以为自己看到了全世界。 就说这么多吧,希望能帮到你。路还长,慢慢来,比较快。 ## 📊 核心动作表 | 阶段 | 周次 | 核心动作 | 重点/产出 | | -------- | ------- | ------------------------------------------- | ---------------------- | | 阶段1 基础筑基 | Week1-2 | 手推 BPE / WordPiece 分词算法 | 对比压缩率,理解文本表示方式 | | | | 精读 Word2Vec (Skip-gram + 负采样) | 词向量与分布式假设 | | | | 手写 Self-Attention 矩阵 | 复杂度计算 √ | | | | 周末:PyTorch 实现 Transformer Encoder | 完成基础模型编码器 | | | Week3-4 | 推导 RoPE 旋转位置编码 | 面试手撕重点 | | | | 对比 LayerNorm / RMSNorm 梯度差异 | 理解归一化差别 | | | | 解析 FFN 结构 | 世界知识为何存于 MLP | | | | 周末:BatchNorm 在预训练为何失效 | 面试题准备 | | 阶段2 进阶实战 | Week5 | 数据清洗:实现 MinHash 去重 | 保证训练集干净 | | | | 掌握 ZeRO-3 分布式 (DeepSpeed) | 大模型训练可扩展性 | | | | 梯度累积 + 混合精度训练 | 训练提效关键 | | | | 面试题:百度训练数据配比策略 | 企业实战经验 | | | Week6 | LoRA / P-Tuning 原理对比 | 参数高效微调 | | | | 图解 PPO / DPO 算法 | RLHF 对齐核心 | | | | 考点:SFT vs 预训练 Loss 差异 | 面试准备 | | | Week7 | [[FlashAttention]] 手撕优化 | 显存降低 ~70% | | | | [[KV Cache]] 机制解析 | vLLM 源码解读 | | | | MoE vs Transformer 架构 | Gemini 前沿思路 | | | Week8 | 搭建 RAG 系统 (HNSW + Query 重排) | 实战 Retrieval-Augmented | | | | Agent 开发:[[ReAct]] 框架 | 工具调用链 | | | | 领域知识微调方案 | 简历加分项 | | | | [[Hugging Face]] [[Transformers]]、llama.cpp | | | | | 每天 1 篇 [[ArXiv]] | | 2. 角色赛道全景 赛道 典型职责 关键技术栈 适配度 A. 基础模型/预训练工程师 从零到一构建或继续训练百亿/千亿级模型 Megatron‑LM、DeepSpeed、FSDP、NCCL、分布式数据管线、H100/A100 集群调度 ★★★★☆ B. 微调 & 对齐工程师 SFT、DPO、RLHF、指令增益、评测基准与安全对齐 LoRA/Q‑LoRA、TRL‑HF、ray/accelerate、Reward Modeling ★★★★★ C. LLM 应用工程师(RAG/Agent)将开源或商用 LLM 嵌入业务:检索增强、思考链、多模态、Agents LangChain、LlamaIndex、Haystack、向量库、提示工程 ★★★★★ D. MLOps / LLMOps 推理加速、模型监控、配置管理、灰度发布、成本调优 Triton, vLLM, BentoML, KServe, Prometheus, Grafana ★★★☆☆ E. 研究科学家 模型架构、效率、对齐策略前沿研究 Torch/XLA、JAX/TPU、学术论文写作 ★★★★☆ 评分依据:与你已有的“自己从零写过 Transformer / GPT 模型”技能匹配度。 ⸻ 3. 细分领域(行业线)机会 行业 需求亮点 合规/壁垒 建议 金融 高频问答、投研摘要、风控自动化 数据隐私、监管沙盒 先从 B、C 角色切入,熟悉金融 NLP 语料 医疗 病历生成、临床知识问答 HIPAA/“四类专属”安全要求 建议联合医生、药企做垂直微调 教育 AI 导师、自动批改、陪练 内容审核、低龄保护 以 C 赛道出 MVP 快速验证 游戏&虚拟世界 NPC 对话、多模态剧情 实时性、高并发 需要 A+D 组合,机会在新创工作室 ⸻ 4. 为什么重点推荐 B + C 赛道 5. 上手周期短,面向结果 * 你拥有完整的 minGPT 训练经验,能迅速跑通 SFT/LoRA 并调优提示、评测指标。 2. 岗位数量最大,需求稳定 * 企业普遍缺能把开源模型 “调到可用” 的工程师;B 提供能力,C 负责产品落地。 3. 成长空间大,可向两端延伸 * 做久了可“左拓”到 A(底层训练),“右拓”到 D(部署运维)。 5. 求职落地路径 阶段 操作 目标产出 1. 作品集强化(1–2 个月)- 选 1–2 个垂直场景(如中文科研摘要、代码审校)- 用开源 Llama 3‑Instruct 微调,并给出自动评测 + demo GitHub repo + 在线 demo 2. Benchmark & 成本意识(第 3 个月)- 学会使用 vLLM/Flash‑Infer 推理- 对比不同量化策略耗时/成本 Blog/报告,证明能降本提速 3. 社区可见度 & 网络 - 在 Hugging Face 发布权重- 参加 Kaggle / CTF‑LLM 竞赛- 在知乎、B 站或 Medium 写技术笔记 建立“可信数字足迹” 4. 锁定目标公司 - 国内:百度文心、阿里通义、字节火山、讯飞星火、连连 AI 生态 Startup- 海外:OpenAI API 生态伙伴、AI DevTools Startup、云厂商(AWS Bedrock、GCP Vertex)10 家左右长名单 5. 面试准备 - 分布式训练 + 参数高效微调原理- Prompt 设计 & Safety- 框架源码阅读(minGPT ➔ nanoGPT ➔ Llama‑cpp)面经备忘清单 6. 参考薪酬与谈判要点 * 国内一线:生成式 AI 应用工程师 $30k–60k$ RMB/月,$16$ 薪常见;有分布式训练经验可谈更高。 * 北美远程/现场:LLM Engineer 平均 $180k–$240k;具稀缺 GPU 并行调度经验可上 $300k+。 * 谈判技巧: 1. 强调“端到端(从数据→模型→上线)”闭环能力; 2. 量化展示你让推理成本降低或质量提升的数字; 3. 争取“算力/云点数”与“开源时间”作为非现金补偿。 4. 行动清单(TL;DR) 5. 选择赛道:首先瞄准 B(微调&对齐)+ C(应用工程);未来可向 A/D 延伸。 6. 做作品:2 个月内上线至少 1 个垂直场景微调 Demo,并公开指标。 7. 建影响力:持续输出博客、参赛、开源权重。 8. 锁公司,投简历:目标 10 家,优先业务驱动、算力到位的团队。 9. 面试突击:分布式训练原理 + Prompt/Safety 案例 + MLOps 基础。 ## 核心学习方法论:"体感-拆解-融合" ### 第一阶段:建立体感(从用户到产品经理视角) **核心任务**:做一个RAG应用(如公司内部文档问答系统) **技术栈选择**: * **框架**:[[LlamaIndex]] > [[langchain]](RAG更专注);[[LangGraph]](从RAG到Agent) * **[[向量化模型]]**:OpenAI text-embedding-3-small(性价比高)或 bge-large-zh-v1.5(开源) * **[[向量数据库]]**: * 入门:ChromaDB(本地,pip install即可) * 进阶:[[Milvus]] 或 [[Weaviate]](工业界主流) **重点掌握**: * 文档切片策略(chunks) * 向量索引原理(如[[HNSW]]) * Prompt工程技巧 ### 第二阶段:核心拆解(理解原理) **学习顺序**: 1. **[[Transformer]]架构**: * 先看 Andrej Karpathy 的 "Let's build GPT: from scratch"(YouTube/B站) * 再看李沐的课程 * 最后读论文《Attention Is All You Need》 2. **模型微调**: * 直接学 [[LoRA]] 和 QLoRA(跳过全量微调) * 使用 Hugging Face PEFT 库 * 用公司数据做一次实际微调 1. **[[模型评估]]**: * BLEU、ROUGE 分数 * [[LLM-as-a-judge]] 方法 ### 第三阶段:工程融合(发挥后端优势) **关键技术栈**: * **推理框架**:[[vLLM]](必学)、TensorRT-LLM * **MLOps工具**: * 实验跟踪:[[wandb]] > MLflow * RAG评估:RAGAS框架 ## 学习资源优先级 **必看资源**: 1. [[LlamaIndex]] 官方文档(Getting Started + Cookbook) 2. Hugging Face [[MTEB]] 榜单(了解最新embedding模型) 3. Andrej Karpathy 的 GPT 教程 4. vLLM GitHub 和文档 **学习平台**: * Hugging Face(核心) * 各大模型公司的 GitHub * 知乎、公众号技术更新 ## 关键原则 **要做的**: * 先体验再理论 * 重视工程实践而非纯算法 * 结合实际业务场景 * 利用后端经验优势(分布式、高并发、稳定性、成本控制) **不要做的**: * 不要一开始就啃大量论文 * 不要做全量微调(成本太高) * 不要只停留在Demo阶段 * 不要忽视成本和性能优化 **时间预期**:半年左右可见成果 这个学习路径的核心思想是:工程师不需要成为算法专家,而是要成为能把算法"用好、管好、优化好"的AI工程师。你的后端经验才是真正的护城河。 标题: 如何系统性学习大模型相关知识? 题主7年后端研发经验,软件工程科班,还啃过李沐老师的硬核课程,你不是站在悬崖边上,你是站在风口中央,手里还握着一把最趁手的技能---你的后端经验。 可以说你这个问题,问的非常有代表性。 让我突然感觉就好像到了2014年,那时候我们这些吭哧吭哧写着Java的后端,看着Hadoop、Spark的火苗,开始怀疑人生,焦虑“我的CRUD手艺,会不会被时代的大数据洪水给淹了?” 资本要增长,业务要降本增效,个人要有未来。你说以前大家学Python、学算法,都图个应试,顶多考个P7。现在不一样了,大模型直接让“全员智商增加50分”。普通程序员的差距怎么拉开?这真不是危言耸听。你要是不懂这些原理和落地,慢慢会有种技术“原地踏步”的危机,这种焦虑,我自己2018-2022年期间体会太深了。 历史总是在重复,但又不是简单的重复。当年我就是那个焦虑的开发,眼瞅着身边搞算法的同事薪资一飞冲天,那种感觉,就跟现在你看着大模型新闻刷屏一样。后来心一横,一头扎了进去,从推荐系统到NLP,一路摸爬滚打,踩过的坑、熬过的夜,都能写本书了。 坦白说,绝大多数写后端的同事,其实转大模型相关这步内心是有挣扎的。外部,是AI带飞一切的“行业口号”,职场上各种大模型岗位要价直线上升。内部,则是“我是不是来不及了?”、“会不会学一堆八股文,最后还是写写接口?” 我自己也是边摇摆边转变的。这几年灭了不少“知乎鸡汤”,要我真说,学习路线千万别只看风口,要结合自己的底子去拆,你得搞明白,“不是你得多懂Transformer本身,是你能不能通过它解决实际问题”。 别听外面那些人吹得天花乱坠,也别被几百篇论文吓倒。大模型学习这事儿,对于我们这种工程师出身的人来说,得有自己的一套打法。我给你总结一个我自己的心法,就三个词:“体感-拆解-融合”。 第一板斧:建立体感——从“用户”思维到“上帝”视角 你先别管什么Transformer的内部结构,也别管什么LoRA的数学原理。你第一步要做的,是忘掉自己是个开发者,先当一个大模型应用的“超级用户”和“产品经理”。你的目标是,用最快的速度,建立起对这玩意儿能力边界的体感。 什么叫体感?就是你知道它能干什么、干不好什么、怎么“骗”它干活、以及让它干活要花多少钱。 最直接的路径,就是我之前带团队屡试不爽的一个方法:做一个“给自己用”的RAG应用。RAG(检索增强生成)是目前90%大模型应用的核心骨架,搞懂它,你就搞懂了一大半。 比如,把你们公司所有的技术文档、会议纪要、产品需求文档(PRD)全部扔进去,做一个内部的“万事通”。这个项目虽小,但技术栈是全的: * 文档处理与向量化:别用那些花里胡哨的库,就用LlamaIndex或者LangChain。我个人现在更倾向LlamaIndex,它在RAG这条路上做得更专注,更深入。你需要搞明白怎么把一堆PDF、Markdown文件切成合适的chunks,然后调用OpenAI的text-embedding-3-small(目前性价比最高的选择)或者开源的bge-large-zh-v1.5这类模型,把文本变成向量。 * 向量存储与检索:入门玩玩本地的ChromaDB就行,不用装任何东西,pip install就行。但如果你想正经点,为以后工作做准备,我强烈建议你研究下Milvus或者Weaviate,这俩是开源的,也是工业界用得最多的。你需要理解什么是“向量索引”,比如HNSW,知道它怎么在亿万个向量里帮你光速找到最相似的那几个。 * Prompt工程与生成:这是灵魂。把检索出来的“参考资料”和用户问题,怎么组织成一个高质量的Prompt,喂给大模型(比如GPT-4o或者开源的Qwen2-7B-Instruct),这里面全是学问。你会亲身体会到,为什么有时候模型会“选择性失明”忽略你给的上下文,为什么它会一本正经地胡说八道。 在这个阶段中,你可以用这些资源进行学习,这些都是我个人看过,并进行过去粗取精,化繁为简的。 * 框架:直接看LlamaIndex的官方文档,它的文档写得像教程,从头跟一遍Getting Started,然后重点看Cookbook里的各种实例。 * 模型:一定要多刷Hugging Face。去meta-llama/Llama-3-8B-Instruct或者Qwen/Qwen2-7B-Instruct的模型页面,看他们提供的Prompt模板。 * 向量模型榜单:没事就去Hugging Face的MTEB (Massive Text Embedding Benchmark)榜单上逛逛,看看现在哪个embedding模型在中英文上效果最好。 * 项目资源参考: 构建基于 LLM 的检索增强生成(RAG)系统?(附代码)​mp.weixin.qq.com/s/-f4tKR-qg3LbkOlT6jBTcQ 跑通这个项目,你对大模型的“脾气”就基本摸清了。这个阶段,你的代码可能很烂,但你的认知会发生质变。 第二板斧:核心拆解——把“黑盒”砸开看看里面是什么 当你有了体感,发现RAG有瓶颈了,比如模型的回答风格太死板,或者在某个极度垂直的领域(比如你们公司的祖传代码黑话),RAG给的上下文也救不了它。这时候,你就会自然而然地想:我能不能“改造”一下这个模型? 恭喜你,你已经进入了第二个阶段:拆解。 这个阶段,你才需要回头去啃硬骨头。但别怕,你的目标不是成为数学家,而是理解关键组件的“设计思想”。 * Transformer架构:李沐老师的课是基础。但我想给你推荐一个“神级”资源:Andrej Karpathy的"Let’s build GPT: from scratch"。去YouTube上找,有中文字幕。他会带你用几百行Python代码,从零开始写一个GPT。你看完这个,比你看十篇论文都管用。你会真正“摸到”Self-Attention、Positional Encoding这些东西在代码里长什么样。 * 高效微调(Fine-tuning):别想了,现在没人做全量微调,成本太高。直接学LoRA和QLoRA。这俩是现在给大模型做“微创手术”的标准技术。Hugging Face的PEFT库(Parameter-Efficient Fine-Tuning)把这件事的门槛降到了地板。你找个教程,用你自己的数据(比如几百条你们公司的客服问答对),在Llama-3或者Qwen上跑一次LoRA微调,感受一下模型被你“驯化”的快感。 * 模型评估:你怎么知道微调后的模型比原来好?这是个大问题。除了主观感受,你需要了解一些基础的评估方法,比如针对特定任务的BLEU、ROUGE分数,以及现在更流行的“用更强的模型当裁判”(LLM-as-a-judge)的思路。 * 必看视频:Andrej Karpathy的"Let's build GPT",B站上应该有搬运和翻译。 * 必读论文:《Attention Is All You Need》,这篇是“圣经”,配合Karpathy的视频看,效果拔群。然后是LoRA的论文《LoRA: Low-Rank Adaptation of Large Language Models》。 * 必用工具:Hugging Face的Transformers库、PEFT库、datasets库。他们的文档和教程就是最好的学习材料。 这个阶段,你的目标是把大模型从一个黑盒,变成一个你能看懂、甚至能有限度修改的“白盒”。 第三板斧:工程融合——你的后端经验,才是真正的护城河 这是最关键的一步,也是你甩开90%半路出家的“算法新人”的地方。一个模型跑通了Demo,离一个能扛住真实流量、稳定可靠、还不能太烧钱的“产品”,差了十万八千里。而这十万八千里,全都是你那7年后端经验的用武之地。 * 模型部署与服务化:用Flask简单包一下API?并发一上来就得挂。你必须研究专业的推理服务框架,比如vLLM。它通过PagedAttention和Continuous Batching等技术,能把模型的吞吐量提升一个数量级。还有NVIDIA的TensorRT-LLM,也是大杀器。这些东西的原理,对你这个搞后端的来说,理解起来会比纯算法的人容易得多。 * 成本与性能优化:这才是CEO最关心的。调用一次GPT-4o要花多少钱?用开源模型自己部署,一个请求吃多少显存?QPS能到多少?延迟多少?怎么做智能路由,简单的请求用小模型,复杂的再上大模型?怎么设计缓存策略?这些问题,算法同学可能会挠头,但对你来说,不就是日常工作吗? * LLMOps与系统架构:一个成熟的AI应用,背后是一整套的LLMOps流程。数据处理、模型微调、版本管理、A/B测试、线上监控、效果评估……这不就是我们后端熟悉的CI/CD、灰度发布、监控报警系统换了个“AI的皮”吗?你需要思考的是,怎么把大模型这个不稳定的“新物种”优雅地集成到你现有的微服务架构里。它可能是一个独立的“AI中台”,也可能是一组被Service Mesh管理的gRPC服务。 * 推理框架:vLLM的GitHub和官方文档,必看。 * MLOps/LLMOps:了解一下MLflow或WandB(WandB我个人更喜欢,UI做得好)做实验跟踪。研究一下RAGAS这样的框架,学习如何自动化评估RAG系统的质量。 * 前沿视野:多看看LangGraph这样的库,它代表了从简单的RAG链条到复杂的Agent智能体的演进方向。 基础理论补齐,主流应用工具学明白,自建和微调实际跑几遍,多钻业务场景。工具和资源建议去huggingface,中文社区多发issue和问题,大模型公司github、知乎、公众号常更新,有空多看看官方文档,不懂就翻源码别怕丢人。你手里有7年的工程经验,你懂分布式、懂高并发、懂稳定性、懂成本,目标不用太高,半年左右就能见到成果。 这几个关注度非常火爆的AI学习资源也可以码住,部分是有文本教程 + 视频讲解 + 全套代码,而且配了中文翻译。 盘点几个我看过的,墙裂建议你快速过一次。遇到不懂的知识点可以在进行二刷,三刷回顾。 推上大佬怎么都在学浙大的大模型教程 还得是麻省!用AI做任何事的跨界新课来了 微软爸爸出了一个小白友好的AI Agent课! 生成式AI时代zui值得听的中文课!--李宏毅大佬 齐活儿了!OpenAI、Google、Anthropic 官方的AI教程都在这里了 hugging face出了幼儿级MCP教程---轻松玩转Agent + Tool + 模块组合式 Claude偷偷开了一门free的MCP神课! 说白了,大模型正在从一个“算法问题”变成一个“工程问题”。未来最有价值的,不是那些能提出新算法的科学家(当然他们也很重要),而是能把这些强大的“算法引擎”用好、管好、优化好的AI工程师。