# 🧩 Summary # 💡 Cues # Notes 标题: 大模型方向刚进组,大佬们有没有大模型的学习路线? 下面的可以挑着不会的/急需的看,不懂的术语直接拿取问AI。 ## 一、深度学习基础知识 可以看CS231n的课程学习,或者直接看课程笔记 • [[神经网络]]的原理(反向传播具体怎么传的) • 常见的神经网络层/结构:RNN,LSTM,seq2seq范式,encoder2decoder,Bert,Transformer(或者直接看[[Transformer架构]]) • [[激活函数]](SIGMOD,ReLU,tanh,GELU,Swish,GLU,SwishGLU) • 一些intuitive的东西,比如对齐不同模态一般都是加线性层,信息融合一般就是相加/相乘/concat,attention的原理等等 • 炼丹技巧,比如[[学习率]]warmup和退火,early-stop,数据增强/清洗…… ## 二、nlp基础知识 [[自然语言处理 NLP|NLP]]的发展历程,例如从one-hot编码到word2vec,从统计翻译到神经机器翻译,tokenizer的原理([[BPE]], BBPE),Bert的预训练任务都有哪些…… 常见的nlp任务都有哪些,损失函数/metric是什么,例如BLEU,ROUGE-L, perplexity ## 三、pytorch基础知识 方便看别人的代码 and 自己魔改代码 了解torch.nn.Module类的作用,具体如何训练一个神经网络,了解[[PyTorch]]常用函数例如transpose,view,torch矩阵运算以及张量(tensor)运算机制(例如自动扩充维度),训练神经网络的相关api…… ## 四、大模型基础知识 【2025.9.8更新】 现在大模型相关领域的知识很多很杂,建议先看和组内方向一致的东西,然后了解一些底层原理,不用做到面面俱到(如果可以当然更好)找工作的话以下分类纯属个人观点,如有谬误,请大家多多指出。 • 最底层,[[AI infra]] 例如分布式框架,GPU/CPU资源分配,通信,cuda算子,训练引擎(deepspeed, fsdp, megatron)和推理引擎(vLLM, sglang,...) 的具体原理(3D混合并行 + Sequence Parallel) • 模型预训练:感觉岗位少且赢家通吃(?),预训练要关注模型的架构设计(用什么激活函数,什么优化器,什么注意力机制,什么MOE结构等等),以及数据的收集、去重、去噪等;现在预训练的时候就在逐渐缝模型的推理能力了,所以有Large Reasoning Model的概念 • 模型后训练:各种[[微调]]手段,可以全参,可以微调特定层。今年RL方式微调,agentic model比较火。 • 模型后训练往往和具体业务结合 • 应用层:agent/workflow搭建和工具调用,比较偏prompt engineering 和 软工,需要掌握如何写function call or MCP, 如何使用RAG等。不过一些框架例如dify,coze,n8n可以低代码甚至无代码搭建项目。 • p.s. 目前的context engineering概念个人觉得处于agent开发和后训练的中间层。两边都沾一点 ### 4.1 常见LLM的模型结构 • 整体架构上 • encoder2decoder(T5,FLAN) • [[decoder-only]](绝大多数) • prefix-decoder(chatGLM) •[[正则化]] pre-norm or post-norm 比较,现在LLM其实还是pre-norm主流 • attention层(MHA, GQA, MQA, MLA)魔改注意力的特别多,可以挑研究方向有关的看,工程实现上看看[[FlashAttention]],PageAttention,RadixAttention这些 • [[KV-cache]] • FFN层是否有MOE • 激活函数 • [[Positional Encoding 位置编码]](推荐看苏神(苏剑林)博客),主要看ROPE • [[优化器 optimizer]](Adam,AdamW,Muon) 建议多看一些技术报告,比如kimi k2, qwen2.5, qwen3, deepseek(v2, v3, math, MOE), gemini2.5 ### 4.2 LLM的训练方法/流程 ### 预训练阶段 • 感觉主要看[[数据清洗]]吧(雾),什么[[minHash]]啥的,模型结构的设计似乎比较收敛了(?) • 同样也是看技术报告学,看到什么名词不知道就去查 ### [[后训练 post training]]/fine-tune阶段 • [[RLHF]]方法以及nlp领域的强化学习相关知识(RLHF-PPO,DPO,RLOO,GRPO,Dr.GRPO, ReMax, DAPO, GRPO pass@k, GSPO, ARPO, Decoupled PPO...) • finetune的方法:prefix-tuning,p-tuning(前面这俩好像不常见了),adapter,[[LoRA]], GaLore 【9.8】着重更新agentic 模型训练,建议还是看agentic RL综述。具体的话,阿里的webAgent系列论文,kimi-researcher技术报告(这个不详细), ### 4.3 LLM decoding [[transformers]]库的generate函数的所有参数的作用(了解了就知道推理的各种方法了,什么温度,重复性惩罚,top-k, top-p, beam_search, group_beam_search, 避免n-gram重复) LLM可以处理长文本的原理: speculative decoding,Eagle,HASS 《A Thorough Examination of Decoding Methods in the Era of LLMs》 LLM planning or reasoning方法: 思维链/树相关:CoT,ToT,GoT,MCTS,…… ensemble相关:self-consistency, Parallel Scaling, …… LLM的蒸馏/[[模型量化]]/剪枝 相关论文没有看太多,可直接问AI让他给目录,蒸馏的话相当一部分内容和深度学习蒸馏重合。 Agent相关 agent框架 or 提示词框架:[[ReAct]],Reflexion,DEPS,TextGrad,DsPy,AutoGPT, AutoManual…… • 其实这些框架总结来讲就是: • 良好的提示词结构 or 可以自我优化的提示词结构 • 适当的工作流部署(显示指定 or 隐藏在提示词里 or 可以自我寻找) • 保存经验的skill library(以及长短期记忆等,例如MemGPT) • 可以使用的外部工具以及良好的tooluse能力 RAG RAG的工作流,收集数据——分块——建立索引——retrieve——进行生成 参考教程:https://github.com/langchain-ai/rag-from-scratch RAG框架:很多,但笔者没怎么用过() LLM场景应用 1. Deep research 2. ToolUse(如何让llm学会使用外部工具?) 3. MCP(model context protocol) 4. 斯坦福小镇(多智能体系统) 5. LLM4Science(不是交叉方向就不用看了) 6. 还有很多细分场景,例如代码生成,web agent,标书/文书写作,…… LLM训练框架 [[LLaMAFactory]], trl, openrlhf, unsloth, VeOmni, veRL, ROLL, AReaL,... 了解推理引擎及其原理:[[vLLM]],SGLang 了解训练引擎及其原理:fsdp,Magatron,deepspeed 了解本地大模型部署:fastapi,ollama……(可以试试自己部署一下)