# 🧩 Summary
# 💡 Cues
# Notes
标题: 大模型方向刚进组,大佬们有没有大模型的学习路线?
下面的可以挑着不会的/急需的看,不懂的术语直接拿取问AI。
## 一、深度学习基础知识
可以看CS231n的课程学习,或者直接看课程笔记
• [[神经网络]]的原理(反向传播具体怎么传的)
• 常见的神经网络层/结构:RNN,LSTM,seq2seq范式,encoder2decoder,Bert,Transformer(或者直接看[[Transformer架构]])
• [[激活函数]](SIGMOD,ReLU,tanh,GELU,Swish,GLU,SwishGLU)
• 一些intuitive的东西,比如对齐不同模态一般都是加线性层,信息融合一般就是相加/相乘/concat,attention的原理等等
• 炼丹技巧,比如[[学习率]]warmup和退火,early-stop,数据增强/清洗……
## 二、nlp基础知识
[[自然语言处理 NLP|NLP]]的发展历程,例如从one-hot编码到word2vec,从统计翻译到神经机器翻译,tokenizer的原理([[BPE]], BBPE),Bert的预训练任务都有哪些……
常见的nlp任务都有哪些,损失函数/metric是什么,例如BLEU,ROUGE-L, perplexity
## 三、pytorch基础知识
方便看别人的代码 and 自己魔改代码
了解torch.nn.Module类的作用,具体如何训练一个神经网络,了解[[PyTorch]]常用函数例如transpose,view,torch矩阵运算以及张量(tensor)运算机制(例如自动扩充维度),训练神经网络的相关api……
## 四、大模型基础知识
【2025.9.8更新】
现在大模型相关领域的知识很多很杂,建议先看和组内方向一致的东西,然后了解一些底层原理,不用做到面面俱到(如果可以当然更好)找工作的话以下分类纯属个人观点,如有谬误,请大家多多指出。
• 最底层,[[AI infra]] 例如分布式框架,GPU/CPU资源分配,通信,cuda算子,训练引擎(deepspeed, fsdp, megatron)和推理引擎(vLLM, sglang,...) 的具体原理(3D混合并行 + Sequence Parallel)
• 模型预训练:感觉岗位少且赢家通吃(?),预训练要关注模型的架构设计(用什么激活函数,什么优化器,什么注意力机制,什么MOE结构等等),以及数据的收集、去重、去噪等;现在预训练的时候就在逐渐缝模型的推理能力了,所以有Large Reasoning Model的概念
• 模型后训练:各种[[微调]]手段,可以全参,可以微调特定层。今年RL方式微调,agentic model比较火。
• 模型后训练往往和具体业务结合
• 应用层:agent/workflow搭建和工具调用,比较偏prompt engineering 和 软工,需要掌握如何写function call or MCP, 如何使用RAG等。不过一些框架例如dify,coze,n8n可以低代码甚至无代码搭建项目。
• p.s. 目前的context engineering概念个人觉得处于agent开发和后训练的中间层。两边都沾一点
### 4.1 常见LLM的模型结构
• 整体架构上
• encoder2decoder(T5,FLAN)
• [[decoder-only]](绝大多数)
• prefix-decoder(chatGLM)
•[[正则化]] pre-norm or post-norm 比较,现在LLM其实还是pre-norm主流
• attention层(MHA, GQA, MQA, MLA)魔改注意力的特别多,可以挑研究方向有关的看,工程实现上看看[[FlashAttention]],PageAttention,RadixAttention这些
• [[KV-cache]]
• FFN层是否有MOE
• 激活函数
• [[Positional Encoding 位置编码]](推荐看苏神(苏剑林)博客),主要看ROPE
• [[优化器 optimizer]](Adam,AdamW,Muon)
建议多看一些技术报告,比如kimi k2, qwen2.5, qwen3, deepseek(v2, v3, math, MOE), gemini2.5
### 4.2 LLM的训练方法/流程
### 预训练阶段
• 感觉主要看[[数据清洗]]吧(雾),什么[[minHash]]啥的,模型结构的设计似乎比较收敛了(?)
• 同样也是看技术报告学,看到什么名词不知道就去查
### [[后训练 post training]]/fine-tune阶段
• [[RLHF]]方法以及nlp领域的强化学习相关知识(RLHF-PPO,DPO,RLOO,GRPO,Dr.GRPO, ReMax, DAPO, GRPO pass@k, GSPO, ARPO, Decoupled PPO...)
• finetune的方法:prefix-tuning,p-tuning(前面这俩好像不常见了),adapter,[[LoRA]], GaLore
【9.8】着重更新agentic 模型训练,建议还是看agentic RL综述。具体的话,阿里的webAgent系列论文,kimi-researcher技术报告(这个不详细),
### 4.3 LLM decoding
[[transformers]]库的generate函数的所有参数的作用(了解了就知道推理的各种方法了,什么温度,重复性惩罚,top-k, top-p, beam_search, group_beam_search, 避免n-gram重复)
LLM可以处理长文本的原理:
speculative decoding,Eagle,HASS
《A Thorough Examination of Decoding Methods in the Era of LLMs》
LLM planning or reasoning方法:
思维链/树相关:CoT,ToT,GoT,MCTS,……
ensemble相关:self-consistency, Parallel Scaling, ……
LLM的蒸馏/[[模型量化]]/剪枝
相关论文没有看太多,可直接问AI让他给目录,蒸馏的话相当一部分内容和深度学习蒸馏重合。
Agent相关
agent框架 or 提示词框架:[[ReAct]],Reflexion,DEPS,TextGrad,DsPy,AutoGPT, AutoManual……
• 其实这些框架总结来讲就是:
• 良好的提示词结构 or 可以自我优化的提示词结构
• 适当的工作流部署(显示指定 or 隐藏在提示词里 or 可以自我寻找)
• 保存经验的skill library(以及长短期记忆等,例如MemGPT)
• 可以使用的外部工具以及良好的tooluse能力
RAG
RAG的工作流,收集数据——分块——建立索引——retrieve——进行生成
参考教程:https://github.com/langchain-ai/rag-from-scratch
RAG框架:很多,但笔者没怎么用过()
LLM场景应用
1. Deep research
2. ToolUse(如何让llm学会使用外部工具?)
3. MCP(model context protocol)
4. 斯坦福小镇(多智能体系统)
5. LLM4Science(不是交叉方向就不用看了)
6. 还有很多细分场景,例如代码生成,web agent,标书/文书写作,……
LLM训练框架
[[LLaMAFactory]], trl, openrlhf, unsloth, VeOmni, veRL, ROLL, AReaL,...
了解推理引擎及其原理:[[vLLM]],SGLang
了解训练引擎及其原理:fsdp,Magatron,deepspeed
了解本地大模型部署:fastapi,ollama……(可以试试自己部署一下)