大模型算法工程师 - 🎯转了码的刘公子

# 🧩 Summary # 💡 Cues # Notes 标题: 大模型方向刚进组，大佬们有没有大模型的学习路线? 下面的可以挑着不会的/急需的看，不懂的术语直接拿取问AI。 ## 一、深度学习基础知识可以看CS231n的课程学习，或者直接看课程笔记 • [[神经网络]]的原理（反向传播具体怎么传的） • 常见的神经网络层/结构：RNN，LSTM，seq2seq范式，encoder2decoder，Bert，Transformer（或者直接看[[Transformer架构]]） • [[激活函数]]（SIGMOD，ReLU，tanh，GELU，Swish，GLU，SwishGLU） • 一些intuitive的东西，比如对齐不同模态一般都是加线性层，信息融合一般就是相加/相乘/concat，attention的原理等等 • 炼丹技巧，比如[[学习率]]warmup和退火，early-stop，数据增强/清洗…… ## 二、nlp基础知识 [[自然语言处理 NLP|NLP]]的发展历程，例如从one-hot编码到word2vec，从统计翻译到神经机器翻译，tokenizer的原理([[BPE]], BBPE)，Bert的预训练任务都有哪些…… 常见的nlp任务都有哪些，损失函数/metric是什么，例如BLEU，ROUGE-L, perplexity ## 三、pytorch基础知识方便看别人的代码 and 自己魔改代码了解torch.nn.Module类的作用，具体如何训练一个神经网络，了解[[PyTorch]]常用函数例如transpose，view，torch矩阵运算以及张量(tensor)运算机制（例如自动扩充维度），训练神经网络的相关api…… ## 四、大模型基础知识【2025.9.8更新】现在大模型相关领域的知识很多很杂，建议先看和组内方向一致的东西，然后了解一些底层原理，不用做到面面俱到（如果可以当然更好）找工作的话以下分类纯属个人观点，如有谬误，请大家多多指出。 • 最底层，[[AI infra]] 例如分布式框架，GPU/CPU资源分配，通信，cuda算子，训练引擎(deepspeed, fsdp, megatron)和推理引擎(vLLM, sglang,...) 的具体原理（3D混合并行 + Sequence Parallel） • 模型预训练：感觉岗位少且赢家通吃（？），预训练要关注模型的架构设计（用什么激活函数，什么优化器，什么注意力机制，什么MOE结构等等），以及数据的收集、去重、去噪等；现在预训练的时候就在逐渐缝模型的推理能力了，所以有Large Reasoning Model的概念 • 模型后训练：各种[[微调]]手段，可以全参，可以微调特定层。今年RL方式微调，agentic model比较火。 • 模型后训练往往和具体业务结合 • 应用层：agent/workflow搭建和工具调用，比较偏prompt engineering 和软工，需要掌握如何写function call or MCP, 如何使用RAG等。不过一些框架例如dify，coze，n8n可以低代码甚至无代码搭建项目。 • p.s. 目前的context engineering概念个人觉得处于agent开发和后训练的中间层。两边都沾一点 ### 4.1 常见LLM的模型结构 • 整体架构上 • encoder2decoder（T5，FLAN） • [[decoder-only]]（绝大多数） • prefix-decoder（chatGLM） •[[正则化]] pre-norm or post-norm 比较，现在LLM其实还是pre-norm主流 • attention层（MHA, GQA, MQA, MLA)魔改注意力的特别多，可以挑研究方向有关的看，工程实现上看看[[FlashAttention]]，PageAttention，RadixAttention这些 • [[KV-cache]] • FFN层是否有MOE • 激活函数 • [[Positional Encoding 位置编码]]（推荐看苏神（苏剑林）博客），主要看ROPE • [[优化器 optimizer]]（Adam，AdamW，Muon）建议多看一些技术报告，比如kimi k2, qwen2.5, qwen3, deepseek(v2, v3, math, MOE), gemini2.5 ### 4.2 LLM的训练方法/流程 ### 预训练阶段 • 感觉主要看[[数据清洗]]吧（雾），什么[[minHash]]啥的，模型结构的设计似乎比较收敛了（？） • 同样也是看技术报告学，看到什么名词不知道就去查 ### [[后训练 post training]]/fine-tune阶段 • [[RLHF]]方法以及nlp领域的强化学习相关知识（RLHF-PPO，DPO，RLOO，GRPO，Dr.GRPO, ReMax, DAPO, GRPO pass@k, GSPO, ARPO, Decoupled PPO...） • finetune的方法：prefix-tuning，p-tuning（前面这俩好像不常见了），adapter，[[LoRA]], GaLore 【9.8】着重更新agentic 模型训练，建议还是看agentic RL综述。具体的话，阿里的webAgent系列论文，kimi-researcher技术报告(这个不详细)， ### 4.3 LLM decoding [[transformers]]库的generate函数的所有参数的作用（了解了就知道推理的各种方法了，什么温度，重复性惩罚，top-k, top-p, beam_search, group_beam_search, 避免n-gram重复） LLM可以处理长文本的原理： speculative decoding，Eagle，HASS 《A Thorough Examination of Decoding Methods in the Era of LLMs》 LLM planning or reasoning方法：思维链/树相关：CoT，ToT，GoT，MCTS，…… ensemble相关：self-consistency, Parallel Scaling, …… LLM的蒸馏/[[模型量化]]/剪枝相关论文没有看太多，可直接问AI让他给目录，蒸馏的话相当一部分内容和深度学习蒸馏重合。 Agent相关 agent框架 or 提示词框架：[[ReAct]]，Reflexion，DEPS，TextGrad，DsPy，AutoGPT, AutoManual…… • 其实这些框架总结来讲就是： • 良好的提示词结构 or 可以自我优化的提示词结构 • 适当的工作流部署（显示指定 or 隐藏在提示词里 or 可以自我寻找） • 保存经验的skill library（以及长短期记忆等，例如MemGPT） • 可以使用的外部工具以及良好的tooluse能力 RAG RAG的工作流，收集数据——分块——建立索引——retrieve——进行生成参考教程：https://github.com/langchain-ai/rag-from-scratch RAG框架：很多，但笔者没怎么用过（） LLM场景应用 1. Deep research 2. ToolUse（如何让llm学会使用外部工具？） 3. MCP（model context protocol） 4. 斯坦福小镇（多智能体系统） 5. LLM4Science（不是交叉方向就不用看了） 6. 还有很多细分场景，例如代码生成，web agent，标书/文书写作，…… LLM训练框架 [[LLaMAFactory]], trl, openrlhf, unsloth, VeOmni, veRL, ROLL, AReaL,... 了解推理引擎及其原理：[[vLLM]]，SGLang 了解训练引擎及其原理：fsdp，Magatron，deepspeed 了解本地大模型部署：fastapi，ollama……（可以试试自己部署一下）