# Summary 我来帮你提取这篇关于系统性学习大模型的关键信息: ## 核心学习方法论:"体感-拆解-融合" ### 第一阶段:建立体感(从用户到产品经理视角) **核心任务**:做一个RAG应用(如公司内部文档问答系统) **技术栈选择**: - **框架**:[[LlamaIndex]] > [[LangChain]](RAG更专注);[[LangGraph]](从RAG到Agent) - **[[向量化模型]]**:OpenAI text-embedding-3-small(性价比高)或 bge-large-zh-v1.5(开源) - **[[向量数据库]]**: - 入门:ChromaDB(本地,pip install即可) - 进阶:[[Milvus]] 或 [[Weaviate]](工业界主流) **重点掌握**: - 文档切片策略(chunks) - 向量索引原理(如[[HNSW]]) - Prompt工程技巧 ### 第二阶段:核心拆解(理解原理) **学习顺序**: 1. **[[Transformer]]架构**: - 先看 Andrej Karpathy 的 "Let's build GPT: from scratch"(YouTube/B站) - 再看李沐的课程 - 最后读论文《Attention Is All You Need》 2. **模型微调**: - 直接学 [[LoRA]] 和 QLoRA(跳过全量微调) - 使用 Hugging Face PEFT 库 - 用公司数据做一次实际微调 1. **[[模型评估]]**: - BLEU、ROUGE 分数 - [[LLM-as-a-judge]] 方法 ### 第三阶段:工程融合(发挥后端优势) **关键技术栈**: - **推理框架**:[[vLLM]](必学)、TensorRT-LLM - **MLOps工具**: - 实验跟踪:[[WandB]] > MLflow - RAG评估:RAGAS框架 ## 学习资源优先级 **必看资源**: 1. [[LlamaIndex]] 官方文档(Getting Started + Cookbook) 2. Hugging Face [[MTEB]] 榜单(了解最新embedding模型) 3. Andrej Karpathy 的 GPT 教程 4. vLLM GitHub 和文档 **学习平台**: - Hugging Face(核心) - 各大模型公司的 GitHub - 知乎、公众号技术更新 ## 关键原则 **要做的**: - 先体验再理论 - 重视工程实践而非纯算法 - 结合实际业务场景 - 利用后端经验优势(分布式、高并发、稳定性、成本控制) **不要做的**: - 不要一开始就啃大量论文 - 不要做全量微调(成本太高) - 不要只停留在Demo阶段 - 不要忽视成本和性能优化 **时间预期**:半年左右可见成果 这个学习路径的核心思想是:工程师不需要成为算法专家,而是要成为能把算法"用好、管好、优化好"的AI工程师。你的后端经验才是真正的护城河。 # Cues # Notes 标题: 如何系统性学习大模型相关知识? 题主7年后端研发经验,软件工程科班,还啃过李沐老师的硬核课程,你不是站在悬崖边上,你是站在风口中央,手里还握着一把最趁手的技能---你的后端经验。 可以说你这个问题,问的非常有代表性。 让我突然感觉就好像到了2014年,那时候我们这些吭哧吭哧写着Java的后端,看着Hadoop、Spark的火苗,开始怀疑人生,焦虑“我的CRUD手艺,会不会被时代的大数据洪水给淹了?” 资本要增长,业务要降本增效,个人要有未来。你说以前大家学Python、学算法,都图个应试,顶多考个P7。现在不一样了,大模型直接让“全员智商增加50分”。普通程序员的差距怎么拉开?这真不是危言耸听。你要是不懂这些原理和落地,慢慢会有种技术“原地踏步”的危机,这种焦虑,我自己2018-2022年期间体会太深了。 历史总是在重复,但又不是简单的重复。当年我就是那个焦虑的开发,眼瞅着身边搞算法的同事薪资一飞冲天,那种感觉,就跟现在你看着大模型新闻刷屏一样。后来心一横,一头扎了进去,从推荐系统到NLP,一路摸爬滚打,踩过的坑、熬过的夜,都能写本书了。 坦白说,绝大多数写后端的同事,其实转大模型相关这步内心是有挣扎的。外部,是AI带飞一切的“行业口号”,职场上各种大模型岗位要价直线上升。内部,则是“我是不是来不及了?”、“会不会学一堆八股文,最后还是写写接口?” 我自己也是边摇摆边转变的。这几年灭了不少“知乎鸡汤”,要我真说,学习路线千万别只看风口,要结合自己的底子去拆,你得搞明白,“不是你得多懂Transformer本身,是你能不能通过它解决实际问题”。 别听外面那些人吹得天花乱坠,也别被几百篇论文吓倒。大模型学习这事儿,对于我们这种工程师出身的人来说,得有自己的一套打法。我给你总结一个我自己的心法,就三个词:“体感-拆解-融合”。 第一板斧:建立体感——从“用户”思维到“上帝”视角 你先别管什么Transformer的内部结构,也别管什么LoRA的数学原理。你第一步要做的,是忘掉自己是个开发者,先当一个大模型应用的“超级用户”和“产品经理”。你的目标是,用最快的速度,建立起对这玩意儿能力边界的体感。 什么叫体感?就是你知道它能干什么、干不好什么、怎么“骗”它干活、以及让它干活要花多少钱。 最直接的路径,就是我之前带团队屡试不爽的一个方法:做一个“给自己用”的RAG应用。RAG(检索增强生成)是目前90%大模型应用的核心骨架,搞懂它,你就搞懂了一大半。 比如,把你们公司所有的技术文档、会议纪要、产品需求文档(PRD)全部扔进去,做一个内部的“万事通”。这个项目虽小,但技术栈是全的: • 文档处理与向量化:别用那些花里胡哨的库,就用LlamaIndex或者LangChain。我个人现在更倾向LlamaIndex,它在RAG这条路上做得更专注,更深入。你需要搞明白怎么把一堆PDF、Markdown文件切成合适的chunks,然后调用OpenAI的text-embedding-3-small(目前性价比最高的选择)或者开源的bge-large-zh-v1.5这类模型,把文本变成向量。 • 向量存储与检索:入门玩玩本地的ChromaDB就行,不用装任何东西,pip install就行。但如果你想正经点,为以后工作做准备,我强烈建议你研究下Milvus或者Weaviate,这俩是开源的,也是工业界用得最多的。你需要理解什么是“向量索引”,比如HNSW,知道它怎么在亿万个向量里帮你光速找到最相似的那几个。 • Prompt工程与生成:这是灵魂。把检索出来的“参考资料”和用户问题,怎么组织成一个高质量的Prompt,喂给大模型(比如GPT-4o或者开源的Qwen2-7B-Instruct),这里面全是学问。你会亲身体会到,为什么有时候模型会“选择性失明”忽略你给的上下文,为什么它会一本正经地胡说八道。 在这个阶段中,你可以用这些资源进行学习,这些都是我个人看过,并进行过去粗取精,化繁为简的。 • 框架:直接看LlamaIndex的官方文档,它的文档写得像教程,从头跟一遍Getting Started,然后重点看Cookbook里的各种实例。 • 模型:一定要多刷Hugging Face。去meta-llama/Llama-3-8B-Instruct或者Qwen/Qwen2-7B-Instruct的模型页面,看他们提供的Prompt模板。 • 向量模型榜单:没事就去Hugging Face的MTEB (Massive Text Embedding Benchmark)榜单上逛逛,看看现在哪个embedding模型在中英文上效果最好。 • 项目资源参考: 构建基于 LLM 的检索增强生成(RAG)系统?(附代码)​mp.weixin.qq.com/s/-f4tKR-qg3LbkOlT6jBTcQ 跑通这个项目,你对大模型的“脾气”就基本摸清了。这个阶段,你的代码可能很烂,但你的认知会发生质变。 第二板斧:核心拆解——把“黑盒”砸开看看里面是什么 当你有了体感,发现RAG有瓶颈了,比如模型的回答风格太死板,或者在某个极度垂直的领域(比如你们公司的祖传代码黑话),RAG给的上下文也救不了它。这时候,你就会自然而然地想:我能不能“改造”一下这个模型? 恭喜你,你已经进入了第二个阶段:拆解。 这个阶段,你才需要回头去啃硬骨头。但别怕,你的目标不是成为数学家,而是理解关键组件的“设计思想”。 • Transformer架构:李沐老师的课是基础。但我想给你推荐一个“神级”资源:Andrej Karpathy的"Let’s build GPT: from scratch"。去YouTube上找,有中文字幕。他会带你用几百行Python代码,从零开始写一个GPT。你看完这个,比你看十篇论文都管用。你会真正“摸到”Self-Attention、Positional Encoding这些东西在代码里长什么样。 • 高效微调(Fine-tuning):别想了,现在没人做全量微调,成本太高。直接学LoRA和QLoRA。这俩是现在给大模型做“微创手术”的标准技术。Hugging Face的PEFT库(Parameter-Efficient Fine-Tuning)把这件事的门槛降到了地板。你找个教程,用你自己的数据(比如几百条你们公司的客服问答对),在Llama-3或者Qwen上跑一次LoRA微调,感受一下模型被你“驯化”的快感。 • 模型评估:你怎么知道微调后的模型比原来好?这是个大问题。除了主观感受,你需要了解一些基础的评估方法,比如针对特定任务的BLEU、ROUGE分数,以及现在更流行的“用更强的模型当裁判”(LLM-as-a-judge)的思路。 • 必看视频:Andrej Karpathy的"Let's build GPT",B站上应该有搬运和翻译。 • 必读论文:《Attention Is All You Need》,这篇是“圣经”,配合Karpathy的视频看,效果拔群。然后是LoRA的论文《LoRA: Low-Rank Adaptation of Large Language Models》。 • 必用工具:Hugging Face的Transformers库、PEFT库、datasets库。他们的文档和教程就是最好的学习材料。 这个阶段,你的目标是把大模型从一个黑盒,变成一个你能看懂、甚至能有限度修改的“白盒”。 第三板斧:工程融合——你的后端经验,才是真正的护城河 这是最关键的一步,也是你甩开90%半路出家的“算法新人”的地方。一个模型跑通了Demo,离一个能扛住真实流量、稳定可靠、还不能太烧钱的“产品”,差了十万八千里。而这十万八千里,全都是你那7年后端经验的用武之地。 • 模型部署与服务化:用Flask简单包一下API?并发一上来就得挂。你必须研究专业的推理服务框架,比如vLLM。它通过PagedAttention和Continuous Batching等技术,能把模型的吞吐量提升一个数量级。还有NVIDIA的TensorRT-LLM,也是大杀器。这些东西的原理,对你这个搞后端的来说,理解起来会比纯算法的人容易得多。 • 成本与性能优化:这才是CEO最关心的。调用一次GPT-4o要花多少钱?用开源模型自己部署,一个请求吃多少显存?QPS能到多少?延迟多少?怎么做智能路由,简单的请求用小模型,复杂的再上大模型?怎么设计缓存策略?这些问题,算法同学可能会挠头,但对你来说,不就是日常工作吗? • LLMOps与系统架构:一个成熟的AI应用,背后是一整套的LLMOps流程。数据处理、模型微调、版本管理、A/B测试、线上监控、效果评估……这不就是我们后端熟悉的CI/CD、灰度发布、监控报警系统换了个“AI的皮”吗?你需要思考的是,怎么把大模型这个不稳定的“新物种”优雅地集成到你现有的微服务架构里。它可能是一个独立的“AI中台”,也可能是一组被Service Mesh管理的gRPC服务。 • 推理框架:vLLM的GitHub和官方文档,必看。 • MLOps/LLMOps:了解一下MLflow或WandB(WandB我个人更喜欢,UI做得好)做实验跟踪。研究一下RAGAS这样的框架,学习如何自动化评估RAG系统的质量。 • 前沿视野:多看看LangGraph这样的库,它代表了从简单的RAG链条到复杂的Agent智能体的演进方向。 基础理论补齐,主流应用工具学明白,自建和微调实际跑几遍,多钻业务场景。工具和资源建议去huggingface,中文社区多发issue和问题,大模型公司github、知乎、公众号常更新,有空多看看官方文档,不懂就翻源码别怕丢人。你手里有7年的工程经验,你懂分布式、懂高并发、懂稳定性、懂成本,目标不用太高,半年左右就能见到成果。 这几个关注度非常火爆的AI学习资源也可以码住,部分是有文本教程 + 视频讲解 + 全套代码,而且配了中文翻译。 盘点几个我看过的,墙裂建议你快速过一次。遇到不懂的知识点可以在进行二刷,三刷回顾。 推上大佬怎么都在学浙大的大模型教程 还得是麻省!用AI做任何事的跨界新课来了 微软爸爸出了一个小白友好的AI Agent课! 生成式AI时代zui值得听的中文课!--李宏毅大佬 齐活儿了!OpenAI、Google、Anthropic 官方的AI教程都在这里了 hugging face出了幼儿级MCP教程---轻松玩转Agent + Tool + 模块组合式 Claude偷偷开了一门free的MCP神课! 说白了,大模型正在从一个“算法问题”变成一个“工程问题”。未来最有价值的,不是那些能提出新算法的科学家(当然他们也很重要),而是能把这些强大的“算法引擎”用好、管好、优化好的AI工程师。