# Summary # Cues # Notes 生成模型是Decoder-only模型的最典型应用,其遵循的计算方式是next token prediction的方式: ![CleanShot 2025-07-28 at [email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_lSYr0JJT1M%2F2025%2F07%2F28%2F01-23-55-df1f8236432df7ed1059bc894d5659e9-CleanShot%202025-07-28%20at%2001.23.49-2x-5c0283.png) 如图相同颜色代表相同的模型层,1-2-3组成一个transformer模型,总共进行了三次迭代,每次生成一个token。这个过程显式地分为prefill阶段和decode阶段,prefill阶段对prompt(提示词)进行并行处理,decode阶段根据上文推测下文的next token: | 特性 | Prefill 阶段 | Decode 阶段 | |:--- |:--- |:--- | | **任务** | 处理输入Prompt 并生成上下文表示 | 根据上下文逐步生成输出 | | **计算范围** | 对整个输入序列进行一次性全量计算 | 每步只生成一个新 Token | | **依赖关系** | 仅依赖输入序列 | 依赖上下文和之前生成的 Token | | **典型开销** | 与输入长度 n 成正比,复杂度为 O(n²) | 与生成长度 m 成正比,复杂度为 O(m) | | **场景** | 输入上下文建模 | 输出逐步生成 |