大模型推理 - 🎯转了码的刘公子

# Summary # Cues [[推理框架]] # Notes ## **大语言模型推理参数速查表** |参数名称|英文全称|类型|作用|你的设置| |---|---|---|---|---| |**`MAX_LENGTH`**|Maximum Length|长度限制|限定 **输入和输出的总Token数**。|`2048`| |**`MAX_NEW_TOKENS`**|Maximum New Tokens|长度限制|限定模型新生成的Token数量，比 `MAX_LENGTH` 更直观。|`10` / `5`| |**`TEMPERATURE`**|Temperature|解码策略|控制生成文本的**随机性和创造性**。值越低，结果越保守确定。|`0.7` / `1.0`| |**`TOP_P`**|Top P Sampling|解码策略|根据累积概率**截断**可能的Token，排除低概率选项，增加多样性。|`0.9`| |**`BATCH_SIZE`**|Batch Size|性能优化|**并行处理**的输入样本数量。越大吞吐量越高，但可能增加单次延迟。|`1`| |**`do_sample`**|Do Sampling|解码策略|**开关**。`True` 启用随机采样，`False` 启用确定性的贪婪解码。|`False`| |**`num_beams`**|Number of Beams|解码策略|**束搜索**的宽度。`num_beams=1` 等同于贪婪解码。|`1`| |**`use_cache`**|Use Cache|性能优化|**开关**。`True` 启用键值对缓存，**显著加速**长文本生成。|`True`| |**`pad_token_id`**|Pad Token ID|特殊标记|填充（padding）Token的ID，用于对齐批处理中的不同长度输入。|`tokenizer.pad_token_id`| |**`eos_token_id`**|End of Sequence Token ID|特殊标记|序列结束Token的ID，模型生成该Token时会停止。|`tokenizer.eos_token_id`|