# Summary
# Cues
[[推理框架]]
# Notes
## **大语言模型推理参数速查表**
|参数名称|英文全称|类型|作用|你的设置|
|---|---|---|---|---|
|**`MAX_LENGTH`**|Maximum Length|长度限制|限定 **输入和输出的总Token数**。|`2048`|
|**`MAX_NEW_TOKENS`**|Maximum New Tokens|长度限制|限定模型新生成的Token数量,比 `MAX_LENGTH` 更直观。|`10` / `5`|
|**`TEMPERATURE`**|Temperature|解码策略|控制生成文本的**随机性和创造性**。值越低,结果越保守确定。|`0.7` / `1.0`|
|**`TOP_P`**|Top P Sampling|解码策略|根据累积概率**截断**可能的Token,排除低概率选项,增加多样性。|`0.9`|
|**`BATCH_SIZE`**|Batch Size|性能优化|**并行处理**的输入样本数量。越大吞吐量越高,但可能增加单次延迟。|`1`|
|**`do_sample`**|Do Sampling|解码策略|**开关**。`True` 启用随机采样,`False` 启用确定性的贪婪解码。|`False`|
|**`num_beams`**|Number of Beams|解码策略|**束搜索**的宽度。`num_beams=1` 等同于贪婪解码。|`1`|
|**`use_cache`**|Use Cache|性能优化|**开关**。`True` 启用键值对缓存,**显著加速**长文本生成。|`True`|
|**`pad_token_id`**|Pad Token ID|特殊标记|填充(padding)Token的ID,用于对齐批处理中的不同长度输入。|`tokenizer.pad_token_id`|
|**`eos_token_id`**|End of Sequence Token ID|特殊标记|序列结束Token的ID,模型生成该Token时会停止。|`tokenizer.eos_token_id`|