# Summary
模型量化是**推理优化技术**,目的是加速和省显存,让大模型在更小硬件上跑得动。
量化就是从高精度砍到低精度,假设你要记录一个温度变化曲线:
- **全精度(FP32)**:就像用毫摄氏度单位记录($22.347℃$),细节很全,但文件很大。
- **量化(FP8)**:就像只记录到 $0.1℃$($22.3℃$),文件小很多,但细微变化丢了一点。
- 如果是 **int8 量化**,可能只能记录整数温度($22℃$、$23℃$),精度损失更明显。
|精度等级|位数|显存占用(7B 模型示例)|常见用途|优点|缺点|
|---|---|---|---|---|---|
|**FP32(全精度浮点)**|32 位|~28 GB|模型训练(尤其是初期)、精度要求极高的研究|精度最高、数值稳定性好|显存占用大、速度慢|
|**FP16 / BF16(半精度浮点)**|16 位|~14 GB|训练(混合精度)、高精度推理|显存减半、速度提升、精度损失小|仍占用较多显存|
|**FP8(低精度浮点)**|8 位|~7 GB|大模型推理(H100/A100 优化)、部分训练|显存大幅降低、精度较好|部分硬件/框架支持有限|
|**INT8(8 位整数量化)**|8 位|~7 GB|边缘部署、在线推理、延迟敏感场景|推理速度快、省显存、兼容性高|精度略降|
|**INT4(4 位整数量化)**|4 位|~3.5 GB|极限压缩部署(如显存不足的 GPU)|显存占用极小|精度下降明显,对任务敏感|
|**INT3 / INT2(极限量化)**|3-2 位|~2.6 GB / ~1.75 GB|嵌入式设备、特定研究|显存极低|精度损失严重、泛化差|
|**Binary(二值化)**|1 位|~0.9 GB|超小模型、特定硬件(FPGA/ASIC)|极限压缩、功耗极低|表达能力极弱、仅限特定任务|
# Notes