# 模型部署对比表
|**对比维度**|**方案1: Qwen2.5 0.5B**|**方案2: Qwen2.5 32B + LoRA**|
|---|---|---|
|**模型规模**|0.5B参数(小型模型)|32B参数(大型模型)|
|**量化方式**|GPTQ-INT4量化|AWQ量化|
|**微调方式**|无(使用基座模型)|使用LoRA适配器|
|**推理框架**|Transformers原生|vLLM(高性能推理引擎)|
|**并行策略**|单GPU推理|张量并行(多GPU)|
|**GPU内存使用**|低(适合小显存)|高(95%显存利用率)|
|**批处理**|逐条处理(BATCH_SIZE=1)|批量处理(vLLM自动批处理)|
|**提示词策略**|简单直接的分析提示|复杂的few-shot示例提示|
|**输出格式**|直接输出概率值(0-1)|二分类(Yes/No)+ logprobs|
|**后处理**|正则提取概率值|Softmax转换logits为概率|
|**生成参数**|贪婪解码,5个tokens|受限词汇选择,1个token|
|**优化特性**|- 基础缓存<br>- 定期清理显存|- Prefix缓存<br>- 多选择Logits处理器<br>- vLLM优化|
|**错误处理**|逐样本try-catch,默认0.0|批量处理,更稳定|
|**推理速度**|较慢(逐条处理)|快(批量并行)|
|**精度预期**|较低(小模型)|较高(大模型+LoRA微调)|
# 主要技术差异
## 1. **模型选择理念**
- **方案1**:轻量级方案,适合资源受限环境
- **方案2**:性能优先方案,利用大模型能力
## 2. **提示工程**
- **方案1**:简单模板,直接要求输出概率
- **方案2**:Few-shot learning,提供正负样例引导
## 3. **推理优化**
- **方案1**:基础优化(截断、缓存清理)
- **方案2**:系统级优化(vLLM、张量并行、prefix缓存)
## 4. **输出控制**
- **方案1**:自由生成后解析
- **方案2**:约束生成(MultipleChoiceLogitsProcessor)
## 5. **适用场景**
- **方案1**:快速原型、资源受限、测试验证
- **方案2**:生产部署、高精度需求、竞赛最优解
这两个方案代表了两种不同的权衡:方案1追求简单高效,方案2追求最佳性能。选择哪个取决于具体的资源限制和精度要求。
# Summary
1. 7b 完整版 + lora
2. 训的时候就用14b awq + lora 就行
- 2025年08月24日17:10:40 MVP版本 Pipeline 构建能力与大局观需要从数据清理到特征、模型搭建、模型融合完整的流程,培养整体观念。
- ![CleanShot 2025-08-24 at
[email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_kbXkZkSLik%2F2025%2F08%2F24%2F17-10-54-90f6802bf831ad97d258d8dd1531712f-CleanShot%202025-08-24%20at%2017.10.14-2x-caeefb.png)
# Cues
[safetensor](safetensor.md)
# Notes
在 sync.sh 中
![CleanShot 2025-08-23 at
[email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_cfD7hH7rtz%2F2025%2F08%2F23%2F20-50-32-010e665b915048286ecf4e52fe077396-CleanShot%202025-08-23%20at%2020.50.17-2x-f3c5df.png)
```Java
# 传送的目标文件夹
REMOTE_DIR="${REMOTE_DIR:-/root/qwen-training}"
# Autodl 中粘贴机器的信息
REMOTE_HOST="${REMOTE_HOST:
[email protected]}"
REMOTE_PORT="${REMOTE_PORT:-10929}"
```
跑`bash scripts/autodl_quick.sh`
# 机器的设置
```Java
# 开梯子
source /etc/network_turbo
# 使用 HuggingFace 镜像
export HF_ENDPOINT=https://hf-mirror.com
export HF_HOME=/root/autodl-tmp/cache
```
# 测试个简单任务,看看环境有没有问题
```Java
bash scripts/autodl_quick.sh
```
# 正式跑
```Java
bash scripts/train_autodl.sh
```
## 确认完成
[[Transformers]]的`trainer_state.json`中确认已经训练完成
## 导出模型
```Java
- outputs/checkpoint-228/adapter_config.json
- outputs/checkpoint-228/adapter_model.safetensors
- outputs/checkpoint-228/special_tokens_map.json
- outputs/checkpoint-228/tokenizer_config.json
```