# 模型部署对比表 |**对比维度**|**方案1: Qwen2.5 0.5B**|**方案2: Qwen2.5 32B + LoRA**| |---|---|---| |**模型规模**|0.5B参数(小型模型)|32B参数(大型模型)| |**量化方式**|GPTQ-INT4量化|AWQ量化| |**微调方式**|无(使用基座模型)|使用LoRA适配器| |**推理框架**|Transformers原生|vLLM(高性能推理引擎)| |**并行策略**|单GPU推理|张量并行(多GPU)| |**GPU内存使用**|低(适合小显存)|高(95%显存利用率)| |**批处理**|逐条处理(BATCH_SIZE=1)|批量处理(vLLM自动批处理)| |**提示词策略**|简单直接的分析提示|复杂的few-shot示例提示| |**输出格式**|直接输出概率值(0-1)|二分类(Yes/No)+ logprobs| |**后处理**|正则提取概率值|Softmax转换logits为概率| |**生成参数**|贪婪解码,5个tokens|受限词汇选择,1个token| |**优化特性**|- 基础缓存<br>- 定期清理显存|- Prefix缓存<br>- 多选择Logits处理器<br>- vLLM优化| |**错误处理**|逐样本try-catch,默认0.0|批量处理,更稳定| |**推理速度**|较慢(逐条处理)|快(批量并行)| |**精度预期**|较低(小模型)|较高(大模型+LoRA微调)| # 主要技术差异 ## 1. **模型选择理念** - **方案1**:轻量级方案,适合资源受限环境 - **方案2**:性能优先方案,利用大模型能力 ## 2. **提示工程** - **方案1**:简单模板,直接要求输出概率 - **方案2**:Few-shot learning,提供正负样例引导 ## 3. **推理优化** - **方案1**:基础优化(截断、缓存清理) - **方案2**:系统级优化(vLLM、张量并行、prefix缓存) ## 4. **输出控制** - **方案1**:自由生成后解析 - **方案2**:约束生成(MultipleChoiceLogitsProcessor) ## 5. **适用场景** - **方案1**:快速原型、资源受限、测试验证 - **方案2**:生产部署、高精度需求、竞赛最优解 这两个方案代表了两种不同的权衡:方案1追求简单高效,方案2追求最佳性能。选择哪个取决于具体的资源限制和精度要求。 # Summary 1. 7b 完整版 + lora 2. 训的时候就用14b awq + lora 就行 - 2025年08月24日17:10:40 MVP版本 Pipeline 构建能力与大局观需要从数据清理到特征、模型搭建、模型融合完整的流程,培养整体观念。 - ![CleanShot 2025-08-24 at [email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_kbXkZkSLik%2F2025%2F08%2F24%2F17-10-54-90f6802bf831ad97d258d8dd1531712f-CleanShot%202025-08-24%20at%2017.10.14-2x-caeefb.png) # Cues [safetensor](safetensor.md) # Notes 在 sync.sh 中 ![CleanShot 2025-08-23 at [email protected]|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fmedia%2Fmedia_cfD7hH7rtz%2F2025%2F08%2F23%2F20-50-32-010e665b915048286ecf4e52fe077396-CleanShot%202025-08-23%20at%2020.50.17-2x-f3c5df.png) ```Java # 传送的目标文件夹 REMOTE_DIR="${REMOTE_DIR:-/root/qwen-training}" # Autodl 中粘贴机器的信息 REMOTE_HOST="${REMOTE_HOST:[email protected]}" REMOTE_PORT="${REMOTE_PORT:-10929}" ``` 跑`bash scripts/autodl_quick.sh` # 机器的设置 ```Java # 开梯子 source /etc/network_turbo # 使用 HuggingFace 镜像 export HF_ENDPOINT=https://hf-mirror.com export HF_HOME=/root/autodl-tmp/cache ``` # 测试个简单任务,看看环境有没有问题 ```Java bash scripts/autodl_quick.sh ``` # 正式跑 ```Java bash scripts/train_autodl.sh ``` ## 确认完成 [[Transformers]]的`trainer_state.json`中确认已经训练完成 ## 导出模型 ```Java - outputs/checkpoint-228/adapter_config.json - outputs/checkpoint-228/adapter_model.safetensors - outputs/checkpoint-228/special_tokens_map.json - outputs/checkpoint-228/tokenizer_config.json ```