# 客服知识场景挖掘管线化
## Before / After
| 维度 | Before | After |
|---|---|---|
| 入口 | 看到某篇文档后临时查 CSV、补字段、再手工改 SQLite 脚本 | `python3 scripts/build_product_wiki_doc_scene_sqlite.py --doc-list raw/商品领域SOP参考文档44篇_2026-05-15.csv --output-db analysis/商品wiki文档场景关系_latest.db --version-tag 2026-05-18` |
| 口径 | 容易把已产出 skill 数、来源记录数、原文问题场景数混在一起 | contract 文件明确:skill 数、source record 数、dedup 后 scene 数分开统计 |
| 字段 | 用户追问后再补 `来源列`、`背景`、`一线/二线文档` | 管线默认输出 `scene_source_column`、`background`、`background_source_type`、`document_level` |
| 验收 | 只看脚本跑完或文件存在 | `validate_scene_mining_outputs.py` 校验单篇 123/143、全量 44/1314、SQLite 表和视图完整 |
### 推荐复跑流程
```bash
cd /Users/bytedance/Documents/job-bu/data-analysis-workspace/projects/2026-05-15-客服知识skill化
python3 scripts/build_product_wiki_doc_scene_sqlite.py \
--doc-list raw/商品领域SOP参考文档44篇_2026-05-15.csv \
--output-db analysis/商品wiki文档场景关系_latest.db \
--version-tag 2026-05-18
python3 scripts/validate_scene_mining_outputs.py \
--db analysis/商品wiki文档场景关系_latest.db \
--regression-knowledge-id 7403295431490324518 \
--expect-docs 44 \
--expect-scenes 1314 \
--expect-regression-scenes 123 \
--expect-regression-source-records 143
```
成功信号:校验脚本输出 `PASS`,汇总 CSV 中 44 篇文档都有 `document_level`,单篇回归口径仍是 123/143,SQLite 中 `scene_mining_strategy` 能解释每个字段口径。