客服知识场景挖掘管线化 - 𓀚 转了码的刘公子

# 客服知识场景挖掘管线化 ## Before / After | 维度 | Before | After | |---|---|---| | 入口 | 看到某篇文档后临时查 CSV、补字段、再手工改 SQLite 脚本 | `python3 scripts/build_product_wiki_doc_scene_sqlite.py --doc-list raw/商品领域SOP参考文档44篇_2026-05-15.csv --output-db analysis/商品wiki文档场景关系_latest.db --version-tag 2026-05-18` | | 口径 | 容易把已产出 skill 数、来源记录数、原文问题场景数混在一起 | contract 文件明确：skill 数、source record 数、dedup 后 scene 数分开统计 | | 字段 | 用户追问后再补 `来源列`、`背景`、`一线/二线文档` | 管线默认输出 `scene_source_column`、`background`、`background_source_type`、`document_level` | | 验收 | 只看脚本跑完或文件存在 | `validate_scene_mining_outputs.py` 校验单篇 123/143、全量 44/1314、SQLite 表和视图完整 | ### 推荐复跑流程 ```bash cd /Users/bytedance/Documents/job-bu/data-analysis-workspace/projects/2026-05-15-客服知识skill化 python3 scripts/build_product_wiki_doc_scene_sqlite.py \ --doc-list raw/商品领域SOP参考文档44篇_2026-05-15.csv \ --output-db analysis/商品wiki文档场景关系_latest.db \ --version-tag 2026-05-18 python3 scripts/validate_scene_mining_outputs.py \ --db analysis/商品wiki文档场景关系_latest.db \ --regression-knowledge-id 7403295431490324518 \ --expect-docs 44 \ --expect-scenes 1314 \ --expect-regression-scenes 123 \ --expect-regression-source-records 143 ``` 成功信号：校验脚本输出 `PASS`，汇总 CSV 中 44 篇文档都有 `document_level`，单篇回归口径仍是 123/143，SQLite 中 `scene_mining_strategy` 能解释每个字段口径。