# 商品意图PE拆分后的准召验证缺口 ## 商品类目三意图 PE 准召验证样例 ### 输入 | 输入项 | 示例 | |---|---| | gold 标注 | v31 商评领域智能对话明细,包含 `商品类目怎么选`、`商品类目选不了`、`定邀/报白/白名单准入` | | 待测 PE | `adhoc/2026-05-20_商品类目三意图PE/线上商服意图识别PE_0.0.51_商品类目三意图_2026-05-20_v1.md` | | 对照 PE | 拆分前的 `0.0.51_独立新增商品意图skills` | | 负例 | `商品创建-如何上架`、`商品价格的上下限咨询`、`商品管理-商品修改`、`入驻规则查询` | ### 诊断流程 1. 解析 PE 的 `Skill信息`,确认 3 个新意图存在,旧的 `商品类目相关的问题` 不存在。 2. 从 v31 gold 中读取三类全量样本,并加入相邻负例,生成 `eval_input.jsonl`。 3. 调 Ark 对每条样本跑意图识别,保存 `pred_top1`、`pred_top3`、`raw_response` 和解析状态。 4. 计算每个意图的 precision、recall、F1、top3 hit,并生成三类互相混淆矩阵。 5. 抽取失败样本:`怎么选 -> 选不了`、`选不了 -> 定邀报白`、`定邀报白 -> 怎么选`,回写到 PE few-shot 修订清单。 ### 成功信号 | 指标 | 通过标准 | |---|---| | 结构校验 | Skill JSON 100% 可解析 | | 旧意图移除 | `商品类目相关的问题` 不再出现在 Skill 信息中 | | 准召 | 三个新意图 recall 均达到预设阈值,top3 hit 明显高于旧 PE | | 误召 | 相邻负例误召可解释,且不集中落入 `定邀/报白/白名单准入` | ### 失败样例 | case | gold | pred | 处理 | |---|---|---|---| | `水果类目怎么报白` | 定邀/报白/白名单准入 | 商品类目怎么选 | 在优先级规则中强化 `报白/开白/白名单/BD` 覆盖普通类目选择 | | `提示涉及未开放类目怎么办` | 商品类目选不了 | 定邀/报白/白名单准入 | 区分 `未开放/无权限` 与 `定向邀约/名单开放` | | `雪糕选哪类` | 商品类目怎么选 | 商品创建-如何上架 | 补充商品对象 + `选哪类/属于什么类目` 的正例 |