## 诊断流程样例 ### 输入 - 页面:`https://kefu.bytedance.net/...` 或 `https://bytedance.larkoffice.com/docx/...` - 复制方式:Computer Use 点击正文区域,执行原生全选复制 - 工作目录:`data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date>/` ### Step 1:捕获剪贴板 ```bash python3 .agents/skills/lark-docx-image-copy/scripts/capture_macos_clipboard.py \ --out-dir data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date> \ --stem 商品审核 ``` 检查信号:`商品审核_clipboard.txt` 有正文和 `[图片]`,`rich_clipboards/商品审核.rich.html` 有 `<img>`。 ### Step 2:一键诊断/构建 ```bash python3 .agents/skills/lark-docx-image-copy/scripts/doctor_lark_docx_image_copy.py \ --input-dir data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date> \ --output data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date>/商品知识库_带图片版.docx \ --strict ``` ### 结果判定 | 场景 | 诊断信号 | 下一步 | |---|---|---| | 通过 | `[图片]` 数 = HTML 图片数 = 内嵌图片数,外链数为 0 | 交付 docx 和 report | | 空白 Word | 纯文本字符数过低或无 `[图片]` | 回到页面,点进正文 frame 后重复制 | | 纯文本丢图 | txt 有正文但 rich HTML 无 `<img>` | 重新捕获 HTML clipboard,不走 `pbpaste` 单独文本 | | 范围不完整 | `[图片]` 数少于预期或少于 HTML 图片 | 展开/滚动页面后重复制 | | 外链残留 | `external_image_relationships > 0` | 不直接粘贴到 Word,必须重新 build 内嵌 | | 依赖缺失 | `ModuleNotFoundError: docx/PIL` | 切换 Codex bundled Python 或安装依赖后重跑 | ### 成功样例 2026-05-08 的四篇商品知识库样本应作为基准:`text_image_markers=1037`、`html_images=1037`、`embedded_images=1037`、`external_image_relationships=0`。