## 诊断流程样例
### 输入
- 页面:`https://kefu.bytedance.net/...` 或 `https://bytedance.larkoffice.com/docx/...`
- 复制方式:Computer Use 点击正文区域,执行原生全选复制
- 工作目录:`data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date>/`
### Step 1:捕获剪贴板
```bash
python3 .agents/skills/lark-docx-image-copy/scripts/capture_macos_clipboard.py \
--out-dir data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date> \
--stem 商品审核
```
检查信号:`商品审核_clipboard.txt` 有正文和 `[图片]`,`rich_clipboards/商品审核.rich.html` 有 `<img>`。
### Step 2:一键诊断/构建
```bash
python3 .agents/skills/lark-docx-image-copy/scripts/doctor_lark_docx_image_copy.py \
--input-dir data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date> \
--output data-analysis-workspace/projects/<project>/output/lark_docx_copy_<date>/商品知识库_带图片版.docx \
--strict
```
### 结果判定
| 场景 | 诊断信号 | 下一步 |
|---|---|---|
| 通过 | `[图片]` 数 = HTML 图片数 = 内嵌图片数,外链数为 0 | 交付 docx 和 report |
| 空白 Word | 纯文本字符数过低或无 `[图片]` | 回到页面,点进正文 frame 后重复制 |
| 纯文本丢图 | txt 有正文但 rich HTML 无 `<img>` | 重新捕获 HTML clipboard,不走 `pbpaste` 单独文本 |
| 范围不完整 | `[图片]` 数少于预期或少于 HTML 图片 | 展开/滚动页面后重复制 |
| 外链残留 | `external_image_relationships > 0` | 不直接粘贴到 Word,必须重新 build 内嵌 |
| 依赖缺失 | `ModuleNotFoundError: docx/PIL` | 切换 Codex bundled Python 或安装依赖后重跑 |
### 成功样例
2026-05-08 的四篇商品知识库样本应作为基准:`text_image_markers=1037`、`html_images=1037`、`embedded_images=1037`、`external_image_relationships=0`。