# 飞书知识库带图复制流水线
候选 ID:`lark-docx-image-pipeline`
## 诊断流程样例
### 场景
要把 4 篇飞书知识库文章复制成一个带图片的 Word,不允许用浏览器扩展导出,必须通过 Computer Use 在页面里原生复制。
### 输入
```json
{
"pages": [
{"title": "商品创建", "url": "https://...", "expected_section": "创建"},
{"title": "商品审核", "url": "https://...", "expected_section": "审核"}
],
"copy_artifacts_dir": "tmp/lark_native_copy",
"docx_path": "output/商品知识库_带图片版.docx"
}
```
### 检查步骤
1. 用 Computer Use 打开飞书页面,选择正文区域,执行页面原生复制,保存 HTML/RTF 剪贴板产物。
2. 检查每篇复制产物的正文长度和标题命中;如果正文长度为 0,直接失败为 `empty_copy`。
3. 从 HTML/RTF 中统计图片占位和图片 URL,下载图片并记录章节归属。
4. 生成 `.docx`,再解包检查 `word/media/*`、`word/_rels/document.xml.rels` 和外链关系。
5. 输出校验报告:每篇正文长度、图片占位数、已嵌入图片数、外链图片数、失败原因。
### 成功信号
- 复制正文非空,章节标题齐全。
- 图片占位数 = docx 内嵌图片数。
- 外链图片数 = 0。
- `.docx` 可以作为 zip 解包,核心 XML 和 media 文件存在。
### 失败样例
```text
status: fail
reason: image_missing
page: 商品审核
expected_images: 660
embedded_images: 642
external_images: 18
next_action: 重新通过页面原生复制获取图片 URL,避免插件导出路径。
```
### 建议落地
把这个流程封装成一个 workspace skill:`lark-docx-image-copy`。每次用户说“飞书知识库复制成 Word、图片要能看见、不要用插件”时,默认进入这个诊断流程,而不是先尝试通用网页抓取。