飞书知识库带图复制流水线 - 𓀚 转了码的刘公子

# 飞书知识库带图复制流水线候选 ID：`lark-docx-image-pipeline` ## 诊断流程样例 ### 场景要把 4 篇飞书知识库文章复制成一个带图片的 Word，不允许用浏览器扩展导出，必须通过 Computer Use 在页面里原生复制。 ### 输入 ```json { "pages": [ {"title": "商品创建", "url": "https://...", "expected_section": "创建"}, {"title": "商品审核", "url": "https://...", "expected_section": "审核"} ], "copy_artifacts_dir": "tmp/lark_native_copy", "docx_path": "output/商品知识库_带图片版.docx" } ``` ### 检查步骤 1. 用 Computer Use 打开飞书页面，选择正文区域，执行页面原生复制，保存 HTML/RTF 剪贴板产物。 2. 检查每篇复制产物的正文长度和标题命中；如果正文长度为 0，直接失败为 `empty_copy`。 3. 从 HTML/RTF 中统计图片占位和图片 URL，下载图片并记录章节归属。 4. 生成 `.docx`，再解包检查 `word/media/*`、`word/_rels/document.xml.rels` 和外链关系。 5. 输出校验报告：每篇正文长度、图片占位数、已嵌入图片数、外链图片数、失败原因。 ### 成功信号 - 复制正文非空，章节标题齐全。 - 图片占位数 = docx 内嵌图片数。 - 外链图片数 = 0。 - `.docx` 可以作为 zip 解包，核心 XML 和 media 文件存在。 ### 失败样例 ```text status: fail reason: image_missing page: 商品审核 expected_images: 660 embedded_images: 642 external_images: 18 next_action: 重新通过页面原生复制获取图片 URL，避免插件导出路径。 ``` ### 建议落地把这个流程封装成一个 workspace skill：`lark-docx-image-copy`。每次用户说“飞书知识库复制成 Word、图片要能看见、不要用插件”时，默认进入这个诊断流程，而不是先尝试通用网页抓取。