xhs_series (系列) │ └── xhs_ideas (灵感) ──┬── xhs_research (调研) ├── xhs_copies (文案) ├── xhs_images (图片) │ └── xhs_publications (发布) │ └── xhs_evaluations (后评估) 1. 文字识别:OCR 识别 + 字体检测 → 可重新编辑的矢量文字 2. 前景抠图:Segment Anything 类模型做像素级分割 3. 背景重建:用 inpainting 模型"脑补"被遮挡的背景区域 4. 迭代处理:每一层参考上一层结果,保持图层间一致性 布局模板 (Layout) → 风格填充 (Style) → 后处理 (Post-process) → 合成 (Composite) Remotion 启发:代码定义布局 + AI 填充内容 = 可控稳定 + 创意灵活 2. 资产注入法 (Asset Injection) - 二维码、Logo 等关键元素不让 AI 画(会出错) - 直接注入正确的图像资产 - AI 只负责合成与融合 3. 延迟渲染 (Deferred Rendering) - 先用纯文本 Markdown 审核内容 - 确认无误后批量触发低分辨率渲染 - 最后上采样为高分辨率 - 降低试错成本 四、Lovart 的分层爆破技术 这是宝玉提到的关键突破: 问题:NanoBanana 生成的是整张图,无法直接编辑文字。 Lovart 解决方案 - Edit Elements: 1. 上传生成的 PPT 图片 2. 点击「编辑元素」 3. AI 自动对图片进行分层分解(类似 PSD 分层) 4. 每一层都可独立操作: - 拖动位置、旋转缩放 - 替换元素 - 局部重绘 - 直接修改文字 本质:把栅格化图片还原成矢量化的分层结构,实现"指哪改哪"。