xhs_series (系列)
│
└── xhs_ideas (灵感) ──┬── xhs_research (调研)
├── xhs_copies (文案)
├── xhs_images (图片)
│
└── xhs_publications (发布)
│
└── xhs_evaluations (后评估)
1. 文字识别:OCR 识别 + 字体检测 → 可重新编辑的矢量文字
2. 前景抠图:Segment Anything 类模型做像素级分割
3. 背景重建:用 inpainting 模型"脑补"被遮挡的背景区域
4. 迭代处理:每一层参考上一层结果,保持图层间一致性
布局模板 (Layout) → 风格填充 (Style) → 后处理 (Post-process) → 合成 (Composite)
Remotion 启发:代码定义布局 + AI 填充内容 = 可控稳定 + 创意灵活
2. 资产注入法 (Asset Injection)
- 二维码、Logo 等关键元素不让 AI 画(会出错)
- 直接注入正确的图像资产
- AI 只负责合成与融合
3. 延迟渲染 (Deferred Rendering)
- 先用纯文本 Markdown 审核内容
- 确认无误后批量触发低分辨率渲染
- 最后上采样为高分辨率
- 降低试错成本
四、Lovart 的分层爆破技术
这是宝玉提到的关键突破:
问题:NanoBanana 生成的是整张图,无法直接编辑文字。
Lovart 解决方案 - Edit Elements:
1. 上传生成的 PPT 图片
2. 点击「编辑元素」
3. AI 自动对图片进行分层分解(类似 PSD 分层)
4. 每一层都可独立操作:
- 拖动位置、旋转缩放
- 替换元素
- 局部重绘
- 直接修改文字
本质:把栅格化图片还原成矢量化的分层结构,实现"指哪改哪"。