# Summary # Cues # Notes # 小红书 AI 技术体系 ## 基础模型 | 类别 | 技术方向 | | ---- | -------- | | 文本大模型 | 文本理解与生成 | | 多模态理解大模型 | 图文/视频/语音等跨模态 | | 全模态统一大模型 | 融合多模态的统一表示 | | 音频识别/生成大模型 | 语音识别、语音合成 | | 图像生成&编辑大模型 | 图像生成、图像编辑 | | 多语言翻译大模型 | 国际化场景翻译 | | 全双工语音交互对话 | 实时语音交互 | --- ## 内容理解 & 创作 | 类别 | 技术方向 | | ------------------ | --------- | | 跨场景统一[[表征学习]] & 标签 | 数据统一表示 | | 多模态模型的自动对齐 | 不同模态对齐 | | 跨模态深度表征学习 | 表征学习 | | 行为序列 & 图建模 | 用户行为理解 | | 大模型理解复杂社交互动与兴趣迁移 | 社交关系、兴趣流转 | | 视频剪辑 Agent | 视频智能化编辑 | | 创作风格迁移 & 个性化 | 个性化内容生成 | | 素材生成与多模态编辑 | 素材自动生成 | --- ## 信息分发场景 | 类别 | 技术方向 | | ---- | -------- | | 跨场景&跨业务 OneModel | 通用模型支撑不同业务 | | 流量机制设计与多边博弈 | 流量分配与博弈机制 | | 生成式推荐/搜索架构 | 个性化推荐、搜索 | | 基于多模态和个性化的 RAG+Agent(AI搜索)| 检索增强生成 | | 冷启的行为&内容表征平滑过渡学习 | 冷启动优化 | | 参数&序列 Scaling Up | 模型扩展能力 | --- ## 社区守护 | 类别 | 技术方向 | | ---- | -------- | | AIGC 内容检测 | 内容安全 | | VLM reasoning & 多模态生成式判别 | 模型判别能力 | | 变体攻防体系 | 对抗性防御 | | 大语言模型高效 scaling | 提升训练推理效率 | | AI 模型分布式推理系统 | 推理系统架构 | | 自然语言查询与智能 BI | 商业智能 | | AI 基础架构与设施 | 底层算力与平台 | --- ## AI Infra | 类别 | 技术方向 | | ---- | -------- | | 大语言模型高效 scaling | 扩展与优化 | | AI 模型分布式推理系统 | 分布式推理 | | 自然语言查询与智能 BI | 商业智能 | | AI 基础架构与设施 | 算力 & 平台 |