四渡赤水-行程规划 - 🎯转了码的刘公子

# Summary |模块|通俗比喻|作用| |---|---|---| |**MinHash**|找抄袭作业|去除重复帖子| |**PostGIS**|电子地图|存坐标、算距离| |**图数据库**|朋友圈关系网|知道哪些POI常一起玩| |**RAG检索**|图书馆查资料|找相关帖子喂给LLM| |**LLM生成**|旅游规划师|把资料整理成行程| ## 重点knowhow | 数据 | | | -------------- | ------------------------------ | | [[四渡赤水-RAG]] | 检索: 分块、索引策略 | | | 增强：[[四渡赤水-POI共现图谱]] | | | 生成：离线与实时 | | [[四渡赤水-数据抓取]] | 认知单位是 POI，而不是路线。名词和概念是理解信息的抓手 | | [[四渡赤水-数据清洗]] | | | [[四渡赤水-交互]] | 渐进式的信息交互，本质也是在教育和传递给用户信息和目的地知识 | | [[四渡赤水-评估]] | 人类无法分辨陌生地方链表的优劣，交给机器后置评估 | | | | | [[四渡赤水-猜你想问]] | | ## workflow vs React 1. 意图很容易 MECE，就 workflow 2. 意图不容易 MECE，就 reAct ## 处理过程 gpt pro：https://chatgpt.com/s/t_68e38fc2f2388191b69376d8b13dba21 本质是过去这个系统的信息 input 只有干巴巴的路线列表，现在下钻到帖子维度，而且也不需要区分路线贴和 POI 贴了。只有经典贴和新鲜贴 1. [任务型对话](任务型对话.md) 1. [意图识别](意图识别.md)、[对话状态跟踪 DST](对话状态跟踪%20DST.md) 2. 基于[[RAG]]的有特色的动态反问，通过召回的帖子生成一轮三个选择题三种风格方案的反问，然后再根据用户按钮的选择对帖子进行生成，这一轮很关键，是选择题，费力度不会太高，但同时也是通过选项的方式给用户传递目的地的一个大的 context 信息。多选题里不是链表而是风格玩法可以带一点点poi 1. 读帖子→去重→分块→建立索引→检索→行程生成 2. [[四渡赤水-数据清洗]]、帖子时效性标注（例如“首发于 2023-10”） 3. **冷启动与地域覆盖**：热门目的地离线预计算完整；长尾目的地用轻模板 + 在线检索补全。单城市、热门城市的可以离线生成，离线召回；如果是那种用户定制的（比如：我想去北京，必须去xxx景点），这种就得现生成了，我今天看用户问题，感觉定制路线的也不少 4. 多城市的可以实时生成或者跳过这一步骤 3. [[四渡赤水-RAG]]生成文字回答，只有跨城市的才在dayx字样后面标注城市非跨城市的不标注 1. 可[[多路召回]]，比如自驾等需求可直接走关键词搜索召回 2. 以后不再区分路线贴和 POI 贴，只区分旅游贴 vs 非旅游贴，经典贴 vs 新鲜贴 3. 对存量帖子和新鲜帖子的[表征学习](表征学习.md) 4. 和UI商量用下划线还是用彩色字 5. **要把一些注意事项和真诚推荐也总结到结果中** **只是一个链表反应的信息太有限了** 4. 问题推荐，多选题还可以体现在问题推荐里。里面可以说帮我换个xx风格的路线 5. [命名实体识别 NER](命名实体识别%20NER.md)、[[四渡赤水-NER]] 6. [实体链接, 挂靠](实体链接,%20挂靠.md) 7. 如果挂靠 70%+以上 NER，才会给出地图卡片模块 8. 行程管理阶段：用户进入地图自己编辑调整POI 列表和顺序 9. 用户确定出发日期，匹配酒店交通，给出预算价格和便签理由 10. Agentic 阶段以后的规划结果的chat编辑直接让ai硬改严格要求输出json格式就行。前端动态适配。明确好酒店这种tool的边界说清楚无法实现宠物筛选之类的就可以 11. MVP 验证 1. 找到最近所有杭州的问题。用新版本的新方案得到一下评分 12. 背后统计 1. AI 生成的路线的交通费力度和 xhs 路线的水位比较 2. 用户漏斗比例 3. 用户保存的路线 ## 算法角度的理解（可以作为打分和巡检逻辑） [[四渡赤水-评估]] **普通人仅从文字交付很难看出来，哪怕实地去一次也很难感受到，偏向一锤子买卖** > 本质是**带时间窗的 Orienteering/VRPTW**：在每天有限时长内，选择并排序 POI，使总“体验分”最大，满足开放时间、交通与节奏约束。 1. **评分函数（示例）** $\text{score}(p)=w_\text{style}\cdot s_\text{style}(p)+w_\text{pop}\cdot s_\text{pop}(p)+w_\text{fresh}\cdot s_\text{fresh}(p)+w_\text{season}\cdot s_\text{season}(p)-w_\text{crowd}\cdot c(p)$ - **style**：与所选风格的相似度（由文本/标签学到）； - **pop**：热度（去交互水分后）； - **fresh**：内容新鲜度； - **season**：与出行月份/天气兼容度； - **crowd**：拥挤风险或排队时长估计。 2. **候选集裁剪** - 先用 **地理聚类（H3/k-means by 坐标）**，每日选 1~2 个簇，减少跨城穿梭； - 对每簇按 score 排前 k（如 12~15）。 3. **序列求解** - **启发式**：Nearest Insertion / Greedy + **2-opt/3-opt** 微调路顺； - **时间窗**：硬约束（闭馆前必须到）、软约束（午餐 60min、咖啡 45min、步行日总量 $\le$ 12k 步）； - **交通时长**：用路网/打车/地铁 ETA（可用缓存表或第三方 API 估计）； - **回退机制**：若违反任何约束，自动替换为同簇“备选 POI”。 4. **鲁棒性** - 为每个 Day 产出 **Plan A（主线）/Plan B（雨天）/Plan C（人多时）**。 # Notes 1. 一定要最热门的 POI 串起来，不然觉得来亏了 2. 又要多一些本地人视角，让他觉得自己不是简单的打卡而已 ## 十、端到端流程（落地蓝图） - **采集 → 解析 → 归一**（文本清洗、时间/价格规范化、图片 OCR）。 - **多层去重**（MinHash → SimHash → Embedding/pHash）。 - **NER & 实体链接**（候选生成 + cross-encoder 排序，产出 POI_id + 坐标 + 置信度）。 - **知识构建**（POI 主档 + 经验片段索引，打上风格/季节/时段标签）。 - **离线预计算**（目的地×风格模板、ETA/转场表）。 - **在线请求**： - 风格/天数 → **Hybrid 检索**候选片段与 POI； - **Orienteering/VRPTW** 选点与排序（约束校验 + 备选）； - **RAG 生成**（结构化 JSON + 可读文案 + 证据对齐）； - **冲突校验**（闭馆/超时/过长转场）→ 自动替换与再生成。 - **观测与纠错**（日志 + AB 测试 + 人工复核队列）。