# Summary # Cues # Notes ## 1 | 什么是 MDP(Markov Decision Process) |记号|含义|在行程规划里的类比| |---|---|---| |**S**|状态集合|你当前在哪个景点、还有多少时间/预算| |**A**|动作集合|下一步去哪、选哪种交通| |**P(s′\|s,a)**|状态转移概率|从 A 景点坐地铁到 B 景点的概率| |**R(s,a)**|奖励函数|到达后游客的满意度 – 路上花费| |**γ**|折扣因子 (0 ‑ 1)|越远期的收益越“打折”| > **一句话**:MDP 用 5‑元组 ⟨S,A,P,R,γ⟩ 把“在不确定环境中连环决策”形式化,强调 **马尔可夫性**——未来只依赖于当前状态和动作,而与更早历史无关。 --- ## 2 | Q‑learning 的核心思想 |概念|说明| |---|---| |**Q(s,a)**|“在状态 s 选择动作 a 后能拿到的长期期望奖励”| |**更新公式**|`Q ← Q + α [r + γ·maxₐ′Q(s′,a′) – Q]`| |**特点**|- **离线学环境**:不需要事先知道 P、R- **表格 or 深网**:小空间用数组,大空间用 DQN 等深度网络- **ε‑贪婪**:训练期随机探索 vs 利用现有最优| > **一句话**:Q‑learning 反复用“**当前估值** 与 **目标 r+γ·maxQ** 的差”做迭代逼近,最终让 Q 收敛到最优价值函数 Q*. 动作策略就是在每个状态选 `arg maxₐ Q(s,a)`。 --- ## 3 | 把它们放到 OTA 行程规划里的示例 1. **状态 s** = 当前已安排的景点序列 + 剩余时间/预算。 2. **动作 a** = 从候选 POI 列表里选下一个景点。 3. **即时奖励 r** = `景点评分 – 路程时间 – 票价`(或更复杂加权)。 4. 代理人用 **Q‑learning** 学会: - 若剩 2 小时就别选离得远的景点(Q 低); - 对“热门但拥挤”的 POI 会平衡价值与排队时间。 5. 训练好后,系统在实际搜索请求里直接按 **max Q** 生成完整路线。 --- ## 4 | 为什么常把二者配合使用? - **MDP** 定义了问题边界; - **Q‑learning** 提供了不依赖环境模型的求解算法; - 对于 OTA 这类 **环境复杂且转移概率难以精确建模** 的场景,Q‑learning + 真实/仿真回放非常合适。 > 如果状态或动作空间巨大,就需要把 **Q(s,a)** 换成深度网络(DQN、Double DQN、Dueling DQN…),或直接用策略梯度方法(A2C、PPO 等)。 --- **小结**: - **MDP** = 把决策问题抽象为状态、动作、奖励、转移、折扣。 - **Q‑learning** = 在不知道转移/奖励精确模型时,通过交互数据迭代估值,找到最优决策策略。 - 在 AI + 旅游 OTA 场景里,它们让系统能“边试边学”地优化行程、排序或定价。