# Summary
# Cues
# Notes
## 1 | 什么是 MDP(Markov Decision Process)
|记号|含义|在行程规划里的类比|
|---|---|---|
|**S**|状态集合|你当前在哪个景点、还有多少时间/预算|
|**A**|动作集合|下一步去哪、选哪种交通|
|**P(s′\|s,a)**|状态转移概率|从 A 景点坐地铁到 B 景点的概率|
|**R(s,a)**|奖励函数|到达后游客的满意度 – 路上花费|
|**γ**|折扣因子 (0 ‑ 1)|越远期的收益越“打折”|
> **一句话**:MDP 用 5‑元组 ⟨S,A,P,R,γ⟩ 把“在不确定环境中连环决策”形式化,强调 **马尔可夫性**——未来只依赖于当前状态和动作,而与更早历史无关。
---
## 2 | Q‑learning 的核心思想
|概念|说明|
|---|---|
|**Q(s,a)**|“在状态 s 选择动作 a 后能拿到的长期期望奖励”|
|**更新公式**|`Q ← Q + α [r + γ·maxₐ′Q(s′,a′) – Q]`|
|**特点**|- **离线学环境**:不需要事先知道 P、R- **表格 or 深网**:小空间用数组,大空间用 DQN 等深度网络- **ε‑贪婪**:训练期随机探索 vs 利用现有最优|
> **一句话**:Q‑learning 反复用“**当前估值** 与 **目标 r+γ·maxQ** 的差”做迭代逼近,最终让 Q 收敛到最优价值函数 Q*. 动作策略就是在每个状态选 `arg maxₐ Q(s,a)`。
---
## 3 | 把它们放到 OTA 行程规划里的示例
1. **状态 s** = 当前已安排的景点序列 + 剩余时间/预算。
2. **动作 a** = 从候选 POI 列表里选下一个景点。
3. **即时奖励 r** = `景点评分 – 路程时间 – 票价`(或更复杂加权)。
4. 代理人用 **Q‑learning** 学会:
- 若剩 2 小时就别选离得远的景点(Q 低);
- 对“热门但拥挤”的 POI 会平衡价值与排队时间。
5. 训练好后,系统在实际搜索请求里直接按 **max Q** 生成完整路线。
---
## 4 | 为什么常把二者配合使用?
- **MDP** 定义了问题边界;
- **Q‑learning** 提供了不依赖环境模型的求解算法;
- 对于 OTA 这类 **环境复杂且转移概率难以精确建模** 的场景,Q‑learning + 真实/仿真回放非常合适。
> 如果状态或动作空间巨大,就需要把 **Q(s,a)** 换成深度网络(DQN、Double DQN、Dueling DQN…),或直接用策略梯度方法(A2C、PPO 等)。
---
**小结**:
- **MDP** = 把决策问题抽象为状态、动作、奖励、转移、折扣。
- **Q‑learning** = 在不知道转移/奖励精确模型时,通过交互数据迭代估值,找到最优决策策略。
- 在 AI + 旅游 OTA 场景里,它们让系统能“边试边学”地优化行程、排序或定价。