# Summary > **一句话**:未来只和现在有关,与过去无关。 > **形式化**: P(S_{t+1}=s' \mid S_t=s,;S_{t-1},\dots,S_0)=P(S_{t+1}=s' \mid S_t=s) ] 只要系统的状态满足这个“记忆无关性”,就可以用马尔科夫工具箱来建模。 - **只看当下**:未来只受“当前状态 + 当前动作”影响,历史路径可忽略。 - 类比下棋:走下一步只看当前局面,而不必回溯前 50 步细节。 - **简化建模**:不用把整段历史塞进模型,计算量和数据量都下降。 |概念|是否包含“决策”|奖励|举例| |---|---|---|---| |**马尔科夫链**|❌ (只能“被动”转移)|通常不建模|天气:今天晴→明天雨 30%| |**马尔科夫决策链 (MDP)**|✔️ (自己选动作)|显式建模|旅游行程、机器人导航| # Cues [[隐马尔科夫]] # Notes ## 通俗一点:把决策问题看成“一串格子” > **马尔科夫决策链(MDP,Markov Decision Process)** > 就像一条串起了许多格子的“跳房子”游戏: > > - 你现在站在 **某个格子**(状态 S)。 > > - 可以跳向 **多个方向**(动作 A)。 > > - 跳完会落到 **下一个格子**,并随机拿到 **奖励 R**(加分或扣分)。 > > - 下一步能跳到哪,只跟 **当前格子+这一步的动作** 有关,而跟更早的历史无关——这就是 **马尔科夫性**。 > --- ### 1 | 核心五元组 |符号|含义|生活类比| |---|---|---| |**S**|状态集合|你现在在哪个景点,还剩多少时间 / 预算| |**A**|动作集合|下一步去哪个景点、坐什么交通| |**P(s′\|s,a)**|状态转移概率|选地铁 vs 打车,各自按概率把你送到下一个景点| |**R(s,a)**|奖励|游玩的快乐分 − 交通花费| |**γ**|折扣因子|越远期的收益越“打折”,先顾眼前还是长远| --- ### 2 | 为什么强调“马尔科夫”? --- ### 3 | 一个简单故事 > **城市吃喝玩乐机器人** 1. **状态 S**:上午 10 点,你在人民广场,还剩 5 小时、¥200。 2. **动作 A**: - A1:步行去博物馆 - A2:地铁去购物街 3. **转移概率 P**: - 步行 100% 到博物馆; - 地铁 90% 到购物街,10% 因维修延误到附近商场。 4. **奖励 R**: - 逛博物馆 +8 分,门票 ¥30; - 购物街逛街 +5 分,来回地铁 ¥6; - 延误到商场只 +2 分。 5. 机器人要学会 **长期最优策略**:最大化整天的“游玩分 − 花费”。 - 这就需要 **Q‑learning / PPO** 等 RL 算法在 MDP 上做搜索和学习。 --- ### 4 | 和马尔科夫链的区别 --- ### 5 | 为什么在 AI/OTA 场景好用? 1. **行程规划**:把每个景点/时段当状态,RL 代理可自动排出高满意度路线。 2. **动态定价**:状态=剩余座位,动作=调价幅度,奖励=利润。 3. **个性化推荐**:状态=用户最近点击,动作=下一个推荐池,奖励=点击/下单。 --- #### 一句话总结 > **马尔科夫决策链就是把“连环决策”公式化:** > 只关心“此刻”和“下一步”,用奖励来引导策略,最后交给强化学习算法去寻找“每一步都跳到最划算的格子”。