马尔可夫 - 🎯转了码的刘公子

# Summary > **一句话**：未来只和现在有关，与过去无关。 > **形式化**： P(S_{t+1}=s' \mid S_t=s,;S_{t-1},\dots,S_0)=P(S_{t+1}=s' \mid S_t=s) ] 只要系统的状态满足这个“记忆无关性”，就可以用马尔科夫工具箱来建模。 - **只看当下**：未来只受“当前状态 + 当前动作”影响，历史路径可忽略。 - 类比下棋：走下一步只看当前局面，而不必回溯前 50 步细节。 - **简化建模**：不用把整段历史塞进模型，计算量和数据量都下降。 |概念|是否包含“决策”|奖励|举例| |---|---|---|---| |**马尔科夫链**|❌ （只能“被动”转移）|通常不建模|天气：今天晴→明天雨 30%| |**马尔科夫决策链 (MDP)**|✔️ （自己选动作）|显式建模|旅游行程、机器人导航| # Cues [[隐马尔科夫]] # Notes ## 通俗一点：把决策问题看成“一串格子” > **马尔科夫决策链（MDP，Markov Decision Process）** > 就像一条串起了许多格子的“跳房子”游戏： > > - 你现在站在 **某个格子**（状态 S）。 > > - 可以跳向 **多个方向**（动作 A）。 > > - 跳完会落到 **下一个格子**，并随机拿到 **奖励 R**（加分或扣分）。 > > - 下一步能跳到哪，只跟 **当前格子+这一步的动作** 有关，而跟更早的历史无关——这就是 **马尔科夫性**。 > --- ### 1 | 核心五元组 |符号|含义|生活类比| |---|---|---| |**S**|状态集合|你现在在哪个景点，还剩多少时间 / 预算| |**A**|动作集合|下一步去哪个景点、坐什么交通| |**P(s′\|s,a)**|状态转移概率|选地铁 vs 打车，各自按概率把你送到下一个景点| |**R(s,a)**|奖励|游玩的快乐分 − 交通花费| |**γ**|折扣因子|越远期的收益越“打折”，先顾眼前还是长远| --- ### 2 | 为什么强调“马尔科夫”？ --- ### 3 | 一个简单故事 > **城市吃喝玩乐机器人** 1. **状态 S**：上午 10 点，你在人民广场，还剩 5 小时、¥200。 2. **动作 A**： - A1：步行去博物馆 - A2：地铁去购物街 3. **转移概率 P**： - 步行 100% 到博物馆； - 地铁 90% 到购物街，10% 因维修延误到附近商场。 4. **奖励 R**： - 逛博物馆 +8 分，门票 ¥30； - 购物街逛街 +5 分，来回地铁 ¥6； - 延误到商场只 +2 分。 5. 机器人要学会 **长期最优策略**：最大化整天的“游玩分 − 花费”。 - 这就需要 **Q‑learning / PPO** 等 RL 算法在 MDP 上做搜索和学习。 --- ### 4 | 和马尔科夫链的区别 --- ### 5 | 为什么在 AI/OTA 场景好用？ 1. **行程规划**：把每个景点/时段当状态，RL 代理可自动排出高满意度路线。 2. **动态定价**：状态=剩余座位，动作=调价幅度，奖励=利润。 3. **个性化推荐**：状态=用户最近点击，动作=下一个推荐池，奖励=点击/下单。 --- #### 一句话总结 > **马尔科夫决策链就是把“连环决策”公式化：** > 只关心“此刻”和“下一步”，用奖励来引导策略，最后交给强化学习算法去寻找“每一步都跳到最划算的格子”。