# 💡 Summary [[AlphaGo]]:[[蒙特卡洛树]]算法的巅峰应用 # 🧩 Cues # 🪞Notes ## AlphaGo的架构 ```Java 传统MCTS的问题: • 随机模拟太慢(围棋一局要几百步) • 初期探索效率低 AlphaGo的改进: 1️⃣ 策略网络(Policy Network) 作用:替代随机选择 输入:当前棋盘 输出:每步的概率分布 → 引导MCTS更智能地探索 ✓ 2️⃣ 价值网络(Value Network) 作用:替代完整模拟 输入:当前棋盘 输出:胜率估计(-1到1) → 不用下到底就能评估局面 ✓ 3️⃣ MCTS 作用:整合以上两个网络 过程: - Selection: 用策略网络引导 - Simulation: 用价值网络快速评估 - 结合树搜索的全局视野 → 深度学习的直觉 + MCTS的规划 ✓ 流程: ┌──────────────────────────────────┐ │ 策略网络建议 + 价值网络评估 │ │ ↓ │ │ MCTS整合 │ │ ↓ │ │ 选择最佳落子 │ └──────────────────────────────────┘ 成果: • 2016年 AlphaGo 4:1 击败李世石 • 2017年 AlphaGo Zero 100:0 击败AlphaGo • 完全自我对弈学习,超越人类知识 ```