AlphaGo - 🎯转了码的刘公子

# 💡 Summary [[AlphaGo]]：[[蒙特卡洛树]]算法的巅峰应用 # 🧩 Cues # 🪞Notes ## AlphaGo的架构 ```Java 传统MCTS的问题： • 随机模拟太慢（围棋一局要几百步） • 初期探索效率低 AlphaGo的改进： 1️⃣ 策略网络（Policy Network）作用：替代随机选择输入：当前棋盘输出：每步的概率分布 → 引导MCTS更智能地探索 ✓ 2️⃣ 价值网络（Value Network）作用：替代完整模拟输入：当前棋盘输出：胜率估计（-1到1） → 不用下到底就能评估局面 ✓ 3️⃣ MCTS 作用：整合以上两个网络过程： - Selection: 用策略网络引导 - Simulation: 用价值网络快速评估 - 结合树搜索的全局视野 → 深度学习的直觉 + MCTS的规划 ✓ 流程： ┌──────────────────────────────────┐ │ 策略网络建议 + 价值网络评估 │ │ ↓ │ │ MCTS整合 │ │ ↓ │ │ 选择最佳落子 │ └──────────────────────────────────┘ 成果： • 2016年 AlphaGo 4:1 击败李世石 • 2017年 AlphaGo Zero 100:0 击败AlphaGo • 完全自我对弈学习，超越人类知识 ```