# 💡 Summary
[[AlphaGo]]:[[蒙特卡洛树]]算法的巅峰应用
# 🧩 Cues
# 🪞Notes
## AlphaGo的架构
```Java
传统MCTS的问题:
• 随机模拟太慢(围棋一局要几百步)
• 初期探索效率低
AlphaGo的改进:
1️⃣ 策略网络(Policy Network)
作用:替代随机选择
输入:当前棋盘
输出:每步的概率分布
→ 引导MCTS更智能地探索 ✓
2️⃣ 价值网络(Value Network)
作用:替代完整模拟
输入:当前棋盘
输出:胜率估计(-1到1)
→ 不用下到底就能评估局面 ✓
3️⃣ MCTS
作用:整合以上两个网络
过程:
- Selection: 用策略网络引导
- Simulation: 用价值网络快速评估
- 结合树搜索的全局视野
→ 深度学习的直觉 + MCTS的规划 ✓
流程:
┌──────────────────────────────────┐
│ 策略网络建议 + 价值网络评估 │
│ ↓ │
│ MCTS整合 │
│ ↓ │
│ 选择最佳落子 │
└──────────────────────────────────┘
成果:
• 2016年 AlphaGo 4:1 击败李世石
• 2017年 AlphaGo Zero 100:0 击败AlphaGo
• 完全自我对弈学习,超越人类知识
```