GLUE/SuperGLUE/SQuAD/XSum/XTREME/[[MMLU]]

[[MTEB]]
BUA(浏览器使用智能体): 在Mind2Web榜单上,击败OpenAI、Anthropic等巨头,获得小模型第一
CUUA(计算机使用智能体): 在OS World榜单上,7B小模型超越Kimi等大模型,获得专项榜第一
| | Benchmark | 测试领域 | 测试内容 | 当前领先者 | 官方链接 |
| --------- | ---------------------- | ---- | ------------------------------------------------------------- | --------------------------------- | ------------------------------------------------------- |
| 桌面操作(全系统) | **OSWorld** | | 369个跨应用任务,操作真实OS环境(Ubuntu/Windows/macOS)及本地软件(VS Code, GIMP等) | claude-sonnet-4-5 | [os-world.github.io](https://os-world.github.io/) |
| 浏览器操作 | Mind2Web | | 更学术化,关注"AI 能不能理解网页结构并做出正确动作" | | |
| | WebVoyager | | 真实网站端到端任务(Amazon, Google Flights, arXiv等) | Agent框架 > 裸模型 | [leaderboard.steel.dev](https://leaderboard.steel.dev/) |
| | **SWE-bench Verified** | 代码实战 | 写代码+改文件+跑终端,经人工验证 | Claude 4.5 Opus medium (20251101) | [swebench.com](https://www.swebench.com/) |
| | | | | | |
---
**快速选择指南:**
|你的需求|看这个榜单|
|---|---|
|评估模型操作复杂界面的底层能力|OSWorld|
|找最好用的浏览器自动化框架/工具|WebVoyager|
|评估 AI 写代码、改 Bug 的能力|SWE-bench|