这是一个**“看到一堆 benchmark 名字,不知道各自在测什么”**的经典问题变体。
|Benchmark 名字|通俗解释|
|---|---|
|SWE-bench Pro|测模型像软件工程师一样修真实代码仓库里的复杂 bug,偏“高级编程实战”。|
|SWE-bench Verified|也是测修 bug,但题目筛得更严、更干净,结果通常更可靠,偏“标准版真实修 bug”。|
|Terminal-Bench 2.0|测模型会不会在终端里干活,比如敲命令、查文件、跑程序、改配置,偏“命令行实操能力”。|
|Humanity’s Last Exam|测特别难、跨学科的问题,像“博士级综合大题”,看模型能不能做深度推理。|
|BrowseComp|测模型会不会自己上网搜资料、追线索、翻网页,最后把答案找出来,偏“代理式搜索能力”。|
|MCP-Atlas|测模型在很多外部工具之间协同工作的能力,像“会不会调各种工具来完成任务”。|
|OSWorld-Verified|测模型会不会像人一样操作电脑界面,比如点按钮、填表、切窗口,偏“用电脑办事”。|
|Finance Agent v1.1|测模型处理金融分析任务的能力,比如读数据、做判断、给分析结论。|
|CyberGym|测模型在网络安全场景里复现漏洞、理解攻击链或安全问题的能力。|
|GPQA Diamond|测非常难的研究生级科学问题,偏“高难知识推理”,很多题不是死记硬背能做出来的。|
|CharXiv Reasoning|测模型看图、看图表、看视觉材料后进行推理的能力,偏“视觉理解 + 推理”。|
|MMLU|测多学科知识问答能力,像一套覆盖很多科目的通识考试。|
你这张图里左侧那些大类,其实可以再压缩成一句话理解:
- **Coding 类**:会不会写代码、修代码、在终端里干活
- **Reasoning 类**:会不会做难题、跨学科推理
- **Search / Tool / Computer Use 类**:会不会自己找资料、调工具、操作电脑
- **Finance / Cybersecurity 类**:会不会处理专业领域任务
- **Visual / Multilingual 类**:会不会看图推理、会不会多语言答题
如果你愿意,我下一条可以把这个表再补一列:**“更像考学生,还是更像考打工能力”**。
GLUE/SuperGLUE/SQuAD/XSum/XTREME/[[MMLU]]

[[MTEB]]
BUA(浏览器使用智能体): 在Mind2Web榜单上,击败OpenAI、Anthropic等巨头,获得小模型第一
CUUA(计算机使用智能体): 在OS World榜单上,7B小模型超越Kimi等大模型,获得专项榜第一
| | Benchmark | 测试领域 | 测试内容 | 当前领先者 | 官方链接 |
| --------- | ---------------------- | ---- | ------------------------------------------------------------- | --------------------------------- | ------------------------------------------------------- |
| 桌面操作(全系统) | **OSWorld** | | 369个跨应用任务,操作真实OS环境(Ubuntu/Windows/macOS)及本地软件(VS Code, GIMP等) | claude-sonnet-4-5 | [os-world.github.io](https://os-world.github.io/) |
| 浏览器操作 | Mind2Web | | 更学术化,关注"AI 能不能理解网页结构并做出正确动作" | | |
| | WebVoyager | | 真实网站端到端任务(Amazon, Google Flights, arXiv等) | Agent框架 > 裸模型 | [leaderboard.steel.dev](https://leaderboard.steel.dev/) |
| | **SWE-bench Verified** | 代码实战 | 写代码+改文件+跑终端,经人工验证 | Claude 4.5 Opus medium (20251101) | [swebench.com](https://www.swebench.com/) |
| | | | | | |
---
**快速选择指南:**
|你的需求|看这个榜单|
|---|---|
|评估模型操作复杂界面的底层能力|OSWorld|
|找最好用的浏览器自动化框架/工具|WebVoyager|
|评估 AI 写代码、改 Bug 的能力|SWE-bench|