benchmark - 𓀚 转了码的刘公子

这是一个**“看到一堆 benchmark 名字，不知道各自在测什么”**的经典问题变体。 |Benchmark 名字|通俗解释| |---|---| |SWE-bench Pro|测模型像软件工程师一样修真实代码仓库里的复杂 bug，偏“高级编程实战”。| |SWE-bench Verified|也是测修 bug，但题目筛得更严、更干净，结果通常更可靠，偏“标准版真实修 bug”。| |Terminal-Bench 2.0|测模型会不会在终端里干活，比如敲命令、查文件、跑程序、改配置，偏“命令行实操能力”。| |Humanity’s Last Exam|测特别难、跨学科的问题，像“博士级综合大题”，看模型能不能做深度推理。| |BrowseComp|测模型会不会自己上网搜资料、追线索、翻网页，最后把答案找出来，偏“代理式搜索能力”。| |MCP-Atlas|测模型在很多外部工具之间协同工作的能力，像“会不会调各种工具来完成任务”。| |OSWorld-Verified|测模型会不会像人一样操作电脑界面，比如点按钮、填表、切窗口，偏“用电脑办事”。| |Finance Agent v1.1|测模型处理金融分析任务的能力，比如读数据、做判断、给分析结论。| |CyberGym|测模型在网络安全场景里复现漏洞、理解攻击链或安全问题的能力。| |GPQA Diamond|测非常难的研究生级科学问题，偏“高难知识推理”，很多题不是死记硬背能做出来的。| |CharXiv Reasoning|测模型看图、看图表、看视觉材料后进行推理的能力，偏“视觉理解 + 推理”。| |MMLU|测多学科知识问答能力，像一套覆盖很多科目的通识考试。| 你这张图里左侧那些大类，其实可以再压缩成一句话理解： - **Coding 类**：会不会写代码、修代码、在终端里干活 - **Reasoning 类**：会不会做难题、跨学科推理 - **Search / Tool / Computer Use 类**：会不会自己找资料、调工具、操作电脑 - **Finance / Cybersecurity 类**：会不会处理专业领域任务 - **Visual / Multilingual 类**：会不会看图推理、会不会多语言答题如果你愿意，我下一条可以把这个表再补一列：**“更像考学生，还是更像考打工能力”**。 GLUE/SuperGLUE/SQuAD/XSum/XTREME/[[MMLU]] ![image.png|1000](https://imagehosting4picgo.oss-cn-beijing.aliyuncs.com/imagehosting/fix-dir%2Fpicgo%2Fpicgo-clipboard-images%2F2025%2F04%2F26%2F14-50-18-7bc7850909a72ce492b0f19e3bdaa66b-202504261450301-a24328.png) [[MTEB]] BUA(浏览器使用智能体): 在Mind2Web榜单上，击败OpenAI、Anthropic等巨头，获得小模型第一 CUUA(计算机使用智能体): 在OS World榜单上，7B小模型超越Kimi等大模型，获得专项榜第一 | | Benchmark | 测试领域 | 测试内容 | 当前领先者 | 官方链接 | | --------- | ---------------------- | ---- | ------------------------------------------------------------- | --------------------------------- | ------------------------------------------------------- | | 桌面操作（全系统） | **OSWorld** | | 369个跨应用任务，操作真实OS环境（Ubuntu/Windows/macOS）及本地软件（VS Code, GIMP等） | claude-sonnet-4-5 | [os-world.github.io](https://os-world.github.io/) | | 浏览器操作 | Mind2Web | | 更学术化，关注"AI 能不能理解网页结构并做出正确动作" | | | | | WebVoyager | | 真实网站端到端任务（Amazon, Google Flights, arXiv等） | Agent框架 > 裸模型 | [leaderboard.steel.dev](https://leaderboard.steel.dev/) | | | **SWE-bench Verified** | 代码实战 | 写代码+改文件+跑终端，经人工验证 | Claude 4.5 Opus medium (20251101) | [swebench.com](https://www.swebench.com/) | | | | | | | | --- **快速选择指南：** |你的需求|看这个榜单| |---|---| |评估模型操作复杂界面的底层能力|OSWorld| |找最好用的浏览器自动化框架/工具|WebVoyager| |评估 AI 写代码、改 Bug 的能力|SWE-bench|