论文 #13: AstaBench - 阅读报告

基本信息

标题: AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite
作者: Jonathan Bragg, Mike D’Arcy, Nishant Balepur, Dan Bareket, Bhavana Dalvi Mishra, Sergey Feldman, Dany Haddad, Jena D. Hwang, Peter Jansen, Varsha Kishore, Bodhisattwa Prasad Majumder, Aakanksha Naik, Sigal Rahamimov, Kyle Richardson, Amanpreet Singh, Harshit Surana, Aryeh Tiktinsky, Rosni Vasu, Guy Wiener, Chloe Anastasiades 等 (共 45 位作者)
发表日期: 2026 年 1 月 26 日
主要领域: datasets and benchmarks
Submission Number: 23372

关键词

Agents, evaluation, benchmarks, scientific research

TL;DR

我们提出了严格 AI 代理基准测试的原则和工具，实例化为 AstaBench——科学研究的代理能力的第一个整体度量——以及实验表明 AI 距离解决研究辅助仍有很长距离

摘要

AI 代理有潜力通过自动化文献综述、复制实验、分析数据甚至提出新的研究方向来彻底改变科学生产力；确实，现在有许多这样的代理，从通用”深度研究”系统到专门的科学特定代理，如 AI Scientist 和 AIGS。

对这些代理的严格评估对进步至关重要。然而，现有基准在几个方面存在不足：它们通常（1）缺乏可重现的代理工具，无法对核心代理能力进行受控比较；（2）不考虑混淆变量，如模型成本和工具访问；（3）不提供标准化接口用于快速代理原型设计和评估；（4）未能提供整体、产品知情的现实世界用例（如科学研究）度量；（5）缺乏全面的基线代理来识别真正的进步。

作为回应，我们定义了更严格基准测试代理的原则和工具。

使用这些，我们提出了 AstaBench，一个套件，提供执行科学研究代理能力的整体度量，包括跨越整个科学发现过程和多个科学领域的 2400+ 问题，包括许多受部署的 Asta 代理实际用户请求启发的问题。

我们的套件带有第一个具有生产级搜索工具的科学研究环境，实现受控、可重现的评估，更好地考虑混淆因素。

同时，我们提供了九个科学优化类别的 Asta 代理和众多基线的综合套件。

我们对 22 个代理类别的 57 个代理的广泛评估揭示了几个有趣的发现，最重要的是，尽管在某些单独方面取得了有意义的进展，AI 距离解决科学研究辅助的挑战仍有很长距离。

核心贡献

基准测试原则: 定义了严格 AI 代理基准测试的原则
AstaBench 套件: 2400+ 问题，覆盖整个科学发现过程
研究环境: 第一个具有生产级搜索工具的科学研究环境
代理套件: 9 个科学优化类别的 Asta 代理和基线
大规模评估: 57 个代理，22 个类别的系统评估

研究意义

为 AI 代理评估建立了严格标准
提供了科学研究的综合基准
揭示了当前 AI 代理的局限性
对未来 AI 研究辅助系统开发有指导价值

阅读笔记

这是一个大规模的基准项目，45 位作者显示了协作规模
核心发现是 AI 距离真正的科学研究辅助还有很大差距
强调了基准测试中控制混淆变量的重要性
生产级搜索工具是一个重要特点
对于评估研究辅助 AI 系统非常有价值

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=M7TNf5J26u