论文 #8: WebDevJudge - 阅读报告

基本信息

标题: WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality
作者: Chunyang Li, Yilun Zheng, Xinting Huang, Tianqing Fang, Jiahao Xu, Lihui Chen, Yangqiu Song, Han Hu
发表日期: 2026 年 1 月 26 日
主要领域: datasets and benchmarks
Submission Number: 24064

large language models, evaluation, LLM-as-a-judge, benchmark

一个用于评估 LLM-as-a-judge 在 Web 开发上下文中的元评估基准

LLM-as-a-judge 范式正在成为人类评估的可扩展和高效替代方案，在定义明确的任务上表现出强劲性能。然而，其在具有动态环境和复杂交互的开放式任务中的可靠性尚未探索。

为填补这一空白，我们引入了 WebDevJudge，一个用于评估 LLM-as-a-judge 在 Web 开发中性能的系统基准，支持基于静态观察的非交互式评估和具有动态 Web 环境的连续交互式评估。

WebDevJudge 包含成对 Web 实现的人类偏好标签，并使用结构化和查询基础的规则进行标注，以确保高质量的真值。

使用这个基准，我们全面评估了各种评估器，包括 LLM、MLLM 和代理工作流。我们系统研究了不同范式和指导机制的影响。

我们的实验揭示了 LLM 法官与人类专家之间的显著差距。深入分析表明，这一差距源于基本模型限制，包括无法识别功能等价性、验证任务可行性和减轻偏见。

总体而言，WebDevJudge 对 LLM-as-a-judge 提出了重大挑战，为未来研究提供了见解，以指导开发更可靠和有能力的自动化评估器用于复杂场景。

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=CCSPm6V5EF