论文 #12: CounselBench - 阅读报告

基本信息

标题: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering
作者: Yahan Li, Jifan Yao, John Bosco S. Bunyi, Adam C Frank, Angel Hsing-Chi Hwang, Ruishan Liu
发表日期: 2026 年 1 月 26 日
主要领域: datasets and benchmarks
Submission Number: 23424

large language models, mental health, human evaluation

医学问答（QA）基准通常专注于多项选择或基于事实的任务，使对真实患者问题的开放式答案探索不足。

这一差距在心理健康领域尤为关键，患者问题通常混合症状、治疗担忧和情感需求，需要平衡临床谨慎和情境敏感性的答案。

我们提出了 CounselBench，一个与 100 名心理健康专业人员合作开发的大规模基准，用于在真实的求助场景中评估和压力测试大型语言模型（LLM）。

第一个组件 CounselBench-EVAL 包含来自 GPT-4、LLaMA 3、Gemini 和在线人类治疗师对 CounselChat 公共论坛患者问题的答案的 2,000 个专家评估。每个答案在六个临床基础维度上评级，带有跨度级标注和书面理由。

专家评估表明，虽然 LLM 在几个维度上取得高分，但也表现出反复出现的问题，包括无建设性反馈、过度概括和有限的个性化或相关性。回答经常因安全风险被标记，最值得注意的是未经授权医疗建议。

后续实验表明，LLM 法官系统地高估模型回答，忽视人类专家识别的安全问题。

为了更直接地探究失败模式，我们构建了 CounselBench-Adv，一个由 120 个专家撰写的心理健康问题组成的对抗性数据集，旨在触发特定模型问题。

对九个 LLM 的 1,080 个回答的专家评估揭示了一致的、特定模型的失败模式。

总之，CounselBench 为心理健康 QA 中的 LLM 基准测试建立了一个临床基础框架。

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=8MBYRZHVWT