论文 #12: CounselBench - 阅读报告

基本信息

  • 标题: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering
  • 作者: Yahan Li, Jifan Yao, John Bosco S. Bunyi, Adam C Frank, Angel Hsing-Chi Hwang, Ruishan Liu
  • 发表日期: 2026 年 1 月 26 日
  • 主要领域: datasets and benchmarks
  • Submission Number: 23424

关键词

large language models, mental health, human evaluation

摘要

医学问答(QA)基准通常专注于多项选择或基于事实的任务,使对真实患者问题的开放式答案探索不足。

这一差距在心理健康领域尤为关键,患者问题通常混合症状、治疗担忧和情感需求,需要平衡临床谨慎和情境敏感性的答案。

我们提出了 CounselBench,一个与 100 名心理健康专业人员合作开发的大规模基准,用于在真实的求助场景中评估和压力测试大型语言模型(LLM)。

第一个组件 CounselBench-EVAL 包含来自 GPT-4、LLaMA 3、Gemini 和在线人类治疗师对 CounselChat 公共论坛患者问题的答案的 2,000 个专家评估。每个答案在六个临床基础维度上评级,带有跨度级标注和书面理由。

专家评估表明,虽然 LLM 在几个维度上取得高分,但也表现出反复出现的问题,包括无建设性反馈、过度概括和有限的个性化或相关性。回答经常因安全风险被标记,最值得注意的是未经授权医疗建议。

后续实验表明,LLM 法官系统地高估模型回答,忽视人类专家识别的安全问题。

为了更直接地探究失败模式,我们构建了 CounselBench-Adv,一个由 120 个专家撰写的心理健康问题组成的对抗性数据集,旨在触发特定模型问题。

对九个 LLM 的 1,080 个回答的专家评估揭示了一致的、特定模型的失败模式。

总之,CounselBench 为心理健康 QA 中的 LLM 基准测试建立了一个临床基础框架。

核心贡献

  1. CounselBench-EVAL: 2,000 个专家评估,6 个临床维度
  2. CounselBench-Adv: 120 个对抗性问题,1,080 个回答评估
  3. 专家合作: 与 100 名心理健康专业人员合作开发
  4. 深入分析: 揭示 LLM 的反复问题和失败模式
  5. LLM 法官评估: 发现 LLM 法官系统性地高估模型回答

研究意义

  • 填补了心理健康领域 LLM 评估的空白
  • 提供了临床基础的评估框架
  • 揭示了 LLM 在心理健康 QA 中的安全风险
  • 对开发安全的心理健康 AI 有重要指导价值

阅读笔记

  • 这是一个高度专业化的基准,关注心理健康领域
  • 专家参与度高(100 名专业人员)
  • 发现 LLM 法官不可靠,这是一个重要发现
  • 对抗性数据集揭示了模型的具体失败模式
  • 对于心理健康 AI 应用的安全部署至关重要

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=8MBYRZHVWT