论文 #12: CounselBench - 阅读报告
论文 #12: CounselBench - 阅读报告
基本信息
- 标题: CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of Large Language Models in Mental Health Question Answering
- 作者: Yahan Li, Jifan Yao, John Bosco S. Bunyi, Adam C Frank, Angel Hsing-Chi Hwang, Ruishan Liu
- 发表日期: 2026 年 1 月 26 日
- 主要领域: datasets and benchmarks
- Submission Number: 23424
关键词
large language models, mental health, human evaluation
摘要
医学问答(QA)基准通常专注于多项选择或基于事实的任务,使对真实患者问题的开放式答案探索不足。
这一差距在心理健康领域尤为关键,患者问题通常混合症状、治疗担忧和情感需求,需要平衡临床谨慎和情境敏感性的答案。
我们提出了 CounselBench,一个与 100 名心理健康专业人员合作开发的大规模基准,用于在真实的求助场景中评估和压力测试大型语言模型(LLM)。
第一个组件 CounselBench-EVAL 包含来自 GPT-4、LLaMA 3、Gemini 和在线人类治疗师对 CounselChat 公共论坛患者问题的答案的 2,000 个专家评估。每个答案在六个临床基础维度上评级,带有跨度级标注和书面理由。
专家评估表明,虽然 LLM 在几个维度上取得高分,但也表现出反复出现的问题,包括无建设性反馈、过度概括和有限的个性化或相关性。回答经常因安全风险被标记,最值得注意的是未经授权医疗建议。
后续实验表明,LLM 法官系统地高估模型回答,忽视人类专家识别的安全问题。
为了更直接地探究失败模式,我们构建了 CounselBench-Adv,一个由 120 个专家撰写的心理健康问题组成的对抗性数据集,旨在触发特定模型问题。
对九个 LLM 的 1,080 个回答的专家评估揭示了一致的、特定模型的失败模式。
总之,CounselBench 为心理健康 QA 中的 LLM 基准测试建立了一个临床基础框架。
核心贡献
- CounselBench-EVAL: 2,000 个专家评估,6 个临床维度
- CounselBench-Adv: 120 个对抗性问题,1,080 个回答评估
- 专家合作: 与 100 名心理健康专业人员合作开发
- 深入分析: 揭示 LLM 的反复问题和失败模式
- LLM 法官评估: 发现 LLM 法官系统性地高估模型回答
研究意义
- 填补了心理健康领域 LLM 评估的空白
- 提供了临床基础的评估框架
- 揭示了 LLM 在心理健康 QA 中的安全风险
- 对开发安全的心理健康 AI 有重要指导价值
阅读笔记
- 这是一个高度专业化的基准,关注心理健康领域
- 专家参与度高(100 名专业人员)
- 发现 LLM 法官不可靠,这是一个重要发现
- 对抗性数据集揭示了模型的具体失败模式
- 对于心理健康 AI 应用的安全部署至关重要
报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=8MBYRZHVWT