论文 #9: SafeDPO - 阅读报告

基本信息

标题: SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
作者: Geon-Hyeong Kim, Yu Jin Kim, Byoungjip Kim, Honglak Lee, Kyunghoon Bae, Youngsoo Jang, Moontae Lee
发表日期: 2026 年 1 月 26 日
主要领域: alignment, fairness, safety, privacy, and societal considerations
Submission Number: 23790

Safety Alignment, LLM Fine-tuning, Preferences, Large Language Models, AI Safety

介绍了一种简单但有原则的方法，在策略学习期间直接优化安全对齐目标

随着大型语言模型（LLM）越来越多地部署在现实世界应用中，平衡帮助性和安全性已成为核心挑战。

一种自然的方法是将安全约束纳入人类反馈强化学习（RLHF），最近的研究显示了有希望的进展。然而，这些方法通常依赖于辅助网络或多阶段管道，从而增加了复杂性。

在这项工作中，我们重新审视原始安全对齐目标，并表明在温和假设下，它承认闭式最优策略。我们进一步推导出一个证明等价且可处理的目标，实现直接优化。

基于这一见解，我们提出了 SafeDPO，一种轻量级方法，保留了底层安全约束目标的最优解，同时只需要一个额外的超参数和对现有基于偏好的训练方法的最小修改。

SafeDPO 消除了对奖励模型、成本模型和在线采样的需求，仅依赖偏好数据和安全指标。

尽管简单，SafeDPO 与现有安全对齐方法相比实现了有竞争力的安全 - 帮助性权衡。

在 PKU-SafeRLHF-30K 基准上的实验表明，SafeDPO 大幅提高了安全性，同时保持了有竞争力的帮助性。

消融研究进一步表明，额外的超参数提供了灵活的机制来增强安全性，同时保持理论最优，并证实 SafeDPO 可靠地扩展到高达 13B 参数的 LLM。

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=PJdw4VBsXD