论文 #6: Enhancing Generative Auto-bidding - 阅读报告
论文 #6: Enhancing Generative Auto-bidding - 阅读报告
基本信息
- 标题: Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search
- 作者: Zhiyu Mou, Yiqin Lv, Miao Xu, Cheems Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng
- 发表日期: 2026 年 1 月 26 日
- 主要领域: applications to robotics, autonomy, planning
- Submission Number: 24514
关键词
auto-bidding, offline reinforcement learning, generative decision making
摘要
自动竞价是广告主提高广告性能的关键工具。最近的进展表明,AI 生成竞价(AIGB)从离线数据学习条件生成规划器,相比典型的离线强化学习(RL)自动竞价方法实现了更优越的性能。
然而,现有 AIGB 方法仍面临性能瓶颈,因为它们固有的无法在静态数据集之外进行探索并获得反馈。
为解决这个问题,我们提出了 AIGB-Pearl(Planning with EvaluAtor via RL),一种整合生成规划和策略优化的新方法。
AIGB-Pearl 的核心在于构建轨迹评估器来评估生成分数的质量,并设计可证明可靠的 KL-Lipschitz 约束分数最大化方案,以确保在离线数据集之外进行安全高效的探索。
进一步开发了一种结合同步耦合技术的实用算法,以确保所提出方案所需的模型规律性。
在模拟和真实广告系统上的大量实验证明了我们方法的最先进性能。
核心贡献
- AIGB-Pearl 方法: 整合生成规划和策略优化的自动竞价方法
- 轨迹评估器: 评估生成竞价轨迹的质量
- KL-Lipschitz 约束: 确保探索的安全性和效率
- 同步耦合算法: 实用的训练算法,确保模型规律性
- 真实系统验证: 在真实广告系统上验证有效性
研究意义
- 解决了生成式自动竞价的探索瓶颈问题
- 提供了安全的离线 RL 探索方案
- 对在线广告系统有直接应用价值
- 展示了生成式决策与 RL 结合的有效性
阅读笔记
- 这是一个工业应用导向的研究,来自广告技术领域
- 核心挑战是如何在离线数据基础上安全地探索更好的策略
- KL-Lipschitz 约束是理论保证的关键
- 在真实广告系统上的验证增加了方法的可信度
- 对于其他离线 RL 应用场景也有借鉴意义
报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=kMuQBgPIdg