论文 #11: Optimistic Task Inference - 阅读报告

基本信息

Behavior Foundation Models, Zero-Shot Reinforcement Learning, Deep Reinforcement Learning, Fast Adaptation

我们提出了一种用于行为基础模型中快速在线任务推断的算法

行为基础模型（BFM）能够为测试时直接指定的任何奖励函数检索高性能策略，通常称为零样本强化学习（RL）。

虽然这在计算方面非常高效，但在数据方面可能效率较低：作为标准假设，BFM 需要在非 negligible 的推断数据集上计算奖励，假设要么可以访问奖励的函数形式，要么需要大量标注工作。

为缓解这些限制，我们仅通过测试时与环境的交互来解决任务推断问题。

我们提出了 OpTI-BFM，一种乐观决策标准，直接建模奖励函数上的不确定性，并指导 BFM 进行任务推断的数据收集。

形式上，我们通过与线性 bandit 的上置信度算法的直接连接，为训练良好的 BFM 提供遗憾界。

在经验上，我们在已建立的零样本基准上评估 OpTI-BFM，并观察到它使基于后继特征的 BFM 能够在少量回合中以最小计算开销识别和优化未见奖励函数。

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=m5byThUSNE