论文 #14: Neon - 阅读报告

基本信息

Generative Models, Self-Improvement, Weight Merging, Image Generation

与其简单地在生成模型自己的合成输出上微调，不如短暂微调它以找到模型崩溃的方向，然后将该更新的反向应用于原始模型以获得重大性能提升

扩展生成式 AI 模型受到高质量训练数据稀缺的瓶颈。从生成模型合成的便利性表明使用（未验证的）合成数据来增强有限的真实数据语料库，用于微调以希望提高性能。

然而，不幸的是，由此产生的正反馈循环导致模型自噬障碍（MAD，又称模型崩溃），导致样本质量和/或多样性的快速退化。

在本文中，我们介绍了 Neon（来自自训练的负向外推），一种新的学习方法，将自训练的退化转化为自改进的强大信号。

给定一个基础模型，Neon 首先在其自合成数据上微调它，然后反直觉地反转其梯度更新，从退化权重外推远离。

我们证明 Neon 有效，因为典型的推断采样器偏好高概率区域，在合成和真实数据群体梯度之间创建可预测的反向对齐，负向外推校正以更好地使模型与真实数据分布对齐。

Neon 非常容易实现，通过简单的后验合并，不需要新的真实数据，仅用 1k 合成样本就有效工作，通常使用少于 1% 的额外训练计算。

我们展示了 Neon 在一系列架构（扩散、流匹配、自回归和归纳矩匹配模型）和数据集（ImageNet、CIFAR-10 和 FFHQ）上的通用性。

特别是在 ImageNet 256x256 上，Neon 将 xAR-L 模型提升到新的 SOTA FID 1.02，仅使用 0.36% 的额外训练计算。

报告生成时间: 2026-04-13 OpenReview 链接: https://openreview.net/forum?id=kpLRYtPGt3