OpenAI新模型:研究论文告诉你 Consistency Models 是如何做到 一步成图,1秒18张

Stable Diffusion和DALL·E等扩散模型在图像、音频和视频生成方面表现出优异的能力。但是扩散模型是以牺牲GPU性能作为代价的,它的迭代采样过程需要10到2000倍于传统单步(one-step)生成模型,需要藉由对抗网络(GAN)等的计算量进行对抗训练,以逐步消除噪声并产成高质量的输出。而Consistency Models是可以支持快速 one-step 生成,同时仍然允许少量步数(few-step)采样,以权衡计算量和采样质量。另外Consistency Models还支持零样本(zero-shot)的数据编辑,无需进行对抗训练就可以执行例如图像修复、着色和超分辨率等任务。Consistency Models 可以用蒸馏预训练扩散模型的方式进行训练,也可以作为独立的生成模型进行训练。

接下来将引述OpenAI的研究团队的论文,详细阐述一下Consistency Models是如何做到一秒18张出图的。

正文开始

OpenAI的研究团队的新论文“Consistency Models”中介绍了一种非常高效的生成模型,即Consistency Models,它可以在没有对抗训练的情况下实现单步(single-step或one-step)样本生成模型。

Consistency Models 作为一种生成模型,核心设计思想是支持 single-step 生成,同时仍然允许迭代生成,支持零样本(zero-shot)数据编辑,权衡了样本质量与计算量。

首先 Consistency Models 建立在连续时间扩散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示,给定一个将数据平滑地转换为噪声的 PF ODE,Consistency Models 可以学习将任意时间步(time step)的任意点映射成轨迹起点,并进行生成建模。因此,Consistency Models 有一个显著的特性是自洽性(self-consistency):同一轨迹上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models(一致性模型)的原因。

图片[1] - OpenAI新模型:研究论文告诉你 Consistency Models 是如何做到 一步成图,1秒18张 - EVLIT

研究人员介绍了 Consistency Models 两种基于自洽性的训练方法。第一种训练方法是评估转换随机噪声向量(ODE 轨迹的端点,例如图 1 中的 x_T)来生成数据样本(ODE 轨迹的初始点,例如图 1 中的 x_0),并将扩散模型进行有效提取迭代优化,从而提高了样本质量,以更多计算为代价执行零样本数据编辑操作。

图片[2] - OpenAI新模型:研究论文告诉你 Consistency Models 是如何做到 一步成图,1秒18张 - EVLIT

第二种方法则是独立进行训练,不依赖于预先训练的扩散模型,从而建立Consistency Models作为独立的生成模型系列的基石。

需要注意的地方是,这两种训练方法都不需要对抗训练,并且都允许 Consistency Models 灵活采用神经网络架构。

图片[3] - OpenAI新模型:研究论文告诉你 Consistency Models 是如何做到 一步成图,1秒18张 - EVLIT

实证研究

在实证研究中,研究人员将Consistency Models应用于实际图像数据集,包括CIFAR-10、ImageNet 64×64、LSUN Bedroom 256×256和LSUN Cat 256×256。实验表明,通过Consistency Models的提取,CIFAR-10的单步生成达到了3.55的最新FID分数,ImageNet 64×64的单步生成达到了6.20的FID分数,甚至单独的Consistency Models也比现有的单步非逆生成模型更加优秀。

490a8cc88c115826

d3625a20bf115825

fbd488c0f4115825

ae8c717120115827

论文证明了所提出的Consistency Models可以在进行单步生成的同时实现更加高效的采样。但由于这项研究仍处于早期阶段,因此无法直接与扩散模型进行比较。期待后续能有重大的进展吧!

论文引用:OpenAI的研究团队论文:“Consistency Models”

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享