ICCV 2025训练太复杂了吗?对于照片语义和布局是

日期:2025-07-21 浏览:

这篇文章的第一本文章Cao Yok是Nanyang Technological University MMLAB的博士后。他的研究方向是3D/4D重建和一代,人类运动/视频生成以及图像生成和编辑。本文的共同作者Chenang是Nanjing University的助理教授。他的研究方向是视频图像/产生,以及发展模型的开发和加速。在图像处理领域,“图像变形”是一项常见且创意的任务 - 它可以正确移动并自然地将两个图片与不同的样式融合在一起,从而形成令人惊叹的中间图像。您可能已经在动画,电影效果或照片编辑中看到了它。过去,这项技术通常依赖于复杂的图像算法和颜色插值中的泛环,因此很难处理复杂纹理和不同语义的图像变化。近年来,尽管诸如Gan和Vae之类的深入研究方法使SIG成为了SIG他们仍然面临着重要的发展,例如高训练成本,强大的数据希望和不均匀的循环 - 尤其是在真实世界图像中。为了实现高图像变形,研究人员试图使用大型模型,例如稳定的扩散和夹子。但是,即使有最先进的解决方案,高培训成本和灵活性差仍然是困难的问题。那么,是否可以彻底进行培训?不再依靠假装模型或过度注释?变形可以很棒,并且自然而然地完成了两张图像? Tothis Challenge的解决方案是Nanyang Technological University S -Lab,Nanjing University和中国香港大学的研究团队,这提出了一种全新的方法-Freemorph。这种方法不仅在没有训练和一步的情况下意识到图像变形的影响,而且还会在具有不同语义和布局的图像之间产生一个和谐的自然转移过程,开辟了新的Possibilitie用于在没有图像训练的情况下变形的s。想进一步了解Freemorph的技术细节吗?我们为您准备了完整的纸张,项目主页和代码存储库!论文地址:https://arxiv.org/abs/2507.01953项目地址:https://yatangcao.github.io/freemorph/github:https://github.com.com/yatangcao/yatangcao/yatangcao/freemorph process the Conly consee the Pocultity consee in Compuropy -difustice -Imimage -image -image -image -image assimage assimage assimage(视觉)(视觉上)稳定的扩散)和变压器体系结构(例如PixArt-α,通量)在从文本信号中开发优质图像方面表现出惊人的功能。技术进步也为改变生成图像变形的方法奠定了基础。 Wang Golland [1]使用基于夹子的基于嵌入的嵌入的局部线性特征,通过分离潜在图像特征来实现平滑传输。在此基础上,Indus [2]引入了多阶段培训框架,包括优化文本嵌入和L的培训ORA模块,以更好地获取语义。尽管该过程在视觉上是优越的,但每种情况都需要大约30分钟的训练时间。然后,diffmorpher [3]然后gumagagamit潜在噪声与标准化的适应性示例(ADAIN)相矛盾,以提高性能。但是,当与具有不同语义和复杂布局的图像交谈时,这些技术仍然是不道德的,从而限制了它们的实用性。为了解决这些问题,我们的目标是在不调整参数和培训的情况下实现图像变形。但是,这个目标还带来了两个主要挑战:1)图像变形期间特征丢失:一般而言,面对这个问题,所有人的第一个反应是将输入图像转换为预训练的扩散模型的潜在特征,然后通过球形插值实现图像变形。但是,这种方法似乎很简单,但是扩散模式的多个步骤的多个步骤过程l导致形成的中间变形图像。同时,扩散模型本身的预训练特征很容易丢失身份信息。 2)很难实现相互关联的过渡:扩散模型本身没有明确的“趋势”,因此它仍然需要其他机制来实现平稳且连贯的拥塞 - 与变形相吻合。为了解决这两个问题,FreeMorph通过改善扩散模型的注意力机制而在不训练的情况下实现了形象的变形方法:1)指导构成球形插值:我们首先通过更改模型来增强模型,通过更改预培养的射击模型的扩散模型和Painlclud of Painlcludes expludes explicit intup Intup图像指南。这是通过球形插值来实现的,它产生了中间特征,用于两个主要方面:首先,我们进行球形特征集成以融合自我启动模块的关键特征和价值,以实现EN确保移动整个生成的图像序列的一致性。其次,为了解决丢失身份信息的问题,我们引入了一种以自我意见为指导的机制,该机制结合了输入图像的明确指导,以维持其独特的身份属性。 2)专注于步骤改变的步骤:为了实现淫秽的动作,我们建议采用逐步的新颖变化。该方法结合了两个自刺激模块,分别从两个图像NG输入中得出,以实现受控且一致的过渡,同时又获得了两个输入。为了进一步提高生成图像的质量 - 遵循图像,我们设计了一个增强的反向否定和正向故障过程,将这些创新成分纳入原始DDIM框架中。为了全面审查使用现有方法的自由状和基准测试,我们特别收集了一份新的评论。数据集包含不同类别的四组图像对根据语义统一性和图像布局的身份进行ID。 FreeMorph:未经两个输入图像提供的未经训练的图像的变形概述,我们首先建议两个模块:(1)指南指出,球形插值和(2)变化的阶梯定位式变化以增强方向(维持身份特征的能力)和一致性(正确传递)。此外,我们已经注意到,仅将这两个模块中的任何一个应用于否定步骤并不完美。因此,如上所述,我们正在开发一个增强的过程,用于向前扩散和反向去脱启发过程。球形插值现有图像梯度技术的启动意识[25,47,49]通常需要为每个输入图像训练低级模块(LORA),以增强语义理解并实现平滑传输。但是,这种方法通常无效,及时且难以处理不同的语义或布局ENT图像。在本文中,我们建议一种基于预训练的稳定扩散模型的可调节无参数图像梯度的方法。使用DDIM功能(如公式2所示)进行图像旋转和插值,可以照顾输入的捕获图像并应用球形插值,这看起来像是简单明了的解决方案:在其中转换潜在特征。在实验中,我们设置了j = 5。这是中间图像的索引,但是,直接反转图像中插值潜在特征通常会导致转移和识别信息丢失的不一致(请参见下图)。这个问题的根源在于:1。多步骤的定位不是线条,从而发现生成的图像顺序; 2。缺乏控制可分离过程的明确指南使得扩散本身的预训练模型的mod sentaritelo。球形特征集成 - 包括:DRA从以前的图像编辑技术中,我们注意到具有功能的特征更改键和价值功能(K和V)可以显着改善平滑度和维护图像传输信息的功能,尽管仍然存在一些缺陷(请参见上图)。由于从右到注意机制的启动和使用图像,受到这一发现的启发,并认识到查询功能(Q)进一步反映了整体图像布局,我们建议首先从左和右图像()中首先融合功能,以提供许多步骤过程的明确指南。特定操作如下:在步骤中t:1。我们输入图像以捕获其tampsok钥匙和价值(输入预训练2的相应潜在特征2。接下来,我们更换了当前中间状态下获得的原始K和V特征。3。我们计算了左图和右图的K和V功能。LY改善了图像梯度的身份信息的维护,我们发现在正向扩散和反向否定阶段使用此方法将导致生成的图像的最小变化,并且无法准确表示输入图像。对反向丹尼斯主义过程有麦克隆的影响(如下图所示)。因此,应用上述公式中描述的功能引入了歧义 - 输入图像一致且强大的强迫,使我看起来相似的每个中间潜在噪声都限制了过渡的有效性。为了解决这个问题,我们特别提出了先验驱动的机制。该机制欣赏了球形插值的潜在特征,以确保在潜在噪声空间内平滑传输;同时,在随后的阶段强调输入图像,以维护识别信息。具体方法是:在反向den中AISIS阶段:我们继续使用Formula 5中描述的方法(左和右图像特征的集成)。在扩散的前进步骤中:我们采用了一种不同的注意机制,通过更改自我 - 远古模块来实现:也就是说,使用与K之间所有J步骤相对应的键和值的平均值()来计算注意力。在获得图像序列以反映方向并准确反映输入图像的身份后,逐步导向的趋势是如何实现从左图的变化趋势的下一个挑战。 相同并逐渐移动。这个问题是由于缺乏从右边获取的形象而引起的。直到这段时间,我们建议改变变化的逐步变化,逐渐改变输入图像()在生成过程中的影响:表示图像总数(包括J的生成图像和输入2的图像)。一般的正向扩散和反向分解过程:高频高斯噪声注入:如前所述,Freemorph在正向扩散和反向Denoising阶段中均包含左右图像的特征。但是,我们注意到有时候它对发电过程施加了非常严格的障碍。为了减轻此问题并允许更大的灵活性,我们建议在向前扩散步骤后在潜在矢量Z的高频下注射高斯噪声:这代表了傅立叶迅速变化和傅立叶迅速变化的相反。 指示随机样品噪声矢量,M是与Z相同的二元高通滤膜。一般过程:为了使图像梯度的影响,我们发现在所有DENAISISINE STEPS中,相等地应用感知球形插值指南或阶跃面向的趋势将导致次要结果。直到今天,我们已经为正向扩散和反向denoing开发了罚款Process.scheme精炼:通过传播:上一步:使用标准的自我刺激机制。从步骤开始:应用由先验驱动的自动机制(即平均中间状态的所有特性)。其余步骤:实施趋势的步骤变化(左右图影响)。反向定居:上一步:使用阶梯趋势。从步骤开始:应用功能特征方法(即双刻画特征平均融合)。在最后一步中:回到自我刺激的原始机制(追求最大的诚实)。在这里,它是超参数,t = 50是步骤的总数。实验结果结果:在下图中,我们显示了Freemorph产生的效果,该效果完全证明了产生高质量平滑传递的能力。 Freemorph不仅仅是不同的情况:它可以处理具有不同语义和布局的图像,还可以控制具有相似功能的图像。同时,这是D还可以有效地获得微妙的变化 - 如果它是不同颜色的蛋糕或字符表达式的细微差异,则可以准确地显示。与图像变形的其他方法进行比较:在下图中,我们提供了与现有图像应力过程的定性比较。图像变形的有效结果应显示从资源图像(左)到目标图像(右)的渐进过渡,同时保持原始身份特征。基于此标准,可以获得以下观察值:1。处理具有显着语义和布局差异的图像时,Indus [2]在身份和过渡特征上存在问题,这些特征不是光滑的。如下图所示:(i)第三生成的图像偏离了原始身份特征; (ii)突变发生在第三和第四形成图像之间; 2。虽然diffmorp她的[3]取得的过渡比陷入困境更好,结果通常是模糊的,总体质量较低(请参阅下图中的第一个情况); 3。p的主要方法(仅使用球形插值和DDIM过程)具有三个主要的缺点:(i)由于缺乏明确的指南,很难准确准确地准确地准确地准确地准确地将输入的图像准确,(ii)图像质量很困难,并且(iii)突变的转移。相比之下,该方法始终显示出良好的性能,并为高含义的平滑传输属性和图像质量带来了重大好处。总结本文建议FreeMorph,这是一个新的过程,而无需调整参数,该过程可以在30秒内为两个输入图像生成高质量的平滑偏移。具体而言,这种方法是通过更改自我抛置模块来介绍显式图像指南的现代方法。它的基本技术包括两种创新成分:球形的合并后的机制和一个自我-DRiven驱动的机制。此外,我们建议一种方向多样性的趋势,以确保转移方向严格与输入图像一致。为了将上述模块集成到原始的DDIM框架中,也专门设计了一个增强的前向和反向降解过程。大量实验表明,在不同情况下,自由化可以产生高诚实的结果,超过了具有明显优势的现有图像变形技术。限制和故障的情况:即使我们的方法达到了当前的最新水平,仍然存在一些局限性。我们在下图中显示了某些失败的情况,包括:1)当使用Magreat语义或布局差异处理图像时,尽管该模型仍可能产生一些合理的结果,但转移过程可能不够平滑且突变; 2)由于我们的程序基于稳定的扩散,因此自然偏差也将继承,在处理诸如人类四肢之类的结构时,导致图像传输的准确性受到影响。参考文献[1]通过扩散模型之间的图像之间插值。 ICML研讨会2023。[2] iSpus:使用扩散模型进行感知均匀采样的图像变形。 ICLR 2023。[3] diffmorpher:当涉及到扩散模型进行图像变形的能力时。 CVPR 2024

0
首页
电话
短信
联系