苏畅麻豆  

你的位置:苏畅麻豆 > 香港成人综合网站 >

白丝 超过ControlNet++!腾讯优图淡薄动态条目接管新架构

发布日期:2024-12-29 08:29    点击次数:162

白丝 超过ControlNet++!腾讯优图淡薄动态条目接管新架构

超过 ControlNet++白丝,让文生图更可控的新框架来了!

腾讯优图、南洋理工、浙大等磋议机构颐养推出DynamicControl,平直将多模态大言语模子(MLLM)的推理才气集成到文本生成图像(T2I ) )任务中。

况兼还淡薄了一种新颖、高效的多限制适配器,不错自符合地接管不同的条目,从而杀青动态多限制对都。

聚色庄园

实验收尾泄漏,DynamicControl 大大增强了可控性,且不会捐躯图像质地或图像文本对都。

话未几说,底下来看具体施行。

DynamicControl:动态条目接管新架构

基于 ControlNet 类模子,之前的处事探索了各种限制信号,举例布局管理、分割图和深度图,以决定生成的图像中的空间成列、物体时势和景深。

此外,该范畴还见证了使用快速工程和交叉安详管理来进一步完善图像生成的革新。

不外现存款式均存在各自的局限性。

比如,议论到一个对象的多种条目,一条知晓(举例 UniControl、UniControlNet)在测验过程中就地接管一次激活一种条目,如图 1 ( a ) 所示。

这种处理不同视觉条目的才气非常低效,将大大增多测验的计较使命和本领资本。

另一类关键(举例 AnyControl、ControlNet++)使用固定数目(频频为 2 或 4)的条目,并选择 MoE 瞎想或多限制编码器来处理条目数目变化的问题,如图 1 ( b ) 所示。

关联词,这种固定数目决策并莫得从根蒂上处理多条目问题,也莫得议论多条目是否与生成收尾相冲破。

天然这些关键推广了受控图像生成的可行性和应用,但在不同条目下增强可控性的显着而全面的关键仍然是一个正在进行的磋议和斥地范畴。这突显了在 T2I 扩散模子中集成和优化限制机制以杀青更可靠和更刺眼的图像合成方面需要握住革命。

给定来自消失主题的多个条目,对于交流的文本领导,不同的条目在心绪、纹理、布局,合感性等方面产生不同的收尾。

此外,从与源图像的通常度 SSIM 得分来看,不同的条目难以准确生成与输入源图像一致的图像。这也标明不同条目对生成更好图像的孝敬不同,有些条目致使会产生负面影响。

因此,在先前的关键中,仅接管一个或固定数目的条目而不议论它们在生成更接近源图像的图像方面的遑急性以及每个条目之间的里面议论是次优的。

为了处理这个问题,磋议淡薄了DynamicControl,这是一个解救多种限制信号动态组合的新框架,它不错自符合地接管不同数目和类型的条目,如图 1(c)所示。

具体咋作念到的

算法的举座进程如下图所示。

给定多种条目,磋议率先引入双轮回限制器来产生委果的名次分数,算作与 MLLM 勾通测验条目评估器的监督信号。

然后,这些名次的条目与来自预测验条目评估器的接管分数由多限制适配器动态编码,以杀青可控的图像生成。

Double-Cycle Controlle

鉴于磋议将多条目可控性宗旨化为输入条目之间的动态接管,因此使用判别奖励模子来推测这种接管是可行的。

通过量化生成模子的输出,磋议简略依靠这些定量评估来集体增强各种条目限制的优化,以促进更可控的生成过程。

具体来说,给定多个条目和文本领导,磋议率先期骗预测验的条目生成模子为每个条目生成图像。

然后通过不同的预测验判别模子索要相应的反向条目。

基于这些生成的图像和反向条目,磋议瞎想了一个双轮回限制器,对输入的多个限制条目进行驱动遑急性评估。该双轮回限制器由两个一致性分数构成,即条目一致性和图像一致性。

(1)条目一致性。对于每个输入条目和生成图像的相应输出条目,磋议优化了条目轮回一致性亏本以赢得更好的可控性,其公式为:

这里磋议对扰动图像施行单步采样,其中 D 是判别奖励模子,用于优化 G 的可控性。L 暗意抽象度量函数,可笔据特定的视觉条目符合各种具体时势。

这种无邪性使其简略笔据不同视觉分析任务的独到要求进行定制,从而增强模子在不同场景中的适用性和有用性。

(2)反向图像一致性。除了条目一致性除外,磋议还选择反向图像一致性亏本来保证原始图像与生成的图像通常。

磋议通过最小化生成的图像和源图像之间的像素和语义互异来杀青这少量。给定源图像和生成的图像的 CLIP 镶嵌,亏本界说为:

这种亏本确保模子在应用条目和文本指示时简略诚笃地回转条目并复返到源图像,通过最小化源图像和生成的图像之间的互异来强制施行模子。

Condition Evaluator

天然双轮回限制器不错对各种限制条目进行综合评分,但仍然濒临两个挑战:

(i)使用事先测验的生成模子进行图像合成都会给收尾带来较高的不细则性,这意味着对所选择的基础生成模子的依赖性很高。

(ii)源图像在测试过程中不成用,尤其是在用户指定的任务中。为了处理这个问题,磋议在收集架构中引入了多模态大言语模子(MLLM)。

如图 3 所示,给定条目 c1、c2、…、cN 和指示 τ,磋议的主要计议是期骗双周期限制器的得分排序来优化条目的最好排序。

磋议用 N 个新记号"、…、",推广了 LLaVA 的原始 LLM 词汇表以暗意生成信息,并将这些记号附加到指示 τ 的末尾。

然后,将条目 c1、c2、…、cN 和重新组织的指示 τ ’输入到大言语模子 ( VLLM ) LLaV A ( · ; ω ) 中以赢得对记号的反应,这些记号被处理以索要相应的荫藏状况 hi ∈ H,从 VLLM 对输入的暗意中拿获更深层的语义信息。

关联词,这些荫藏状况主要存在于 LLM 的文本向量空间中,在与扩散模子(尤其是基于 CLIP 文本镶嵌测验的模子)交互时会出现兼容性问题。这种互异可能会阻抑模子之间的有用集成。

议论到这少量,磋议搬动了 Q-Former,以将荫藏状况细化为与扩散模子兼容的镶嵌 fc。

转机过程暗意为:

轮回优化过程不错表述为:

随后,每个条目的 LLM 预计收尾由双轮回限制器的相应排序分数进行监督,从而优化最终的排序名次。该过程暗意为:

多限制适配器动态编码

为了符合多种动态限制条目的同期应用,作家们革命性地瞎想了一个多限制适配器。该适配用具于自符合地解释复杂的限制信号,从而简略从文本领导和动态空间条目中索要全面的多限制镶嵌。

在赢得经过邃密预测验的条目评估器后,不错期骗其宏大的颐养才气对统共输入条目进行评分。

从评分条目池中,只消那些达到或高出预界说阈值的条目才会被选中参与后续的 T2I 模子优化。

这种接管性关键确保只消最有关和最高质地的条目才能参与测验过程,从而有可能擢升 T2I 模子的有用性和成果。

对于阈值竖立,它不是手动预界说的,也不是在测验集内的所非凡据对中保抓一致的。相背,它被设立为一个可学习的参数,允许模子自符合地细则和调节各种数据集的阈值。

因此,这种自符合机制导致动态和各种化的限制条目在数目和类型上都莫得冲破。

这些条目在测验过程中的使用取决于每个数据集的具体特征。这种关键确保测验简略笔据各种数据输入的独到需乞降幽模糊别进行量身定制。

实验收尾

概述而言,来自各种条目限制的实验收尾标明,DynamicControl 大大增强了可控性,而不会捐躯图像质地或图像文本对都。

其中,不同条目限制和数据集下的可控性比拟如下。

不同条目限制和数据集下的 FID(↓)/ CLIP 分数(↑)比拟如下。

可视化收尾也出来了。

回来

在论文中,磋议从定量和定性的角度诠释了现存的专注于可控生成的磋议仍然未能充分期骗多种限制条目的后劲,导致生成的图像与输入条目不一致。

为了处理这个问题,磋议引入了 DynamicControl ,它使用高效的条目评估器对条目进行排序,明确优化了多个输入条目和生成的图像之间的一致性,从而将 MLLM 的推理才气集成到 T2I 生成任务中。

此外,磋议还淡薄了一种新颖而高效的多限制适配器,不错自符合地接管不同的条目,从而杀青动态多限制对都。

来自各种条目限制的实验收尾标明,DynamicControl 大大增强了可控性,而不会捐躯图像质地或图像文本对都。

这为可控视觉生成提供了新的视角。

论文:

https://arxiv.org/abs/2412.03255

款式主页:

https://hithqd.github.io/projects/Dynamiccontrol/

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿施行‍

附上论文 / 款式主页贯串,以及议论款式哦

咱们会(尽量)实时回话你

点这里� � 温雅我,铭刻标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿证据日日重逢 ~  



Powered by 苏畅麻豆 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024