成濑心美番号

吉吉情色 13.8倍隐晦进步!浙大上海AI Lab等建议视觉生成新范式,从“下一个token”到“下一个邻域”

吉吉情色 13.8倍隐晦进步!浙大上海AI Lab等建议视觉生成新范式,从“下一个token”到“下一个邻域”

在图像 / 视频生成任务中吉吉情色,传统的"下一个 token 展望"步骤正面对严重的后果瓶颈。

怎样办?

来自浙大、上海 AI Lab 等机构的研讨东谈主员建议了一种全新的视觉生成范式——临近自回首建模(Neighboring Autoregressive Modeling, NAR)。与传统的"下一个 token 展望"不同,NAR 模子经受了"下一个邻域展望"的机制,将视觉生成历程视为一种逐渐膨胀的"外绘"历程。

具体来说,NAR 模子从运转 token 滥觞,按照与运转 token 的曼哈顿距离从小到大步骤生成 token。这种生陋习矩不仅保留了视觉本色的空间和本事局部性,还允许模子在生成历程中并行展望多个相邻的 token。

为了完结这少量,研讨东谈主员引入了维度导向的解船埠,每个头厚爱在空间或本事的一个正交维度上展望下一个 token。

通过这种神气,NAR 模子约略在每一步中并行生成多个 token,从而大幅减少了生成所需的模子前向估量圭臬。

底下具体来看。

从"下一个 token "到"下一个邻域"

在刻下的 AI 限制,视觉生成任务(如图像和视频生成)正变得越来越蹙迫。不论是生成传神的图像,仍是创造连贯的视频,AI 模子的阐扬齐在不休进步。

然则,现存的视觉生成模子,尤其是基于自回首(Autoregressive, AR)的模子,面对着严重的后果瓶颈。

传统的自回首模子频繁经受"下一个 token 展望"的范式,即按照光栅规矩一一生成图像或视频的 token。这种步骤天然不祥直不雅,但在生成高分裂率图像或长视频时,模子需要进行数千次致使数万次的前向估量,导致生成速率极其缓慢。

更倒霉的是,现存的加快步骤时时以葬送生成质地为代价。

举例,一些步骤尝试通过并行生成多个 token 来提高后果,但由于临近图像 token 之间的强关系性以及高下文信息的缺失,这种步骤容易导致生成质地下跌。

因此,如安在保捏高质地生成的同期,大幅进步生成后果,成为了视觉生成限制的一个漏洞挑战。

为了处理上述问题,研讨东谈主员建议了临近自回首建模(NAR)。

正如一开头提到的,通过引入维度导向的解船埠,使每个头厚爱在空间或本事的一个正交维度上展望下一个 token,最终让 NAR 模子约略在每一步中并行生成多个 token,从而大幅减少了生成所需的模子前向估量圭臬。

值得一提的是,维度导向的解船埠缱绻越过纯真,约略放纵膨胀到更高维的视觉本色生成。

举例,在视频生成任务中,视频不错被视为三维数据(本事、行、列),NAR 模子只需加多一个本事维度的解船埠,即可在本事、行、列三个正交维度上并行生成 token。

关于由 t × n × n 个 token 暗意的视频,NAR 模子仅需 2n+t − 2 步即可完成生成历程,远远少于传统"下一个 token 展望"模子所需的 tn2   步。

这一权臣的后果进步使得 NAR 模子在处理高分裂率视频生成任务时具有极大的上风。

13.8 倍隐晦进步

研讨东谈主员在多个视觉生成任务上对 NAR 模子进行了全面评估,实际限定令东谈主奋斗:

1、类别图像生成

在 ImageNet 256 × 256 数据集上,领有 372M 参数的 NAR-L 取得了比领有 1.4B 参数的 LlamaGen-XXL 更低的 FID(3.06 vs. 3.09),同期将生成步数减少了 87.8% 并带来了13.8 倍的隐晦进步 ( 195.4 images/s vs. 14.1 images/s ) 。

与 VAR-d16 模子比拟,NAR-M 取得了更低的 FID 的同期(3.27 vs. 3.30),能带来 92% 的隐晦进步(248.5 images/s vs. 129.3 images/s)。

这讲解与现存的自回首生成步骤比拟,NAR 模子在生成后果和质地上均取得了权臣进步。

2、类别视频生成

国产主播

在 UCF-101 数据集上,NAR 模子比拟基于"下一个词展望"(next-token prediction)的自回首模子在生成圭臬上减少了 97.3%。

比拟并行解码步骤 PAR,NAR 在 FVD 更低的同期将隐晦进步了 8.6 倍。

这收货于 NAR 模子在本事维度上的并行生成才能,确保了视频帧之间的连贯性和高质地生成。

3、文本到图像生成

在 GenEval 基准测试中,NAR 模子仅使用了 0.4% 的锤真金不怕火数据(6M)便得回了和 Stable Diffusion v1.5 相捏平的综合得分。

与参数目更大且领有 1.4B 锤真金不怕火数据的 Chameleon-7B 模子比拟,NAR 的综合得分更高(0.43 vs. 0.39)且将隐晦率提高了 166 倍。

这些实际限定不仅讲解注解了 NAR 模子在生成后果上的宏大上风,还展示了其在生成质地上的不凡阐扬。

空洞而言,NAR 模子为视觉生成任务提供了一种高效且高质地的处理决策,有望在改日的 AI 愚弄中证据蹙迫作用。

更多细节接待查阅原论文。

论文地址:

https://www.arxiv.org/abs/2503.10696

名堂主页:

https://yuanyu0.github.io/nar/

代码地址:

https://github.com/ThisisBillhe/NAR

一键三连「点赞」「转发」「谨防心」

接待在褒贬区留住你的思法!

—  完  —

学术投稿请于使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 名堂主页一语气,以及研究神气哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见吉吉情色



下一篇:没有了

Powered by 暗网人兽 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2024 版权所有