拥抱Transformer架构, 腾讯混元文生图大模型能力提升

21世纪经济报道 21财经APP 白杨 北京报道
2024-05-15 11:53

DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

21世纪经济报道记者白杨 北京报道

5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源。去年10月,腾讯混元大模型对外开放了“文生图”功能。这次升级后,混元的“文生图”功能实现了质的变化。

据腾讯文生图负责人芦清林介绍,升级后的混元文生图大模型采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

DiT(Diffusion With Transformer)架构,是一种基于Transformer架构的扩散模型,目前也是业内公认的文生图领域最先进的架构,生图效果超过开源Stable Ddiffusion模型及其他开源文生图模型。

腾讯混元生成图片(提示词:公园草坪上,刚下过雨,空气清新湿润,三只小狗快乐地追逐玩耍)

更领先的技术架构

在业内,用于理解扩散模型最常听见的比喻,是来自意大利文艺复兴雕塑家米开朗琪罗的一句话:“塑像本来就在石头里,我只是把不需要的部分去掉。”

所以,去除不需要的部分,就是扩散模型的工作原理。而如何思考、判断和计算该去掉哪些石头、怎么去掉这些石头,这个思考框架就是“U-Net架构”和“Transformer架构”的核心区别。

U-Net架构的思路是逐步缩小图像,然后计算图像的相似性。这样不仅可以大大降低计算量,简化之后有可能发现图片过大时更不容易发现的相似之处与特征。

过去几年,生成扩散模型主要依赖于U-Net架构。然而,随着模型参数量的增加,U-Net模型容易陷入性能瓶颈,并且难以灵活适配多模态任务需求。

比如,用户如果希望生成一副“一位年轻亚洲女子”这样简单的图像时,U-Net架构还可以轻松处理;但如果指令变得愈发复杂,比如需要画面中具有多个不同主体,而且对每个主体的外表、神态、位置都有详细的描述,这个任务就会变得有点困难。

而Transformer架构则是将一张大图切割成无数个小图片,然后通盘计算整幅图像中各个图像块之间的关联,从而计算出与目标指令最接近的图。

这种机制的优点是不会忽略图片中的任何细节,但需要更多的计算资源。所以,Transformer架构只要算力与数据量足够,就可以无限扩展。正因如此,基于Transformer 架构的扩散模型DiT,很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

生图效果提升超20%

2023年7月,混元文生图团队明确了Transformer架构的方向,并启动了长达半年时间的研发、优化和打磨。2024年2月初,混元文生图成功将模型基础架构升级为Transformer。

芦清林向记者表示,DiT架构结合了扩散模型和Transformer架构的创新技术,具有高扩展和低损失两大特点。

“DiT架构通过Transformer block堆叠,可以极大提升模型性能,并朝着模型涌现方向迸发。同时,它可以最大成都缓解U-Net下采样引入的信息压缩,进而提升图像生成精度和创造力。”芦清林说。

然而,从U-Net升级到Transformer也存在很大的挑战。首先,Transformer架构本身并不具备用户语言生图能力;其次,DiT本身对算力和数据量要求极高,文生图领域缺乏高质量的图片描述与图像样本训练数据。

对此,混元文生图团队在模型中加入了LLM组件,使DiT架构具备了长文本理解能力,能够支持最多256字符的内容输入。同时,算法层面的创新,也使混元文生图大模型具备了多轮生图和对话能力,允许用户在初始生成的图片基础上,通过自然语言描述进行调整。

针对数据质量方面的挑战,混元文生图团队是通过构建结构化图片描述能力,提升文生图训练文本数据质量,并结合领域专家模型和构建文本注入Caption模型增强图片描述的知识性,提升文生图训练图文数据质量。

评测结果显示,升级DiT架构后的腾讯混元文生图大模型,对比原先基于U-Net架构的模型,视觉生成效果提升了超 20%,同时在语义理解、画面质感与真实性方面都得到了提升。

目前,腾讯混元文生图能力已经被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告也基于腾讯混元大模型,发布了一站式AI广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等功能。

(作者:白杨 编辑:骆一帆)

白杨向TA提问

IT版记者

关注科技互联网领域报道。微信:by_xiansheng(加好友请备注姓名、公司及职务)