生成式AI市场“王炸”不断。最近,不仅国际大模型分分钟在上演科技春晚,国内大模型也在频繁秀肌肉。
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,这是业界首个中文原生的DiT(Diffusion Models with Transformers)架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。
值得一提的是,混元DiT架构与Sora 架构一致,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。目前,混元大模型已在Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
探索超越视觉生成的边界
▲腾讯混元文生图技术负责人 芦清林
“DiT是视觉生成全新模型架构,今年2月份发布的Sora,还有StabilityAI的SD3,其实背后技术都是DiT这样一个网络结构。” 腾讯混元文生图技术负责人 芦清林,在媒体采访中表示,DiT在大规模提升参数量方面具有出色表现。
过去,大部分企业都基于Unet去做视觉生成模型,该架构的优势是能够成为语义分割任务中的全能选手,但劣势是只懂图片,遇到难题时容易卡顿。而Transformer能懂不同模态信息,不管文本、包图像还是视频,全部可以看成是一个是Token。尤其,随着参数量的升级,基于Transformer架构的DiT具备很强的扩展力,能够全面提升文生图的水平。所以, 腾讯混元坚定不移地选择了Transformer和扩散模型结合的路线。
全新DiT架构正在超越视觉生成的边界,在高扩展和低损失等方面带来更好的体验。通过Transformer block堆叠,可以极大提升模型性能,朝着模型涌现方向进发。同时,可以最大程度缓解Unet下采样引入的信息压缩,提升图像生成的精度和创造力。
混元DIT三大升级
具体来看,混元DiT架构实现了三大能力升级:
1、 建模能力更强,参数更大
在此前的Unet架构下,会先把图片压缩成更小的图片,然后再重新放大回来,压缩过程中会造成信息损失。2023年,DiT模型在业界推出后,得到业界的热捧,省去了压缩的环节。
混元文生图大模型在DiT基础上做了诸多升级:包括更强的理解能力,比如:原生中英双语支持、更长指令的理解;尺寸的易扩展能力,支持输出多分辨率图像,提升不同分辨率生成图像的质量;更稳定的训练过程,更易适配社区插件。
DiT升级以后,可以明显感觉到训练的稳定性有大幅提升。不管0.7B升级到1.5B,还是5B、10B更大模型的时候,都能训练得更加合理和靠谱。同时,生成图片的分辨率也在做多种尝试,不管是1:1、4:3、3:4、16:9、9:16的分辨率,都能支持。另外,从开始的256X256的图片,再变成512X512的图片,整体稳定性都不会受到影响。
而从社区插件适配的层面来看,现在的混元DiT可以更好地兼容整个生态的文生图插件,帮助广大开发者降低模型插件迁移的成本,能更快地把各种功能用起来。
2、 原生中文理解能力增强,实现了双语、双模型编码
混元DiT还做了一个重要升级,那就是支持原生的中文理解能力。过去,我们奉行的是“拿来主义”,即把国外的应用拿过来,进行中文数据的调整,在翻译过程中会造成很多数据损失,甚至有很多歧义。混元文生图没有经历这样的翻译过程,而是直接用中文原生的数据进行训练,所以更能理解中文,比如:麻婆豆腐的翻译不会是“spicy tofu”。
为了增强中文语意理解,混元DiT还对非常多的内容进行了专门的优化,包括:地标、成语故事和一些主语等,在很多更强调中国元素的场景,表现得更接地气。
在长文本和细粒度表达效果方面,混元DiT可以支持256个字节。这是什么概念呢? 比如:对一尊雕像图片的描述,可以是“一个古代的法老……穿着一件清爽的白色T恤黑色夹克……”我们可以描述得更加精细,能更好地把内容生成出来。为了让表达变得更细粒度,混元DiT还会把一段数据做成正负样本,让模型知道哪个是正确的,哪个是错误的。
3、具有多轮对话能力,实现了文生图的交互式协作
多轮对话能力,本质上是大语言模型能力,可以不停做用户和chekbox之间的交互,如果用户对生成图片不满意,可以告诉大模型如何调整,并且通过多轮对话的意图总结成一个新的prombt,再生成一张图片,让用户的使用变得更加便捷和舒适。
目前,腾讯已经把混元文生图模型全面开源,即使和很多闭源的文生图模型相比,也没有短板。据芦清林介绍,在最新的DiT架构探索中,腾讯踩了很多坑,从去年的7月份一直到今年的1月份,逐步把很多问题解决掉,期间投入了超大规模数据和资源,最终才拿出来和业界分享。
对于开发者和社区来说,混元文生图开源带来的好处显而易见。比如:可以有效降低开发者在模型适配上的成本;同时,可以加速社区垂类应用的发展。
需要重点强调的是,腾讯混元文生图开源模型是最新版本,并没有闭源一个版本,开源一个版本。之所以要把最新成果与业界免费分享,是因为腾讯相信,混元的未来不会止步于此,还会有更卓越表现。