adtop
首页 商业 查看内容

字节跳动最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!

2022-03-25 08:37| 发布者: 兰心雪| 查看: 83516| 评论: 0|来自: IT之家  阅读量:5022   

摘要:一个文本—图像对数据都不用,也能让AI学会看文作图来自字节的最新text2image模型,就做到了实验数据显示,它的效果比VQGAN—CLIP要真实,尤其是泛化能力还比不少用大量文本—图像数据对训练出来的模型要好很多 ...

一个文本—图像对数据都不用,也能让 AI 学会看文作图来自字节的最新 text2image 模型,就做到了实验数据显示,它的效果比 VQGAN—CLIP 要真实,尤其是泛化能力还比不少用大量文本—图像数据对训练出来的模型要好很多

字节跳动最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!

不用文字训练也能根据文本生成图像

一共分三大步。

首先,对于一幅没有文本标签的图像,使用 CLIP 的图像编码器,在语言—视觉联合嵌入空间中提取图像的 embedding。

接着,将图像转换为 VQGAN 码本空间中的一系列离散标记也就是将图像以与自然语言相同的方式进行表示,方便后续使用 Transformer 进行处理其中,充当 image tokenizer 角色的 VQGAN 模型,可以使用手里的无标记图像数据集进行训练

最后,再训练一个自回归 Transformer,用它来将图像标记从 Transformer 的语言—视觉统一表示中映射出对应图像经过这样的训练后,面对一串文本描述,Transformer 就可以根据从 CLIP 的文本编码器中提取的文本嵌入生成对应的图像标记了

那这样全程没有文本数据参与训练的文本—图像生成器,效果到底行不行。

性能与清华 CogView 相当

其中,VQGAN—CLIP 的结果比较不真实,并且伴随严重的形状扭曲来自清华的 CogView 号称比 DALL—E 更优秀,在这里的实验中,它确实可以生成良好的图像结构,但在纹理细节上差点儿事儿DF—GAN 可以生成具有丰富细节的合理图像,但也容易产生局部伪影

定量实验结果基本证明了这一结论:

CLIP—GEN 拿到了最高的 FID—0,FID—1 分数,CapS 得分除了比 CogView 低 4%,比其他模型都高很多。

一作 Wang Zihao 本科毕业于北京理工大学,博士毕业于 UC 伯克利,曾在谷歌担任 3 年软件开发工程师,现就职于 TikTok。

论文地址:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

分享至:
| 收藏

相关

  • AI学会了用“人眼”看世界,甚至连人类瞳孔的细微缩放都能模拟
  • 为了搞清楚人类是怎么看世界的,计算机开始学着转动眼球了: 然后凭借转动的眼球搜集要观测的信息,再聚焦在文字或者图像上,开始收集数据: 不仅能正常读书看画,甚至能模拟人类在无聊,兴奋,紧张等各种不同情绪下的瞳孔放缩...
  • 企业家在线 发布于  2022-03-24 22:00  
  • 精华制药3月24日交易公开信息振幅9.63%
  • 精华制药今日涨停,全天换手率15.19%,成交额31.09亿元,振幅9.63%龙虎榜数据显示,机构净买入6275.29万元,营业部席位合计净买入1.95亿元 深交所公开信息显示,当日该股因日涨幅偏离值达10.87%...
  • 企业家在线 发布于  2022-03-24 19:31  
  • 近3个月内该股累计发生5笔大宗交易合计成交金额为5506.33万元
  • 金马游乐3月24日大宗交易平台共发生2笔成交,合计成交量113.54万股,成交金额2370.36万元以折溢价进行统计,今日2笔大宗交易成交价相对收盘价均为溢价交易 进一步统计,近3个月内该股累计发生5笔大宗交易,合...
  • 企业家在线 发布于  2022-03-24 18:51  

企业家在线© 2012-   X3.4