您还可以向Phenaki输入初始帧和提示来生成视频
生成内容AI,进入视频时代!
Meta的带嘴视频发布仅一周,谷歌CEO柴柴就接连派出两名选手参赛。
相比Meta的Make—A—Video,first Imagen视频的清晰度很高,可以生成1280*768分辨率,每秒24帧的视频片段。
另一位选手Phenaki可以根据200字左右的提示生成2分多钟的长镜头,讲述一个完整的故事。
看完之后,网友们纷纷表示,这一切进步太快了。
也有网友认为,这项技术一旦成熟,将会冲击短视频行业。
那么,这两个AI的具体能力和特点是什么呢我们分开来看
Imagen视频:理解艺术风格和3D结构
Imagen视频也是基于最近大火的扩散模型,直接继承了SOTA模型Imagen,五月的图像生成模型。
除了高分辨率,它还显示了三种特殊能力。
首先,它可以理解并生成不同艺术风格的作品,比如水彩画或像素画,或者直接梵高风格。
它还能理解物体的3D结构,在旋转显示中不会变形。
最后,它继承了Imagen对人物的精准描述能力,并在此基础上,仅通过简单的描述,制作出各种创意动画。
这种效果,直接作为一个视频的标题也不过分吧。
除了出色的应用效果,研究人员表示,其中使用的一些优化技术不仅对视频生成有效,还可以推广到一般的扩散模型。
具体来说,Imagen Video是模型的集合。
语言部分是谷歌自己的T5—XXL训练后,它冻结文本编码器部分
与负责从文本特征映射到图像特征的CLIP相比,有一个关键区别:
语言只负责编码文本特征,把文本到图像转换的工作留给后期的视频扩散模型。
基本模型基于生成的图像,以自回归方式连续预测下一帧首先生成48*24,每秒3帧的视频
接下来,一系列空间超分辨率和时间超分辨率模型相继对视频进行扩展。
七种扩散模型都使用v—预测参数化方法,与传统方法相比,可以避免视频场景中的颜色偏移。
这种方法推广到一般的扩散模型,也使得样本质量指数的收敛速度更快。
此外,还有渐进式蒸馏,将每次迭代所需的采样步骤减少了一半,大大节省了内存消耗。
这些优化技术相加,最终使生成高清视频成为可能。
费纳基:每个人都可以成为导演
Phenaki的论文提交给了ICLR 2023大会,当Meta在一周前发布Make—a—video时,它仍然是匿名和双盲的。
现在信息公开了,原来的研究团队也来自谷歌。
在公开资料中,Phenaki展示了其交互生成视频的能力,可以任意切换视频的整体风格:高清视频/漫画,也可以切换任意场景。
您还可以向Phenaki输入初始帧和提示来生成视频。
这还是开胃菜,Phenaki真正的绝招是:讲故事可以生成2分钟以上的长视频,输入一系列200多字的提示即可获得
从文本提示到视频,高计算成本,高质量文本视频数据量有限,视频长度可变一直是这类模型发展中的难题。
过去,大多数AI模型通过单一提示生成视频,但这远远不足以生成一个长而一致的视频。
而Phenaki则可以生成2分钟以上的视频,它也有故事情节,这主要是因为它能够根据一系列提示生成视频。
具体来说,研究人员引入了一种新的因果模型来学习表示视频:视频被视为图像的时间序列。
该模型基于transformer,可以将视频分解成离散的小表示,视频的分解是按照时间的因果顺序进行的。
说的通俗一点,就是通过空间转换器对单个提示进行编码,然后用因果转换器将多个编码后的提示串联起来。
一个提示生成一个视频,这样视频序列就可以沿着提示中描述的时间顺序把整个故事串起来。
由于视频被压缩成离散的图像序列,也大大减少了AI处理的标记视频的数量,在一定程度上降低了模型的训练成本。
说到模型训练,像大型图像系统一样,Phenaki主要使用文本—图像数据进行训练此外,研究人员还使用帧率为8FPS的1.4秒短视频文本来训练Phenaki
只有通过大量图像文本对和少量视频文本实例的联合训练,才能达到突破视频数据集的效果。
Imagen Video和Phenaki,Google相继放出大招,从文字到视频的AI发展迅速。
值得一提的是,Imagen Video表示,两个团队将在下一步的研究中展开合作。
嗯,有网友等不及了。
还有一点
出于安全和道德原因,谷歌暂时不会发布这两种视频生成模型的代码或演示。
可是,既然论文已经发表,开源副本的出现只是时间问题。
毕竟,Pytorch版本出现在GitHub上仅仅是在Imagen论文问世几个月后。
此外,stability Diffusion背后的StabilityAI创始人兼CEO也表示,将会发布比Meta的Make—A—Video更好的模型,而且会是大家都可以用的那种。
当然,每次AI有新的进展,必然会遇到那个话题——AI会不会取代人类。
老实说,作为一个在电影行业工作了十年的人,这个话题很让人沮丧。
在他看来,现在的视频一代AI在外人看来已经足够惊艳,但业内人士会认为AI仍然缺乏对每一个镜头的精细控制。
关于这个话题,StabilityAI的新任首席信息官丹尼尔·杰弗里斯此前撰文指出,AI最终会带来更多的工作岗位。
比如,照相机的发明虽然取代了大部分肖像画家,但也造就了摄影师,开辟了影视等新产业。
五年后回头看,反对AI和现在反对Photoshop一样奇怪AI只是另一个工具
杰弗里斯说,未来是环境人工智能的时代,所有的行业和领域都将在人工智能的加持下发展。
但我们现在需要的是更开放的人工智能环境,也就是开源!
最后,如果现在想玩AI生成的视频,可以先在HuggingFace上试试清华和致远实验室的Cogvideo。
图像:
Phenaki:
Cogvideo演示:
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
热门阅读
- 1走进县城看发展江苏宜兴加快产业结构升
- 2创新驱动未来 中国一汽以自立自强勇立
- 3青岛放宽限购:限购区域缩小门槛降低二
- 4奥迪Q3提供三种动力选择爆发力一般足
- 5安居区正全力打造门槛更低不断擦亮中国
- 6安博通:子公司拟2亿元购买房产用于I
- 7长安向市场推出了热门的长安逸动PLU
- 8东风向其高端梦想发起冲击推出了电动豪
- 9育碧官方商城现上架Cry6年度版售价
- 10欧蓝德还提供五座版和七座版供消费者选
- 11极限福克斯阿尔法逆天的动作让很多人有
- 12磨合时车速超过120对车辆有什么影响
- 13com—新重庆客户端讯近几天雷诺官方
- 14荣耀终端有限公司中国区CMO江海荣宣
- 15作为一个专注于财商知识普及的学习平台
- 16均搭载12代酷睿U和H系列i5处理器
- 178月旅客周转量同比增长9.51%目的
- 18表示将以4月敲定的价格即每股54.2
- 19命名为PredatorBiFrost
- 208月电动车市“真实”销量出炉!华为问
- 21《羊了个羊》微信小游戏日收入468万
- 22使其在黑暗背景下明显使其在黑暗背景下
- 23项目计划总投资约120亿元规划30G
- 24徕卡发布了Summilux—M35m
- 25ST皇台收半年报问询函:要求说明是否
- 26宋功友已通过大宗交易减持公司股份约5
- 27创新“深”态第9期51家公司三季报预
- 28公司积极扩大新能源电磁扁线产能产品和
- 29配备了27英寸2K165HzNano
- 30新款思域TypeR是有史以来速度快动
汽车点评网 分析汽车
关注汽车点评网,收听和分享“汽车秘密”
携手汽车点评网,为您提供更多汽车行业新鲜货。