汽车点评网 > 访谈 >

您还可以向Phenaki输入初始帧和提示来生成视频

来源：IT之家作者：张璠时间：2022-10-07 16:00 阅读量：9078

2022-10-07 16:00

生成内容AI，进入视频时代！

Meta的带嘴视频发布仅一周，谷歌CEO柴柴就接连派出两名选手参赛。

相比Meta的Make—A—Video，first Imagen视频的清晰度很高，可以生成1280*768分辨率，每秒24帧的视频片段。

另一位选手Phenaki可以根据200字左右的提示生成2分多钟的长镜头，讲述一个完整的故事。

看完之后，网友们纷纷表示，这一切进步太快了。

也有网友认为，这项技术一旦成熟，将会冲击短视频行业。

那么，这两个AI的具体能力和特点是什么呢我们分开来看

Imagen视频:理解艺术风格和3D结构

Imagen视频也是基于最近大火的扩散模型，直接继承了SOTA模型Imagen，五月的图像生成模型。

除了高分辨率，它还显示了三种特殊能力。

首先，它可以理解并生成不同艺术风格的作品，比如水彩画或像素画，或者直接梵高风格。

它还能理解物体的3D结构，在旋转显示中不会变形。

最后，它继承了Imagen对人物的精准描述能力，并在此基础上，仅通过简单的描述，制作出各种创意动画。

这种效果，直接作为一个视频的标题也不过分吧。

除了出色的应用效果，研究人员表示，其中使用的一些优化技术不仅对视频生成有效，还可以推广到一般的扩散模型。

具体来说，Imagen Video是模型的集合。

语言部分是谷歌自己的T5—XXL训练后，它冻结文本编码器部分

与负责从文本特征映射到图像特征的CLIP相比，有一个关键区别:

语言只负责编码文本特征，把文本到图像转换的工作留给后期的视频扩散模型。

基本模型基于生成的图像，以自回归方式连续预测下一帧首先生成48*24，每秒3帧的视频

接下来，一系列空间超分辨率和时间超分辨率模型相继对视频进行扩展。

七种扩散模型都使用v—预测参数化方法，与传统方法相比，可以避免视频场景中的颜色偏移。

这种方法推广到一般的扩散模型，也使得样本质量指数的收敛速度更快。

此外，还有渐进式蒸馏，将每次迭代所需的采样步骤减少了一半，大大节省了内存消耗。

这些优化技术相加，最终使生成高清视频成为可能。

费纳基:每个人都可以成为导演

Phenaki的论文提交给了ICLR 2023大会，当Meta在一周前发布Make—a—video时，它仍然是匿名和双盲的。

现在信息公开了，原来的研究团队也来自谷歌。

在公开资料中，Phenaki展示了其交互生成视频的能力，可以任意切换视频的整体风格:高清视频/漫画，也可以切换任意场景。

您还可以向Phenaki输入初始帧和提示来生成视频。

这还是开胃菜，Phenaki真正的绝招是:讲故事可以生成2分钟以上的长视频，输入一系列200多字的提示即可获得

从文本提示到视频，高计算成本，高质量文本视频数据量有限，视频长度可变一直是这类模型发展中的难题。

过去，大多数AI模型通过单一提示生成视频，但这远远不足以生成一个长而一致的视频。

而Phenaki则可以生成2分钟以上的视频，它也有故事情节，这主要是因为它能够根据一系列提示生成视频。

具体来说，研究人员引入了一种新的因果模型来学习表示视频:视频被视为图像的时间序列。

该模型基于transformer，可以将视频分解成离散的小表示，视频的分解是按照时间的因果顺序进行的。

说的通俗一点，就是通过空间转换器对单个提示进行编码，然后用因果转换器将多个编码后的提示串联起来。

一个提示生成一个视频，这样视频序列就可以沿着提示中描述的时间顺序把整个故事串起来。

由于视频被压缩成离散的图像序列，也大大减少了AI处理的标记视频的数量，在一定程度上降低了模型的训练成本。

说到模型训练，像大型图像系统一样，Phenaki主要使用文本—图像数据进行训练此外，研究人员还使用帧率为8FPS的1.4秒短视频文本来训练Phenaki

只有通过大量图像文本对和少量视频文本实例的联合训练，才能达到突破视频数据集的效果。

Imagen Video和Phenaki，Google相继放出大招，从文字到视频的AI发展迅速。

值得一提的是，Imagen Video表示，两个团队将在下一步的研究中展开合作。

嗯，有网友等不及了。

还有一点

出于安全和道德原因，谷歌暂时不会发布这两种视频生成模型的代码或演示。

可是，既然论文已经发表，开源副本的出现只是时间问题。

毕竟，Pytorch版本出现在GitHub上仅仅是在Imagen论文问世几个月后。

此外，stability Diffusion背后的StabilityAI创始人兼CEO也表示，将会发布比Meta的Make—A—Video更好的模型，而且会是大家都可以用的那种。

当然，每次AI有新的进展，必然会遇到那个话题——AI会不会取代人类。

老实说，作为一个在电影行业工作了十年的人，这个话题很让人沮丧。

在他看来，现在的视频一代AI在外人看来已经足够惊艳，但业内人士会认为AI仍然缺乏对每一个镜头的精细控制。

关于这个话题，StabilityAI的新任首席信息官丹尼尔·杰弗里斯此前撰文指出，AI最终会带来更多的工作岗位。

比如，照相机的发明虽然取代了大部分肖像画家，但也造就了摄影师，开辟了影视等新产业。

五年后回头看，反对AI和现在反对Photoshop一样奇怪AI只是另一个工具

杰弗里斯说，未来是环境人工智能的时代，所有的行业和领域都将在人工智能的加持下发展。

但我们现在需要的是更开放的人工智能环境，也就是开源！

最后，如果现在想玩AI生成的视频，可以先在HuggingFace上试试清华和致远实验室的Cogvideo。

图像:

Phenaki:

Cogvideo演示:

参考链接:

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

汽车点评网分析汽车

关注汽车点评网，收听和分享“汽车秘密”

携手汽车点评网,为您提供更多汽车行业新鲜货。

汽车点评网 > 访谈 >

您还可以向Phenaki输入初始帧和提示来生成视频

热门阅读

汽车点评网 分析汽车

汽车点评网分析汽车