Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了282,874,233字

小细节

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
CS75 PLUS算是我今年最期待的车型了
```
想念一个人

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
长安CS75P还是很不错啊，身边的人评价都可以，我对新车很有信心
```
蝴蝶的翅膀

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
cs75plus口碑怎么样，网上随便一搜就能搜到，不用多说，看新车表现吧
```
飞天小牛

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
如果还是现在的价格，必入一辆！
```
幸福小胖珠

在文章《长安 UNI 新车曝光：代号 C928，预计下半年上市》中回复：
```
我买车主要看口碑，cs75plus口碑不错，新我肯定会去试驾的
```
a崽

在文章《比亚迪腾势 N7 车型推出限时优惠政策，2000 元可抵 5.2 万元》中回复：
```
哇！现在这个价格太顶了吧！赶紧入手！
```

野人霸霸

终于看到关注的车型，改款了，这波颜值，是我喜欢的，如果上市后的价格给力，就冲了，腾势这波改款真棒！

我是萌萌萌萌哒

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
从去年就开始关注，终于等到改款了，眼前一亮，颜值不错，期待上市价格
```

海绵小宝宝P

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：

希望将来公布的价格能给力一点，这次改款已经非常让我心动了，腾势还是懂车主的喜好的！

Wmx0819

在文章《前脸“胡子”车灯改了，比亚迪新款腾势 N7 亮相》中回复：
```
改的好，改的秒，改的呱呱呱。N7大麦大麦大麦
```

该文章投稿至Nemo社区资讯板块复制链接

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

发布于 2022/10/08 12:08 212浏览 0回复 2,369字

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

画家执笔在画布上戳戳点点，形成手绘作品独有的笔触。

你以为这是哪部纪录片的画面？

No，No，No！

视频里的每一帧，都是 AI 生成的。

还是你告诉它，来段“画笔在画布上的特写”，它就能直接整出画面的那种。

不仅能无中生画笔，按着马头喝水也不是不可以。

同样是一句“马儿喝水”，这只 AI 就抛出了这样的画面：

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

好家伙，这是以后拍视频真能全靠一张嘴的节奏啊……

不错，那厢一句话让 AI 画画的 Text to Image 正搞得风生水起，这厢 Meta AI 的研究人员又双叒给生成 AI 来了个超进化。

这回是真能“用嘴做视频”了：

AI 名为 Make-A-Video，直接从 DALL・E、Stable Diffusion 搞火的静态生成飞升动态。

给它几个单词或几行文字，就能生成这个世界上其实并不存在的视频画面，掌握的风格还很多元。

不仅纪录片风格能 hold 住，整点科幻效果也没啥问题。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

两种风格混合一下，机器人在时代广场蹦迪的画面好像也没啥违和感。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

文艺小清新的动画风格，看样子 Make-A-Video 也把握住了。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

这么一波操作下来，那真是把不少网友都看懵了，连评论都简化到了三个字母：

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

而大佬 LeCun 则意味深长地表示：该来的总是会来的。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

毕竟一句话生成视频这事儿，之前就有不少业内人士觉得“快了快了”。只不过 Meta 这一手，确实有点神速：

比我想象中快了 9 个月。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

甚至还有人表示：我已经有点适应不了 AI 的进化速度了……

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

文本图像生成模型超进化版

你可能会觉得 Make-A-Video 是个视频版的 DALL・E。

实际上，差不多就是这么回事儿

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

。

前面提到，Make-A-Video 是文本图像生成（T2I）模型的超进化，那是因为这个 AI 工作的第一步，其实还是依靠文本生成图像。

从数据的角度来说，就是 DALL・E 等静态图像生成模型的训练数据，是成对的文本-图像数据。

而 Make-A-Video 虽然最终生成的是视频，但并没有专门用成对的文本-视频数据训练，而是依然靠文本-图像对数据，来让 AI 学会根据文字复现画面。

视频数据当然也有涉及，但主要是使用单独的视频片段来教给 AI 真实世界的运动方式。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

具体到模型架构上，Make-A-Video 主要由三部分组成：

文本图像生成模型 P

时空卷积层和注意力层

用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的：

首先，根据输入文本生成图像嵌入。

然后，解码器 D^t 生成 16 帧 64×64 的 RGB 图像。

插值网络 ↑ F 会对初步结果进行插值，以达到理想帧率。

接着，第一重超分网络会将画面的分辨率提高到 256×256。第二重超分网络则继续优化，将画质进一步提升至 768×768。

基于这样的原理，Make-A-Video 不仅能根据文字生成视频，还具备了以下几种能力。

将静态图像转成视频：

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

根据前后两张图片生成一段视频：

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

根据原视频生成新视频：

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

刷新文本视频生成模型 SOTA

其实，Meta 的 Make-A-Video 并不是文本生成视频（T2V）的首次尝试。

比如，清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI：CogVideo，而且这是目前唯一一个开源的 T2V 模型。

更早之前，GODIVA 和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次，Make-A-Video 在生成质量上有明显的提升。

在 MSR-VTT 数据集上的实验结果显示，在 FID（13.17）和 CLIPSIM（0.3049）两项指标上，Make-A-Video 都大幅刷新了 SOTA。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

此外，Meta AI 的团队还使用了 Imagen 的 DrawBench，进行人为主观评估。

他们邀请测试者亲身体验 Make-A-Video，主观评估视频与文本之间的逻辑对应关系。

结果显示，Make-A-Video 在质量和忠实度上都优于其他两种方法。

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

One More Thing

有意思的是，Meta 发布新 AI 的同时，似乎也拉开了 T2V 模型竞速的序幕。

Stable Diffusion 的母公司 StabilityAI 就坐不住了，创始人兼 CEO Emad 放话道：

我们将发布一个比 Make-A-Video 更好的模型，大家都能用的那种！

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

而就在前几天，ICLR 网站上也出现了一篇相关论文 Phenaki。

生成效果是这样的：

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

对了，虽然 Make-A-Video 尚未公开，但 Meta AI 官方也表示，准备推出一个 Demo 让大家可以实际上手体验，感兴趣的小伙伴可以蹲一波了~

论文地址：

https://makeavideo.studio/Make-A-Video.pdf

参考链接：

[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊 Alex

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/645/361.htm]

本文标签
ai绘画

上一个文章：《英雄联盟》12.19 版本更新：无限火力上线

下一个文章：因担心数据泄露，科技公司每年销毁数百万可重复使用的存储设备

点了个评

Echo

最近回复

真・拿嘴做视频！Meta「AI 导演」一句话搞定视频素材，网友：我已跟不上 AI 发展速度

文本图像生成模型超进化版

刷新文本视频生成模型 SOTA

One More Thing

点击排行

没有找到这位爷的热门文章哦~

最新文章

哈曼卡顿音乐水晶四代“墨金典藏版”音箱开售：2.1 架构 HiFi 音质，首发 2399 元

2024 常见 macOS 恶意软件洞察：勒索软件、木马仍占主导地位

魅族 21 Note 手机今日开售：骁龙 8 Gen 2 处理器，售价 2599 元起

4 根 131 米“大长腿”，我国新一代自升式海上风电安装平台“大桥海风”交付

我国科研团队发现铁电材料中的“奇点”

小米米家体重秤 S200 开售：4 项身体指标一次获取，售价 69 元

配握持手柄配件，蓝色版松下 LUMIX S9 相机照片曝光

今年抢手颜色，郭明錤预测苹果 iPhone 16 Pro / Max：玫瑰色替代蓝色

今日小满：微雨过，小荷翻，初夏至

华硕 ROG XG27AQDMG 26.5 英寸 OLED 显示器上架：2K 240Hz、4999 元