博海拾贝

图片只是单帧的视频

1.jpg

@阑夕:花了好多时间,把解释Sora运作原理的那几篇论文和第三方分析一点点的啃完,结果发现真就不如OpenAI自己在官方博客里写的一句话:

「图片只是单帧的视频。」

用最简单的词句把最复杂的技术讲清楚,很久没有见到科技行业有着如此从容的公共表达了,于我而言也是醍醐灌顶。

我之所以这几天疯狂补课,是因为想要找到自己之前提问的答案:OpenAI是怎么实现断层式领先的?

领先不意外,意外的是断层之大,完全超出了均值分布的常识,不可能天下英雄都在OpenAI那儿吧,补完那些材料才发现,就跟GPT主要建立在Transformer的暴力美学之上一样,OpenAI现在就认准了一个力大砖飞,既然Transformer好用,那就他妈的用到底,到了和文本毫无关系的扩散模型领域也继续套圈,最后采用了一个和Runway和Pika完全不同的Diffusion Transformer方案。

可能只有长期使用过Runway或者Pika的人才会对Sora的横空出世感到彻底震惊,这完全脱离了渐进式积累的规律,人家还在3秒3秒的往上加,你出来就是60秒连续性的能力,这要怎么玩嘛?

Sora的这些演示出来之前,AI生成视频经常被嘲讽「那不叫视频,充其量只能算动图」,也真的没办法反驳,因为事实就是如此,甚至运动笔刷稍微圈大一点,画面变形就必然产生了,绝大多数的展示作品都是靠烟雾、光影这种没有固定形体的动效取巧,实现镜头的运动感。

哪怕是需要大量训练的开源的SVD——效果相对最好——前几天本来也更新了1.1版本,结果正好跟Sora撞车,然后SVD官推直接把推文给删了,删了⋯⋯

就说这要别人怎么玩啦?

回到「图片只是单帧的视频」这个点,本来主流的方案都是基于一张图片去让AI发挥想象空间,继而延伸/填补出多个图片,叠加在一起才成了视频,大家的竞争方向都是谁的AI视觉能力更有效率,可以理解并创造用户要的内容。

但在Sora眼里,其实是没有——或者说极大弱化了——图片概念的,Transformer本身就是文本模型,强在前后文的理解和保持连续性,没有多少人意识到文本模型还能用在视频上,但OpenAI发现完全可以利用Transformer的编码能力,配合扩散模型去为视频「配锚」。

顺便说一句,Sora基于的论文,又有好几篇都是来自谷歌的贡献,甚至根据@宝玉xp 的考证,是谷歌的论文发表之后,Sora这个项目才启动的⋯⋯

「Attention Is All You Need」的历史重演了啊这是[允悲]

继续来说吧,「图片只是单帧的视频」这个思路的缺点是什么,是画面精度不太够,就像和Midjourney比起来,DALLE-3的图片都显得很「土」。

问题在于,AI视频现在根本还没有到追求美观性和艺术性的地步,所有公司都挤在AI根本不懂图片里各个元素运动逻辑的瓶颈里出不来,就好比说,在饥荒年代推销减肥药,是毫无意义的,不是肥胖不值得重视,而是市场需求不在这里。

Sora的视频目前来看走的也是还原路线,尽可能的复现指令,但不会过多关照审美,而是对视频内容所处的时空关系做出准确判断,确保AI知道自己在构建什么。

所以已经有很多内测用户发现了,Sora在时间轴上的延伸性非常出色,就像我转来的这个演示(图2),你可以生成开头不同但结尾完全一致的视频片段,这就是「图片只是单帧的视频」的绝妙之处,图片的创建绝不会脱离于时间轴而存在,Sora实际上是提前给视频写了脚本的,这个脚本甚至也和用户的Prompt无关,是由AI自己的构图思维决定的。

四两拨千斤,太高明了。

补课的过程里,我也看到一个做大模型的老哥提前预测到了Sora这条技术路线的合理性,他在1月就发了这一条推文:

I think the transformer framework and LLM route will be a breakthrough and new paradigm for AI videos to be more coherent, consistent, and a little bit longer. The current diffusion + Unet route (the likes of Runway, Pika etc) is only a temporary solution.
* 我认为Transformer框架和LLM路线将是AI视频更加连贯、一致、更长一点的突破和新范式。目前的扩散+Unet路线(如Runway、Pika等)只是一个临时解决方案。

怎么说呢,虽然在夸赞OpenAI的时候,觉得大力出奇迹的价值很高,但是看到Runway和Pika们在闭塞的路线里使劲浑身解数,总还是隐约感觉到,如果方向错了,越是辛苦反而越是损失⋯⋯

当然也希望Diffusion Model能够实现突破打脸回来吧,OpenAI太顺了不是什么好事啊,多上点压力,求求了,这AGI还没有到来的破日子,是一天都过不下去了!

退出移动版