博海拾贝文摘 Sora 出手后，它的同行们都咋样了？

Sora 出手后，它的同行们都咋样了？

小编: 梁萧发布: 2024 年 3 月 10 日

距离 OpenAI 亮出 Sora 这张王牌，已经快一个月了。

东西么，是一直没大规模开放使用，但热度，却从来不缺。

反正光是靠着在 TikTok 上更新 Sora 的视频， OpenAI 的官方账号就已经涨了数十万粉。

像什么搞房屋设计。

外星人在纽约化身 gai 溜子。

博物馆一镜到底。

还有一男一女在铁磁流体餐厅里赛博约会。

看看这丝滑程度，相比之下，原本那些被吹上天的 “AI 视频老网红们” ，多少有点汗流浃背了。

有网友锐评：xx 刚出来的时候很感动，现在怎么不敢动了？

其实吧， Sora 的那些友商们，并没大伙儿想得这么怂包，他们的更新频率好像还更快了。

世超甚至觉得，经过 Sora 这么一番轰炸， AI 视频生成的战场，才真正热了起来。

先是 Stability AI 带头发起冲锋，把 Stable Video 拿出来公测，接着包括 Pika 、谷歌还有阿里在内的好几家公司，也都坐不住了。

咱也先讲讲剑走偏锋的两位，阿里 EMO 和 Pika 。

他们没选择和 Sora 硬刚，而主打对口型，基本等于明牌暗示大家： “ 你们以后用 Sora 生成的视频，可以用我来配音对口型噢～～。

就拿 EMO 为例，上传一张照片和一段音频，就能让照片里的人开口唱歌、说话。像什么小李子唱 Rap ，还有蒙娜丽莎开口说话都不在话下。

看看这个 Sora 皮衣女士，一开口就是乐坛老炮儿了。

另外，跟 EMO 发布差不多时间，国内的 Pika 也小小更新了一波。

新上了个 Lip Sync 功能，说白了就是给视频配音对口型。

现在分币不花就能用，但估计太多人把服务器给干崩了，世超每次都卡在了最后一步。。。

但同样都是对口型， EMO 的效果明显要比 Pika 强不少。Pika 的口型虽然是对上了，但根据创作者 @ 数字生命卡兹克的测试，说话的时候嘴还是没法子避免乱动的毛病。

寻找配音、对口型这种 AI 视频生成领域的小切口，确实是一种思路。

同样，为了和 Sora 打出差异化，以色列有家公司，就在内测一个叫做 LTX Studio 的 AI 电影制作平台。

而他的思路则是：大而全。

根据官方的说法，它能生成超过 25 秒的视频，但最重要的，它把视频生成、编辑、旁白配音一条龙全给包了。

就比如生成个画面你不是很满意，那你可以切个机位或者换个光线，或者把画面里的东西给换掉。

特别是，官方声称能保证角色的一致性。

以往的文生视频，保不齐上一帧还是吴彦祖，下一帧可能就变成宋小宝了。

如果 LTX Studio 真能把角色一致性给解决，那世超是真 respect 。

而谷歌就更夸张了，号称是搞了个世界模型 Genie ，这玩意儿能根据一张照片或者几句简短的描述就生成一个 2D 游戏出来。。。

虽然画质有点惨不忍睹，但光凭一张图片就能整个虚拟世界出来。

果然对谷歌还是激将法更管用。

不过，上面提到的这几个应用世超几乎都没法上手，唯一方便亲自体验的，只有 Stability AI 他们家藏了四个多月的 Stable Video （下称 SV ）。

而也和上面几个避 Sora 锋芒、主打各种差异化的老哥不同，Stable Video 是完完全全正面受敌。。

先给大伙儿回忆回忆，当时的 demo 是这样的。

模型能力评估，还超过了 Runway 和 Pika 。

所以这次在 Sora 的节骨眼上发布公测，大伙儿还挺期待 SV 能狠狠将 Sora 一军。

但当世超上手试了试之后发现，是我不懂事了。。。

在 SV 官网，有图像生成和文字生成两个选择，我直接把跟 Sora 那个火出圈的视频提示词喂给了 AI 。

它先是根据提示词，生成了四张图像让我选。

接着，再手动把镜头运动的方式也设置下，等个十分钟，就能生成一条 4 秒的视频。

但不知道模型抽哪门子的风，背景全是乱的。

世超换了种镜头运动方式又试了一次，脸部、背景变形愣是一样没落下。。。

难道是因为提示词太难了？

不信邪的我又换了几组简单的，倒是也有像样的。

但十个里起码七个都翻车了，甚至还有在图像生成就开始发癫的，我说城门楼子，他生成胯骨肘子。。。

这么说吧，SV 给我的感觉就是能跟 Runway 和 Pika 打个平手，但 Sora ，还是算了吧。

不过测试看多了之后，世超发现 Sora 其实也并没有大家伙儿传得那么不可超越。

有外媒记者在拿到内测资格浅试一波之后，专门发了篇文章吐槽， Sora 生成的视频让猴子长出了鹦鹉的尾巴，

还有国外 up 主，拿 Sora 生成了有六根手指头的人。。。

一句话总结就是，Sora 对物理世界的很多东西还理解不了，而且生成速度慢得离谱。

而且经 Sora 这么一搅合，整个 AI 视频圈子是更加活跃了，保不齐下次谁家更新又来了波大的。

世超也觉得，搞不齐会和大语言模型圈儿一个样， OpenAI 抛玉引玉， AI 视频生成领域的成果大爆发就在眼前。

对了，世超最后还想问一嘴， Sora 到底什么时候才能上手啊？

来源：差评

本文来自网络，不代表博海拾贝立场，转载请注明出处：https://www.bohaishibei.com/post/89692/

标签:AGI Sora 通用人工智能