继发布最新 AI 大模型 “Genmini” 仅一星期后,谷歌又公布了自己的最新 AI 研究成果。
12 月 12 日,谷歌宣布,其与全球顶级计算机视觉专家、华裔 AI 教母李飞飞及其学生团队合作,推出了 AI 视频生成模型 “W.A.L.T(全称为 Window Attention Latent Transformer)”。
与前段时间刷屏全网、A 股信雅达董事长女儿创业研发的 PIKA 1.0 类似,W.A.L.T 也是一款 AI 视频生成模型。
此前在 12 月 6 日晚间,谷歌曾发布其最新一代的多模态 AI 大模型 Gemini,并同步发布了演示视频。
但 Gemini 发布后不久,即被爆出其演示视频存在通过剪辑等手法、刻意美化模型效果的情形。正因如此,谷歌也一度陷入 “造假” 指控中。
仅仅 6 天过去,谷歌又通过发布 W.A.L.T 瞄准了 AI 视频生成,这也是如今 AI 应用落地最为火热的领域之一。
携手华裔 AI 女神,谷歌抢滩 AI 文生视频
与此前走红的 Pika 1.0 类似,W.A.L.T 同样支持文生视频、图片生成视频、3D 视频生成等功能。
而视频效果方面,根据演示视频及论文,W.A.L.T 可以通过自然语言提示,生成 3 秒长的每秒 8 帧、分辨率为 512×896 的视频。
▲(图源 / W.A.L.T)
产业人士 “歸藏” 公开评价称,W.A.L.T 的效果 “比 Pika 1.0 还要好得多,清晰度和动作都非常好”。
有趣的是,Pika 的创始人、信雅达董事长的女儿郭文景,其实与李飞飞颇有渊源。
在退学创业之前,郭文景曾在斯坦福大学 AI 实验室(NLP & 图形学方向)攻读博士学位,而李飞飞则是斯坦福大学首位红杉讲席教授,亦曾在斯坦福大学 AI 实验室中任职。
与后起之秀郭文景相比,李飞飞堪称全球计算机视觉领域的奠基人与技术泰斗,也是包括谷歌在内、全球科技大厂争夺的人才资源。
根据公开信息,1976 年,李飞飞出生于北京,并在成都长大。1992 年,16 岁的李飞飞随父母远赴美国定居,并在三年后进入普林斯顿大学攻读物理学。
在之后的求学生涯之中,李飞飞一步步确立了对于 AI 的研究兴趣,并将研究重点转移至彼时十分冷门的计算机视觉领域。2007 年,李飞飞在经费短缺的情况下,开始了自己的首个项目 ImageNet(教机器识别图像的数据集)。
当时,AI 图像识别模型仅能认出四种物体:汽车、飞机、豹子、人脸,因为以往研究者一般只会针对这四类物体进行模型训练。想让 AI 认识一种物体,需要人工先在图片中标记出目标物,再将大量这样的图片 “喂” 给 AI 进行训练。
而李飞飞的设想是,如果有一个足够大的、经过标注的数据集,就能训练出理论上 “无所不知” 的计算机视觉模型。
2009 年,ImageNet 正式发布,很快成为了几乎所有视觉模型的训练和测试素材库。李飞飞也由此 “一战成名”,拥有了 “华人 AI 教母” 等头衔。至今,ImageNet 仍是全球 AI 产学界最知名的大型视觉数据库之一。
无论是一周内连发两大模型,还是与李飞飞团队的合作,都说明谷歌在多模态 AI 模型研发方面正铆足了劲。
AI 视频 “神仙打架”,国内玩家怎么看?
在刚刚过去的一段时间内,AI 视频生成赛道十分热闹。除了 Pika 1.0、W.A.L.T,有不少 AI 视频生成工具密集涌现出来或进行了功能更新。
举例而言,11 月初,美国生成式 AI 独角兽企业 Runway 对其自研视频生成模型 Gen-2 进行了功能更新,着力提升生成结果的保真度和一致性。
11 月中旬,以社交产品起家的科技大厂 Meta 发布了 Emu Video 模型。
11 月末,美国文生图片创企 Stability AI 推出了名为 Stable Video Diffusion 的视频生成模型,提供 SVD 和 SVD-XT 两个模型。
▲(图源 / W.A.L.T)
而国内方面,字节跳动、阿里、百度等科技大厂均已跑步入场。
其中字节跳动于 11 月 18 日推出了文生视频模型 PixelDance,提出了基于文本指导 + 首尾帧图片指导的视频生成方法,使得视频生成的动态性更强。
紧随其后,阿里上线了 Animate Anyone 模型。用户只需向该模型提供一个静态的角色图像和一些预设的动作(或姿势序列),就能得到该角色的动画视频。
根据此前的公开信息,百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。
国内外玩家的积极下场,在某种程度上说明 AI 视频生成赛道将成为这一轮 AI 技术升级过程中的下一个受益方向。不少产业人士已经感知到了市场的风向,英伟达高级研究科学家、曾在 OpenAI 工作过的 Jim Fan 就在社交媒体上写道:“2022 年是图像之年,2023 是声波之年,2024(将是)视频之年!”
中信证券研报则指出:“参考文生图在广告领域的应用,文生视频同样有望推动生产力革命,降低生产成本、创作门槛,促使 AIGC 技术产业化进程加速。我们认为从能力的角度出发,文生视频有望率先在短视频和动漫两个领域落地。”
不过,技术革新的另一面,则是对现有业态的冲击。
在国内一家视频创作工具企业工作的 Leo 告诉「市界」:“今年早些时候我们一直认为 AIGC 主要还是作用在图文创作领域,但距离满足商业视频要求还要经过一两年的时间。” 他补充道,这里提到的商业视频要求包括分镜脚本制作时保持对象的一致性、连续性等。
而现在看来,视频生成工具正以数倍于预期的速度进行迭代。在技术进步的倒逼下,现有的市场参与者们也不得不对自动化生成功能主动出击和布局。否则面临的,可能是被时代抛弃的结局。
来源:AI 财经