博海拾贝

科技的进步不是线性的

berlin_1156844_1280.jpg

@阑夕:这几天分享了几个Runway Gen-2图转视频的作品,目前来看主要的问题还是在于成像稳定性,比如不能有太大幅度的动作、超过3秒以上的镜头容易崩坏等等,所以大多数成品的幻灯片特点都很突出,还不足以称得上影视内容。

但从中长期来看,这些问题都是不值一提的,我记得ChatGPT最早公开的版本对基础数学的计算错漏百出,OpenAI在收到相关差评后花了半个月不到的时间给ChatGPT喂料刷题,更新之后的ChatGPT就有非常优秀的算术推理能力了。

Midjourney和Stable Diffusion一开始也不咋样,全民嘲笑AI啥都能画就是画不好手,各种荒唐可笑的手指扭曲错位,但是你看后面几个版本迭代之后,现在已经没人说这个了,到处都是画师在虚空维权,重演砸烂纺织机的历史。

AI的自我学习效能甚至连它的制造者都难以摸清,今年年初美国大学老师对学生都用ChatGPT来代笔论文意见很大,于是OpenAI出来打圆场表示知道你们急单你们先别急,我们自家的AI我们自己最懂了,然后反手掏出一个用AI检测论文AI成分的工具ClassFier,提供给老师们去批改论文。

结果半年时间过去,OpenAI先在这场用魔法打败魔法的战斗里认输了,它前几天下线了ClassFier,承认这个程序彻底失败,不但准确率低得可怜,还经常错判正常论文为AI写作。

根据OpenAI的说法,它以为掌握了ChatGPT的源代码有助于更加方便的理解其运行逻辑,由此产生了魔法对轰的自信,没想到ChatGPT的变化速度远比监视产品快得多,当ClassFier终于可以识别ChatGPT某个阶段的生产时,ChatGPT早就又往前拱了好几个阶段,于是道高一尺魔高一丈,根本追不上。

图文转视频在现阶段的短板当然不是那么简单就可以逾越的,而且必然会比文本和图片这种低带宽媒介要更加艰难,但是大模型这么跑下去,几乎每周都有新的实质性突破出来,等到Runway到了Gen-3或是Gen-4版本,凭想象生视频可能会是一个类似做PPT的基础技能了。

退出移动版