@刘备教授:周末看了些和AI大模型相关的资料,和你们分享下,不一定对。
最近国内爆火的幻方DeepSeek V3大约用十分之一的算力就基本实现了OpenAI最新版本的数理推理能力,被称为大模型界的pdd。这倒不是因为幻方的技术更好,而是用到了一种叫做“数据蒸馏”的技术。
什么叫做数据蒸馏?
个人理解,就是对着标准答案来做作业。
做难题的时候,很多时候都是在试错,就是用各种思路都做一遍,最后找到那个对的。类似于寻宝的时候有100条路,你可能要把前面99条路都走到尽头,才找到正确的那条。
但假如你预先知道标准答案(宝藏坐标),那很快就可以否定掉大部分路径,比方说坐标告诉你位置在北边,那就可以把通往东南西三个方向的路都直接删除掉。
在大模型领域,水平最领先的探索者不知道标准答案是啥,只能这100条路都走一遍。
但当领先者把答案已经做出来以后,后来者就只需要根据其提供的答案,就可以省略掉大部分的探索过程,所以算力成本只是领先者的几分之一。
嗯,总之“数据蒸馏”介于做作业和抄作业之间,他没有重头来做这个作业,也没有直接把解题过程和答案都抄全了,而是根据已有答案,大大提升自己解题过程的效率,就和经济上的“后发优势”差不多。
当然咯,也不是什么人都能用“数据蒸馏”这个技术,那必须你和领先者水平比较接近才行,领先者100分,你也得有90分,如果只有80分那就算给你答案你也推不出过程。
明眼人看到这里可能都笑了,因为这明摆着对我们最有利。
如果给全世界的AI水平打分,那美国100分,我们90分,其他大部分国家和地区在80分以下。
所以这个技术的存在,就使得即便美国一直领先,我们落后也不会太多,可能也只差半年到一年,这个差距也不小,但可以通过其他方面的努力来弥补,而且所付出的算力成本只需要十分之一。
如果以上推测没太大问题,那未来国内的大模型投资会重新躁起来,各种各样的应用也层出不穷,这当然会给我村带来很多机会。
最近雷军和李想都高调宣布杀入大模型这个领域,可能也是因为看到了这个前景。
这里还是要补充下,“数据蒸发”本质看是一种投机取巧的方法,类似于速成九阴真经,就和人一样,如果一辈子只走对路、没走过错路,实际上能力也是缺失的。
概括就是,在垂直细分领域能力训练上,数据蒸发效率很高;但在通用领域,依然会和领先者有较大差距。
所以巨佬们依然会砸很多钱在算力上,不惜代价来获取领先优势。
@刘备教授:昨天写了幻方的DeepSeek后,好几个内业做技术的哥们来给我指正,所以今天再做点补充。
1、DeepSeek能用大概十分之一的算力达到接近GPT的水平,除了“数据蒸馏”技术以外,也有独家的创新,就是将算力进行了分工。简单来说,过去的大模型训练中,所有的算力平等,而DeepSeek中则是把算力分成许多部分,分别针对不同的任务,相当于人类分门别类的技术专家;还有一部分算力专门独立出来做调度,用来把不同的任务分配给不同的算力,相当于人类的管理者。
当然咯,目前许多大模型都在用这个思路进化,但DeepSeek在这方面进展可能最快,所以效率提升也就特别明显。
2、OpenAI也在试图用自己以前的结果来进行“数据蒸馏”,以得到效率更高的下一代AI,但并不太乐观。效率的确提升了,但幻觉也增加了,类似于家长老想指导娃去走捷径,但管太多了反而导致这娃不食人间烟火,憋出神经问题来了。
3、OpenAI一直说要训练出博士水平的大模型,至少目前看不太可能,因为用来训练的语料不足。假如大模型总体就停留在目前这个阶段,也就是记忆力非常好的高中生水平,对人类是最舒服的。因为这正好在很多方面能减轻人类重复劳动,但又恰好没法取代人。我想了下,开车、做家务、照顾老人小孩这些事都是高中生能做的,以后可能是AI应用的重点。
对了,我还和他们探讨了一个问题。
幻方的创业团队主要是从浙大出来的,做大模型之前已经是国内最大的量化私募机构。但有趣的是,他们炒股赚钱的目的似乎是为了最终做AI,而不是做AI为了赚钱。
因为他们赚到钱以后,当然也享受生活,但也花大钱买了上万张英伟达卡来做大模型,显然只有技术狂人才会这么玩。
以前我在起点上刷到过一本书叫做《神级学霸》,里面的主人公是重生的生物学研究生,利用重生的优势赚了很多钱,这些钱都用来买投入到科研中最终得了炸药奖。
幻方就有点像现实版的《神级学霸》。
我是要搞科研,但我不需要去申请科研经费,因为我自己就可以赚啊。
光论入学分数,浙大在国内不算顶级的,明显落后清北一个档次,比复交也要低0.1个档次。浙大里最顶尖的10%学生,可能也就是去清北能吊车尾的水平。
但浙大的优势就是市场化搞得特别好,无论老师还是学生都更具市场思维,习惯通过市场来解决问题。一个人当然只有自己给自己打工,也就是当老板,做自己喜欢的事,才能激发出全部潜能。
所以在和市场相关的领域,当然也包括技术领域,浙大系的表现是顶级的。