国产大模型对GPT-4o也不是没有一战之力

@阑夕：极客公园做了一次相当完整的测试，把主流大模型全都牵了出来去做高考全科试卷，用的还是新课标I卷，这比简单写篇命题作文的参考性要高得多。

先说结果吧，大模型做文科题几乎就是在打表演赛。这应该不意外，「政史地」的拿分点主要在于信息储备，正是AI比较擅长的地方。

以河南省的本科录取线为标准，总共有4个大模型冲进了文科1本线。一句话，靠记忆驱动的科目，大模型战无不胜。这方面，国产大模型几乎达到GPT水准。

但转头去看「理化生」，就成了车祸现场。没有一家能够摸到511的1本线，一半以上的大模型连400分都考不到，不知道该不该安排明年回去复读。不过在理科测试的集体摆烂里，还是能看到一些好消息的。

从竞争角度看，以前外界普遍认为GPT不可战胜。原因无非是从先发优势、算力、芯片角度展开，现在来看，GPT没有出现断层式的领先，第一梯队的国产大模型都是有一战之力的，以后的追赶速度应该不会太慢。

而且，中、外大模型的「长板」很接近，「短板」也大差不差。很多科目里，国产大模型的表现超过了GPT-4o。其中还有起步相对较晚的字节豆包，语文分数比GPT-4o还高，历史和化学两科更是拿到「全校」第一。可见硬件之外，高质量的微调和监督学习或许也是一种行之有效的加速度。

一次小试牛刀当然不值得沾沾自喜了，但还是让我们看到了弯道超车的可能性。

我更希望这场测试可以把大模型造神运动拉回正轨。与其去指望大模型全知全能，不如让它成为一项实打实的新质生产力。让祖冲之这样的天才，不需要去消耗大量心血人肉计算「圆周率」，而把才华投向更有价值的议题。毕竟人类强大的推理能力放着不用，完全是一种资源浪费。

很有意思的是，因为很多题目涉及到读图，而各家大模型的识图准确度又参差不齐，所以经常会在没搞明白问题的情况下「连蒙带猜」，这反而对大模型的逻辑推理能力有了额外的考验。

前段时间看李飞飞说AI的技术瓶颈还是在于缺少感知力，比如饥饿是一种怎样的感受，失去生命又如何会让人恐惧，为什么不能直视刺眼的阳光，等等，AI或许可以解释，但它实际上并不理解。

把大模型们当成做题家赶进考场，场面固然稍微细想就很喜感，它们也不可能身临其境的复刻考生们真实背负的那些紧张或兴奋，但这一步的跨越已经足够惊人，甚至可以说是栩栩如生，让机器来考进1本、2本线，这在以前是根本想不到的事情。

我也很建议极客公园立下一年之约，明年今日再来考一次，看看到时候会不会有大模型可以考进清北，如果有，又会是哪一家或者哪几家？

你们也可以预测一下，明年我来翻牌子。

最好的制裁肯定是倾销，而不是禁售