@阑夕:极客公园做了一次相当完整的测试,把主流大模型全都牵了出来去做高考全科试卷,用的还是新课标I卷,这比简单写篇命题作文的参考性要高得多。
先说结果吧,大模型做文科题几乎就是在打表演赛。这应该不意外,「政史地」的拿分点主要在于信息储备,正是AI比较擅长的地方。
以河南省的本科录取线为标准,总共有4个大模型冲进了文科1本线。一句话,靠记忆驱动的科目,大模型战无不胜。这方面,国产大模型几乎达到GPT水准。
但转头去看「理化生」,就成了车祸现场。没有一家能够摸到511的1本线,一半以上的大模型连400分都考不到,不知道该不该安排明年回去复读。不过在理科测试的集体摆烂里,还是能看到一些好消息的。
从竞争角度看,以前外界普遍认为GPT不可战胜。原因无非是从先发优势、算力、芯片角度展开,现在来看,GPT没有出现断层式的领先,第一梯队的国产大模型都是有一战之力的,以后的追赶速度应该不会太慢。
而且,中、外大模型的「长板」很接近,「短板」也大差不差。很多科目里,国产大模型的表现超过了GPT-4o。其中还有起步相对较晚的字节豆包,语文分数比GPT-4o还高,历史和化学两科更是拿到「全校」第一。可见硬件之外,高质量的微调和监督学习或许也是一种行之有效的加速度。
一次小试牛刀当然不值得沾沾自喜了,但还是让我们看到了弯道超车的可能性。
我更希望这场测试可以把大模型造神运动拉回正轨。与其去指望大模型全知全能,不如让它成为一项实打实的新质生产力。让祖冲之这样的天才,不需要去消耗大量心血人肉计算「圆周率」,而把才华投向更有价值的议题。毕竟人类强大的推理能力放着不用,完全是一种资源浪费。
很有意思的是,因为很多题目涉及到读图,而各家大模型的识图准确度又参差不齐,所以经常会在没搞明白问题的情况下「连蒙带猜」,这反而对大模型的逻辑推理能力有了额外的考验。
前段时间看李飞飞说AI的技术瓶颈还是在于缺少感知力,比如饥饿是一种怎样的感受,失去生命又如何会让人恐惧,为什么不能直视刺眼的阳光,等等,AI或许可以解释,但它实际上并不理解。
把大模型们当成做题家赶进考场,场面固然稍微细想就很喜感,它们也不可能身临其境的复刻考生们真实背负的那些紧张或兴奋,但这一步的跨越已经足够惊人,甚至可以说是栩栩如生,让机器来考进1本、2本线,这在以前是根本想不到的事情。
我也很建议极客公园立下一年之约,明年今日再来考一次,看看到时候会不会有大模型可以考进清北,如果有,又会是哪一家或者哪几家?
你们也可以预测一下,明年我来翻牌子。