国产大模型2025考研数学排行榜:仅前两名成绩破百
2024-12-25 23:39:58
  • 0
  • 0
  • 0

来源:AI大模型工场·2024年12月25日 20:31

差距正在拉开

2024 年就要结束了,在这一年里,大模型的智力水平究竟长进了多少?

上周日,2025考研初试刚刚结束,我们趁热拿考研数学卷子,去测测主流的几家国产大模型,看看他们的真实智商水平如何。

5位国产大模型考生名单:

大厂巨头代表队:字节豆包、阿里通义

创业公司代表队:智谱、Kimi

私募巨头代表队:DeepSeek

记得6月份高考的时候,很多媒体做了大模型高考成绩评测,结果发现大家的语文成绩都能考100分以上,但数学成绩基本都惨不忍睹,低的只有37分,高的也不过60多分,没有一家能及格。要知道高考数学的满分是150,只有考到90分以上才算及格。

这也侧面说明,起码在自然语言理解这一块,大模型基本已经“及格”,但在人类与其他物种拉开差距的“逻辑思维”能力上,哪怕还需要继续进化。

不过,2024年下半年,尤其是9月份Open AI的o1推理模型出来之后,在新的强化学习技术范式下,大模型似乎找到了破解数理化等领域难题和复杂任务的钥匙。Kimi、DeepSeek、通义等公司,也相继推出了自己的支持思维链(Chain of Thought)的推理模型,数理化水平上了一个新台阶。

废话少说,直接开测!

我们选取了难度适中的2025考研数学三作为参考试卷,每个题目各家模型有两次作答机会,得分取两次的平均值。

为了确保测试的公平,我们都采用各家产品的最新版本 (豆包和通义不能选择模型,采用了默认模式;Kimi采用新推出的视觉思考版;DeepSeek打开“深度思考”开关,智谱清言采用 GLM-4-Plus模型),上传完全一样的 22 道题目截图,输入给大模型的文字提示(Prompt)也基本一样,模拟真实场景,“解答这道题”、“这道题选什么”、“解一下这道题”“这个题答案是什么”。 

一、2025考研数学:两家成绩破百

真实水平如何?让我们直接看成绩:

从最终的测试结果来看,本次考研数学初试数学成绩,有两家模型破百,其中 Kimi 视觉思考版的得分为 133分,DeepSeek 103.5分。通义90分,及格了。豆包和智谱都获得88.5分,接近及格。相比6月份的高考数学成绩,大家都进步了不少。Kimi 和 DeepSeek 进步尤其快。

以往做小学数学题都能磕磕绊绊的国产大模型,如今做研究生级别的数学题,居然有几家已经游刃有余,这挺让我们感到意外的。不过,从最后一道题的成功率,还有一些进步空间。 

二、解题过程两种风格:给答案 vs 给思路+答案

仅仅按分数来算,谁更有可能最后上岸,其实一目了然。

不过做这套考研数学真题的成绩,也并不能完整展现这些模型的全部能力,但对于一些备考的学生党来说,在面对同样的题目时,谁的解题思路更完整,推导步骤更丰富,谁的参考性和实用性自然就越大。

先来看一道代数方面的三角函数选择题。

这道题的正确答案是C,但不同模型得到C的过程很有意思。

先来看豆包的解题过程

豆包同样给出了正确答案,但解题过程相对简略,更像考研参考书上的一些标准答案,如果要知道更详细的解题过程,尚需购买对应的考研名师课程作为辅助。

智谱清言的解答过程相对尴尬一些。因为这道题它没做对,第一遍测试选B,第二遍测试选了A。

第一遍测试B:

第二遍测试A: 

不过,即便做错,也给出了相对完整的思考过程,“错”有可原。

再来看Kimi视觉思考版。

可以看到,Kimi视觉思考版在给出正确答案之余,也会给出完整的推导过程和解题思路。对于一些考研党来说,具有较高的参考价值,有助于检查错题和举一反三。

阿里通义和Deepseek的回答与豆包类似,相对而言,这两家模型展现的步骤会简略一些。

通义千问

Deepseek

再来看一道填空题。

这是它的标准答案:渐进线方程为y=3和y=-3

可以看到,跟前述选择题一样,Kimi思考版的解题过程较为翔实,推导细节很多,并最终给出了正确答案。

豆包的推导过程相对简略一些,但也可以看到明显的推导过程,也具备不错的可参考性。阿里通义和deepseek类似过程略简单,但给出了正确答案。

遗憾的是智谱在这道题上,两次结果都是错误的。

但在下面这道定积分的题上,各家模型差距就较为明显了。

首先放正确答案:a=2

Kimi思考版的表现较为稳定,在给出足够多的推导步骤之后,还有一次验算,最后输出了a=2的正确结果。

豆包表现也较为稳定。不过推导步骤一如既往地简洁。

智谱清言在解决这个问题的时候,第一遍回答正确,但问题在于没有使用自然语言,使用的是代码,对普通学习者参考价值有限,第二遍测试则直接没有给答案,并且认为题目设置有问题。

通义的表现尚算正常,第一次的回答错误,第二次给出正确答案。但Deepseek就比较尴尬,第一次它无法回答。

第二次则陷入死循环,回答超过3分钟还在写答案。

如果是一些更难的题目,有些模型就难以cover住了。

譬如下面这道。

照例先来正确答案。

kimi的回答如下 ,虽然最终结果跟标准答案长得不太一样,只是不同的写法,结果依然正确。

豆包在两次测试中,给出了两次回答,但都是错的,这是第一次。

第二次:

智谱清言的两次回答过程,均出现了无法回答的情况。

通义算是能写完过程的,给出的两次回答也不一样,但很遗憾,还是错的。

Deepseek表现出乎意料,跟kimi一样虽然写法不一样,但结果正确。

结语

但在仅仅几个月前,大模型厂商还在满足于写高考满分作文,相比以往,它的逻辑思维和综合能力,早已不可同日而语。

须知,无分文理,一旦拔高到科研的高度,以数理化为代表的逻辑能力是大模型可用,堪用、好用的基石,而数理化解题能力的高低,则是大模型智力的直接体现。

随着大模型能力的不断增强,在人类探索更前沿的科技领域时,以往尚且“鸡肋”的大模型,如今已经能成为不少研究者的助手。或许未来,当AI的能力真的达到人类的TOP 1%各领域专家水平,甚至超过人类水平,在AI的帮助下,我们对宇宙的认识真的有机会达到人类此前不曾达到的新高度。希望那时候,AI 还是人类的好朋友。 

本文来自微信公众号“AI大模型工场”,作者:参商,36氪经授权发布。


 
最新文章
相关阅读