每日經濟新聞

每經網首頁丨
宏觀丨
金融丨
公司丨
視頻丨
券商丨
IPO丨
基金丨
汽車丨
房產丨
新文化丨
未來商業丨
文創通丨
城市丨
每經商學院

要聞

每經網首頁 > 要聞 > 正文

AI刷題強到可怕？挑戰高考數學卷，DeepSeek-R1、騰訊混元T1、Grok 3等十大模型測評來了

每日經濟新聞 2025-06-11 00:08:42

每經記者｜岳楚鵬高涵每經編輯｜金冥羽蘭素英

2025年高考大幕雖已落下，但關于數學科目難度的討論熱度不減。?

《每日經濟新聞》記者（以下簡稱“每經記者”）選取今年的全國新課標數學I卷作為考題，對DeepSeek-R1、騰訊元寶（混元T1）、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型進行了測評，以檢驗當今主流AI推理大模型的數學能力。

測評結果顯示，國產大模型DeepSeek-R1與騰訊混元T1以零錯誤并列榜首。而被馬斯克稱為“地表最強AI”的Grok 3卻遭遇“滑鐵盧”，排名倒數第三。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMMbdjhqKicodwgDd9nEgmexz4ibZ84NiaMSjsj7OERCzq5JQHTH0x8IRibg.png

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

測評標準

本次測評以2025年全國新課標數學I卷（總分150分）作為考題。但每經記者在測試中發現，部分AI推理模型以“重要考試期間”為由拒絕對包含試題的圖片進行識別和解答。

為了讓所有參評大模型站在同一起跑線，測評移除了試卷中所有需要分析圖形和圖表的題目，形成一份有效總分為117分的標準化試卷。

同時，對于谷歌Gemini 2.5 Pro等沒有這一限制的推理模型，仍將以150分的完整試卷進行測試，旨在測試推理大模型所能達到的最高水平。

扣分標準上，每經記者在選擇題和填空題上都遵循了高考評卷的扣分標準，但對于解答題，本次測評只根據結果計算得分，不對過程打分。

需要說明的是，在此次測試中，每款推理大模型只進行單次測試，得分也僅反映單次測試的結果。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

DeepSeek-R1和騰訊混元T1并列第一

在排除了圖形/圖表題的117分試卷測試中，DeepSeek-R1與騰訊混元T1展現出了絕對的優勢，以零錯誤的完美表現，取得了117分的滿分成績，并列第一。這表明，在代數計算和函數題等題型解答上，其能力已經達到了極高的水準和穩定性。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMiasOsSOcvrXMdvsJnPvIkuxeHpt7HMdxwppMA1AEhLXH3W2TZtnAUiag.png

訊飛星火X1以112分的成績緊隨其后。相較于DeepSeek-R1與騰訊混元T1這兩款大模型，訊飛星火X1多錯了一道填空題。這道題的正確答案是“±2”，而訊飛星火X1給出的答案是“2”。實際上，該模型的推理過程沒有問題，認為“2”和“-2”都滿足題目條件，但陷入自我懷疑，最終只給出了答案“2”。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMuxPndqAtjYFw1NpCZlmSEibicQT9NpD2vgIyTjKcFomGubBz47VX50RQ.png

訊飛星火X1的推理過程?

其他得分超過100分的還有Gemini 2.5 Pro（109分）、o3（107分）、阿里千問Qwen3（106分）和豆包深度思考模式（104分）。在分數占比最高的解答題上，Gemini 2.5 Pro和o3均有失誤，其中一道大題僅有部分正確，而阿里千問Qwen3和豆包深度思考模式均拿下滿分。?

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

Grok 3慘遭“滑鐵盧”，排名倒數第三

在本次參評的所有AI推理大模型中，如果說有誰的結果最令人意外，那無疑是馬斯克旗下xAI公司開發的、被馬斯克稱為“地表最強AI”的Grok 3。?

Grok在發布之初就被市場寄予厚望，被認為是最有潛力挑戰GPT和Gemini霸主地位的“黑馬”。馬斯克多次暗示，Grok的目標是成為最強大的AI。?

然而，Grok 3此次的表現可以說是遭遇了“滑鐵盧”。在117分的試題測試中，Grok 3僅獲得91分，在10個參與測試的推理大模型中排名倒數第三。

深入分析其答卷，每經記者發現，Grok 3失分的一個獨特且關鍵的原因：它似乎無法正確理解多選題這類題型。

測試過程顯示，即使在記者提示題目為多選題的情況下，Grok 3也“頑固”地只給出一個它認為的最優解，導致只能得到部分分數。?

排名倒數第二的是智譜清言推理模式，在117分試卷的測試中得分為78分。

實際上，該模型在多道題目的推理過程中都找到了正確答案，但是往往會在最后一步出現自我懷疑導致邏輯崩潰，陷入循環，最終功虧一簣，白白丟了很多分。

CFF20LXzkOy2KZqBzD6WuWl5BKibXUqlMNlGiamUibYtkxdEYME92WxdzUwia5rtJdbfeiaF9RWFNgAhsBKvUORQZMg.png

智譜清言推理模式解答過程截圖

排在最末尾的是Kimi k1.5，該模型在最后兩道壓軸大題上栽了大跟頭，損失了大量的分數。?

綜合所有測試情況來看，在處理有固定步驟和嚴密邏輯的數學問題上，AI推理大模型已經具備很強的能力。但在涉及抽象和創新思維的題目上，目前的大模型還存在一定的局限性。

記者|岳楚鵬 ?高涵

編輯|金冥羽?蘭素英?蓋源源

校對|盧祥勇

封面圖片來源：視覺中國

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

｜每日經濟新聞 ?nbdnews? 原創文章｜

未經許可禁止轉載、摘編、復制及鏡像等使用

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

茅臺集團人事變動：向平、張貴超已出任公司黨委委員

返回每經網首頁

下一篇文章

謙尋有了新方向，與“薇婭復出”無關

相關文章

熱文精選

點擊排行

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

相關信息
關于我們
版權聲明

關注我們
辟謠專區

Copyright ? 2025 每日經濟新聞報社版權所有，未經許可不得轉載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網絡社會征信網

兒童色情信息舉報專區

成都市互聯網不良與違法信息舉報中心

四川省互聯網舉報中心

中國互聯網舉報中心

每日經濟新聞互聯網不良與違法信息舉報中心

互聯網新聞信息服務許可證：51120190017 網站備案號：蜀ICP備19004508號-3 川公網安備 51019002002026號

新聞職業道德監督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频

亚欧成人中文字幕一区 | 最新国产乱理片在线观看 | 制服丝袜中文字幕国内自拍 | 在线观看免费不打码片 | 日韩美女在线观看不卡一区 | 亚欧人成欧美中文字幕 |