找回密码
 注册
关于网站域名变更的通知
查看: 91|回复: 0
打印 上一主题 下一主题

大模型PK高考数学:DeepSeek文心豆包皆满分,差生意外

[复制链接]

该用户从未签到

跳转到指定楼层
1#
 楼主| 发表于 2025-6-12 10:30 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x

' V7 R" ^% [1 w% b6 ~0 c4 I. A' P6 R: W) f
4 G4 V5 F# X1 _5 _$ L
为了防止高考生使用AI作弊,今年高考期间,腾讯混元、通义千问、Kimi、豆包等国内知名AI大模型的图片识别问答功能均暂停服务。对于这些企业的做法,小雷却有一些质疑,之前小雷测试AI大模型做高考题,大多表现不佳,暂停图片识别问答服务似乎过于高看自家AI大模型的能力。
; P: F  I6 n# @' F$ ^; B) Z% c8 p2 i7 U4 H

/ x9 h# w) K1 ^5 D+ J' p, u到截稿时,2025年高考全国一卷仅有语文、英语和数学三套试卷公布,其中语文高考题目曝光后,已有多家媒体实测AI大模型撰写作文。不过作文写得如何,每个人的观点可能不同,小雷看到的几篇评测基本是截取AI大模型撰写的文章,没有给出点评,文章质量需要读者评判。' Z. B3 B9 l& U

2 i" s8 w) s0 Q! z3 _3 d5 R  M1 P: A; {8 u: S% r- h( B( I" i* ~! G* n
& J4 N5 m; c9 i0 N4 D# f
(图源:百度搜索截图)

* V9 ]8 M2 w0 I3 J9 ?( C& U. x. Q' H% ~- N0 _2 Q

  d3 Z) C- q5 s6 y  x% I  G# E慎重起见,小雷选择了有标准答案的数学科目,测试AI大模型的能力,所选的AI大模型分别为DeepSeek、豆包、讯飞星火、文心一言、Kimi、通义千问,它们能考上985、211吗?
" I8 E- M( S6 J! n  H. ?- n* ~6 j+ U9 Y3 O' i# n- l
; f/ t7 ^* A/ b
六款大模型PK,谁才是AI界的高考状元?8 x* U9 _& B( V" _8 l  m5 _

) }& K$ _9 V  E* ~
7 s3 M) y  R' }7 Y( G8 ^4 ^% o首先说一下测试环境和题目,考虑到部分AI大模型不支持手动开关联网模式,因而所有AI大模型启用联网搜索,深度思考功能也全部打开。- J- L4 V* ^6 |0 B/ W) {
; Q8 ]4 }2 U- d1 F, `8 U

! x/ M! G$ l! r/ k% _" \9 o8 S8 S所选的数学题,包含一道单选题、一道多选题、一道填空题、一道简答题,最终会按照题目的分数进行打分。
/ e5 Y2 c4 }2 x
' E3 J2 [7 r( e7 E/ P$ h  V! Z
: c! i; e) }% e- k第一题(5分):0 ~) l4 j5 U7 W; B) Q# L
若双曲线C虚轴长是实轴长的√7倍,则C离心率为(正确答案:D)- `% k% ^  K, @
A:√6   B:2   C:√7   D:2√24 h# E( b6 h- s: m, c- _

+ N  c: w, v' s$ }% R% I* M) a2 g5 T. }/ i5 C/ i* }, Q
第一道题属于开胃小菜,难度不算大,参与测试的六款AI大模型也没有令小雷失望,全部计算出了正确答案,而且给出了详细推理过程。本题测试中,所有AI大模型均获得满分5分。(图片从左往右以此为:DeepSeek、讯飞星火、豆包、Kimi、文心一言、通义千问,下图同)
3 v# X( c8 k3 y% N" o
. b4 H. i: {0 r3 E, ^0 d, d) |! K  L6 M* m' M. G& t, Z0 {

6 f# v) g* z5 t6 @. l& h/ W
(图源:App截图)
0 {+ A& b9 u, ?% B7 S
) V3 ]/ n$ |1 i2 ~

) n# ^0 |5 {; A9 H6 F9 O尽管这道题难度不算高,但这六款AI大模型的表现令小雷眼前一亮。此前测试AI大模型的数学计算能力时,面对稍微复杂一些的问题,AI大模型很难计算出正确答案。, c2 K& j* N! N

  |  c" ?2 d* L+ T- v9 `/ G0 i7 o6 v1 A" `- |
仅一轮测试,DeepSeek、讯飞星火、豆包、文心一言、Kimi、通义千问六款AI大模型就证明了它们的能力,存在被高考生用于的作弊的可能性,暂停图片识别问答功能绝非为了蹭高考的热度。
3 }  O/ |8 Z% l2 x3 L2 B0 V7 a$ z# u: E$ e8 a3 ~1 A) y' e! p( l1 l0 {
9 n- z4 H6 ]8 q3 I  w/ Z
第二题(6分):
3 e5 E. c% O9 g8 Y7 t: ]
若cos 2A+cos 2B+2sin C=2,SΔABC=1/4,cos Acos Bsin C=1/4,则(正确答案:ACD)
  |$ J! {& C3 M7 s
( Y0 a  e2 [9 ?5 R
' l4 {: W! ^3 S/ kA:sin C=sin?A+sin?B   B:AC?+BC?=3   C:AB=√2   9 z3 S: e; V% g+ P
D:sin A+sin B=(√6)/27 t5 u/ h6 g/ [! T7 O  I6 l

$ _% T( J! g! m9 W& ~  U& `( N0 F" T6 X$ Q1 ~
这道题难度相当高,仅有豆包在两分钟内计算出正确答案,讯飞星火和通义千问耗时略长一些,其他几款AI大模型用时更长,尤其是DeepSeek,耗时足足572秒,接近10分钟。
6 A- z% p( {& ?
  c: C: P' d: s! x! J9 R& ~7 G
# X$ }1 {( R( Y3 I5 O+ p. F- f) Q
5 M9 g8 w. I+ P4 p' G# d
(图源:App截图)
1 y& F* p- u+ Y) _- ?

% F" D6 Q7 v1 U5 ]
# G" S/ P1 G" U+ P& P8 i. c7 r
( ?6 v( N% w1 T' m$ l( G若是AI大模型像考生一样每次只做一道题,推理较慢的三款AI大模型,存在两小时时间做不完题的可能性。
- l4 M0 O5 _: ?, M4 k6 c, K/ ]2 T/ X7 m, w4 g
  F$ o9 a7 N2 c7 t  H( @: p/ D
尽管本轮测试中所有AI大模型均正确回答出了问题,但结合推理所需时长来看,豆包、讯飞星火、通义千问表现较好。
0 h6 s8 ^. Y& ?
) j, b5 B! ^3 i( K, H) V* e( J" s* }$ w. v7 m: X' B) u# A4 y
第三题(5分):5 L* K8 ]% M9 @$ _, U$ v! c
若一个等比数列的前4项和为4,前8项和为68,则该等比数列的公比为(正确答案:±2)* Z6 F# H: s/ r; x

! ^9 S5 s9 B4 z' m1 B+ M. S% p: u: n5 y  M8 F) k+ T
与上一题相比,这一题的难度有所下降,讯飞星火、文心一言、Kimi、通义千问、DeepSeek五款大模型均迅速计算出了正确答案,文心一言几乎是秒算。豆包虽计算出了正确答案,但在输出答案时却犯了迷糊,排除了-2。因此,小雷不得不扣掉豆包的三分,该题豆包只能得2分。
0 n% Q, c- s2 E- [* ~+ t& Z: ]) Y
. @0 K. L( S" i- D  ^7 e* j2 L
2 D' \) Y7 J: h8 ?& J) U
, x8 y1 c3 h7 p1 U1 O2 y0 z
(图源:App截图)8 U) u$ m* y  P! h- M) L

% k/ p# t% l, c0 C$ L8 I- l3 w: z- ^* ?+ v( \) B! ?0 W

5 k9 I8 g( P. Y/ I在本轮测试中,DeepSeek服务器繁忙的问题频繁发生,小雷不得不借助第三方应用。好在,现阶段许多AI应用已接入DeepSeek,小雷使用的腾讯元宝App,无论是推理速度,还是稳定性,都远高于DeepSeek网页版或App。
& {$ Q$ ?1 u" P) R5 n4 C* q# @9 q7 B: J
0 y6 D: Q/ w. X% ]" ?5 P
第四题(17分):1 U' h( i$ Y. U* O( |2 [
设数列{an}满足a?=3,(an+1)/n=(an/(n+1))+(1/(n(n+1)))
; L' `9 H, M% \) M8 m3 K( y) h(1)证明:{n an}是等差数列;(正确答案:n an是an=3,公差为1的等差数列)
* [$ d  M' G' F! h(2)设f(x)=a?X+a?X?+a?X?+...+amX^m,求f′(-2)。(正确答案:f′(-2)=(7/9)-((3m+7)/9)·(-2^m)): Z) _3 {# Z- b8 }8 [  u$ i

7 a+ c* M" `7 q0 b. O% D" \. @4 l0 u1 G
前三道题,几款AI应用仅在体验上存在一定的差异,能力基本没有表现出区别,第四道题不同,它的复杂度远超前面三道题,也是检验AI大模型能力最重要的一项挑战。
" t9 Z6 c' L9 U3 R$ f( ]' Z& P
% D6 n$ V0 X( C3 ]- F9 R9 C
  }) o  E) {1 }7 s5 S7 ?在本轮测试中,豆包、讯飞星火、Kimi、文心一言、DeepSeek依然表现出色,正确计算出了两道题的答案。通义千问解答这道题时,能够推理出第一道小题的答案,但第二道小题却给出了错误答案,表现稍逊一筹。
4 a4 F: P* l  Y1 w' x4 ^
! l/ Y2 u4 ~3 Z& b0 v( l+ O& w! h- `) a2 n3 |+ F! q9 T

5 J$ E' }, l* ]4 q
(图源:App截图)  n9 m% q; t1 x! s/ Y0 j$ l
, @2 k+ ?8 [0 L7 a7 J1 ?
- X8 S: z7 a; c: _$ }) m

) X& F4 N; g/ f+ q! N8 V; B豆包、讯飞星火、文心一言、Kimi、DeepSeek可以在本轮测试中拿到满分17分,通义千问因答错了第二道小题,只能获得7分。
6 B# {/ y+ d  [0 @4 ]* U- Q+ I' m9 J9 ]& Q, o0 ]
3 d2 C( t9 c- C2 s1 f7 x8 r' e
依靠公式和逻辑推理的数学题,似乎更符合AI的特性,但往年的评测中,AI大模型通常做阅读理解和写作文效果较好,面对复杂的数学题找不到答题方法。
6 Z" Y7 Z0 O4 f/ e. Q+ }
7 U, U% \# V8 ^! U; p
' j7 m" ?1 o  P. i4 o+ r光明网在去年6月的报道中提到,复旦大学NLP实验结果显示,AI大模型在做2024年高考题时,在语文领域的表现远强于数学,部分数学题AI大模型甚至全军覆没,没有一个能够正确计算出答案,遇到多选题时也是错误频出。究其原因,数学失之毫厘差之千里,不能出一丁点错误,文史类内容则可以允许出现部分错误和较为模糊的答案。$ c$ B2 L$ |( x' N
6 e0 q0 y  F* [
; c% B; x8 B( V& x& s$ M* }
一年时间过去,AI大模型进步神速,深度思考模式的加入、针对数学题的专项优化,令AI大模型在处理高考数学题时更加游刃有余。6 E6 \( W/ Z# P+ Y
" K; V. H- ~2 D3 L3 _
8 j1 q' ?6 v' W- g" t  v
比学霸更牛,但大模型做题能力已拉开差距+ q% Z" Y# f& d7 o% {& K

9 \! P, r: w( X! w& u8 v/ p4 O  {5 ]5 [! \
9 e) {# p1 ~! B1 G, q0 w
% f, i9 `, g* K' x5 y
四道题目测试下来,最终得分如下:
% a0 J- O& p& _1 ?, `' b
! V5 J3 ]! W0 a4 m% E: n  g( V& F" K/ o
    7 R0 A4 k2 L# d& O2 t, B
  • DeepSeek:33分;; A! F! X2 J; ^% J: l% w# e7 b8 N
  • 讯飞星火:33分;% \1 p! G2 ~& v
  • 豆包:30分;5 m. S" |+ A7 L5 G. A/ ~1 v0 l
  • Kimi:33分;
    ( B9 ]2 K3 w8 k7 N/ C9 a9 f) H
  • 文心一言:33分;
    0 [% F! r6 _7 h% g/ L+ L
  • 通义千问:23分。
    6 a) _( t+ H' {& F; H

/ o& C  H1 V7 W( m5 ?& D7 i0 h+ p3 j" Z- c1 g, R
经过测试,DeepSeek、讯飞星火、Kimi、文心一言均获得满分,豆包表现不错,因一时疏忽,遗憾丢了三分,痛失高考状元。通义千问计算较为简单的问题时,都保持了极高的水准,但处理较难的问题时出现了计算错误,需要再接再厉。( N1 ]7 F2 j0 n  \2 z) |( b3 i
& t5 G2 S; c. Z) z- \

" j' z: R# z( E* E

8 `4 C! [( ^- g' ^$ ^, P9 k7 u
(图源:豆包AI生成)
3 H: l6 K: e+ f/ M2 A

! k  q5 P* ^7 c' l6 S. S# r& d( P* O5 g; V8 q5 ~
总是向AI行业泼冷水的苹果,日前在论文中表示,AI推理模型只是「假思考」,根本没有稳定、可理解的推理过程,更像是记忆,处理复杂任务时可能会崩溃。AI研究者Lisan al Gaib复刻苹果测试方法后表示,模型不是因为推理能力差失败,而是因为苹果限制了输出token。2 p0 P8 p" u5 }# `5 w% Q

; Q1 T" q2 n) b9 h0 I" H- L. Y& T9 K* y7 E7 f" ?
或许AI大模型推理能力仍存在上限,但我们看得到它们的进步。去年复旦大学NLP实验室测试AI大模型时,它们面对高考数学题表现糟糕,小雷在几次AI大模型横评测试中,也得到了类似的结果。今年的测试中,AI大模型基本都能计算出问题的正确答案,曾经难住AI大模型的多选题,也未能再对AI大模型造成困扰。
) ~0 [8 |8 |5 }  K6 Q! c7 |% P7 |) B
. }9 b& b5 i. ]8 K8 K1 p5 H; e' ~+ B- J
5 G, t% C' D9 D7 \9 GAI大模型数学题解答能力提升,最大受惠者可能是学生群体。国内学习机厂商和教育辅导平台,已陆续加入AI答题能力,但许多设备的AI大模型仅能解答中小学问题,例如行业翘楚小猿搜题,题目库不包含大学课程。% R5 ]2 r) |- Q+ l

4 o9 g' e% L# e% z& M5 f  k: [5 R) A* x, \# q- }
这六款AI大模型的优秀表现,证明了国内头部AI企业的实力,高考数学题已被征服,高等数学也不会远了。学习机厂商、教辅平台可以与头部AI企业合作,增强产品AI答题的能力,继续强化AI教育硬件业务。8 w) I  v$ Q- Q2 N! B5 i% z6 J

2 t1 [4 x3 ^( _" e
夏日丽六月,金榜题名时。
$ i* }7 l+ |& f% z5 I
  V5 U2 R/ T* e  V- q
5 ?9 S$ l+ A- o又是一年高考季,雷科技「高考毕业季」专题上线,满足学生粉丝的信息需求,涵盖搜索、AI等工具推荐,和手机、PC等选购攻略。
1 L- a- L; d% M5 \3 u4 a
" X; `- P# T$ @# R5 H2 ?) {. R% ~: x  s6 |: Y
敬请关注!8 j5 }! j6 ~* C% h% f

& m9 S8 i: J: A$ ]+ `1 m
/ }6 N2 `$ a$ j: K. W. ~4 j『本文转载自网络,版权归原作者所有,如有侵权请联系删除』
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-7-5 04:53 , Processed in 0.109375 second(s), 23 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表