o4-mini暴击六大数学天团攻破陶哲轩难题！4.5h激战人类阵地失守

编辑：桃子

【新智元导读】不到两年，大家会见证AI数学家的重大突破！最新实验中，o4-mini与40位数学家，一同挑战300道菲尔兹奖级难题。o4-mini一举击败6组团队，超越人类平均水平。

八支「数学家天团」和o4-mini-medium同台竞技，谁会最终胜出？

最近，Epoch AI团队举办了一场竞赛，专门考察AI数学能力的进展。

这场比赛邀请了约40位数学精英，分成8组，每组由学科专家和优秀本科生组成。

他们要与AI一同在陶哲轩等人提出的FrontierMath基准上，展开终极对决。

比赛一共23题，限时4.5小时，实验最终得出：

o4-mini-medium碾压人类平均水平（19%），应对了约22%题目。

不过，o4-mini能够应对的困扰，至少被一组数学家团队破解。由此，人类团队总体上应对了约35%的题目。

结果显示，o4-mini一共击败六组团队，在数学领域展现了惊人的潜力。

谷歌前CEO Eric Schmidt预测，未来1-2年内，「超级程序员」和「AI数学家」将取得重大突破。

o4-mini，作为AI的代表，便是一个很好的实行。

菲尔兹奖得主出题，AI击败6队

提及FrontierMath，想必圈内人无人不知。

这一基准于24年11月首次亮相，由菲尔兹奖得主与业内多位著名数学家共同出题，挑战AI数学能力的极限。

它包含300个困扰，难度从高年级本科生水平到菲尔兹奖得主都认为具有挑战性的困扰。

那么，这么多数学难题，人类在其表现中如何呢？

为了确定人类极限，Epoch AI便在MIT组织了这场比赛——FrontierMath Competition。

如上所述，每组被分成4-5人的8组团队，在联网情况下，最多用4.5h去应对23个数学题。最后，再与o4-mini-medium进行比拼。

o4-mini-medium的表现虽超过了平均人类团队，但不如所有团队的综合得分。

因此，在FrontierMath上，AI尚未完全超越人类，但Epoch AI认为顶尖模型很快就会做到。

目前，这份数据仅代表FrontierMath的一个小型非代表性子集。

若综合考虑，人类整体基准大约在30-50%之间。

接下来，Epoch AI详细解释了关于人类基准结果的四个关键点，包括其中来源和含义。

0号新闻 style56=”width: 112px;” alt=”o4-mini暴击六大数学天团攻破陶哲轩难题！4.5h激战人类阵地失守” />

人类选手，并不代表数学SOTA

人类团队的表现，因团队而异构成。

由于参赛者主要来自波士顿数学社区，分析领域的专家较少，导致了整体专长分布不均。

每队虽至少有一名某一领域的专家，但也没有哪支队伍在所有高级领域，如拓扑学、代数几何、组合数学、数论等都有专家覆盖。

这使得人类平均分，可能低估了真实水平。

最主要的是，比赛4.5小时时间，可能限制了人类的表现。AI应对每题只需5-20分钟，而人类平均耗时约40分钟。

此前研究表明，人类在长时间任务上表现更具潜力，而AI性能可能在一定时间后趋于平稳。

为了更全面评估，研究团队采用了两种手段计算人类基准：

1. 团队平均得分：每支队伍独立表现，得分约19%

2. 综合得分：如果任一队答对某题就算正确，得分提升至约35%

若要为整个FrontierMath设定人类基准，还需应对第二个困扰：比赛困扰的难度分布与完整 FrontierMath数据集不同。

为此，研究人员按难度层级拆分结果，并根据完整基准的难度分布加权总体得分。

结果，按整体难度分布加权后，人类基准提升到约30%，基于「多次尝试」方法，更是刷新到了52%。

而此时，AI的加权得分约为37%。

Epoch AI指出，o4-mini-medium得分提升，是乃因比赛中的Tier 1/Tier 2困扰相对完整基准的同级困扰较轻松，阐述了这一调整方法仍不理想。

设计巧思：推理而非知识

FrontierMath比赛的独特之处在于，它更注重数学推理能力，而非单纯的知识储备。

当前，AI在知识广度上远超人类——具备轻松调用数学、微分几何等庞大知识库，而人类很难精通所有领域。

因此，比赛题目被精心设计，尽量减少对背景知识的依赖。

比如，研究人员选用了7道适合优秀本科生的「通用困扰」，以及16道专为专家定制的「高级困扰」。

这些题目主要覆盖了四大类：拓扑学、代数几何、组合数学和数论。

为了激励参赛者挑战高难度题目，比赛还采用了特殊计分规则：

高级题目每题2分，通用题目每题1分；每个领域至少答对一题可额外加1分。

此外，奖金池也非常诱人，第一名1000美元，第二名800美元，第三名400美元。

全面超越人类，指日可待？

尽管o4-mini-medium在FrontierMath上，尚未完全超越人类，但其表现已令人瞩目。

它在比赛的得分不仅于人类顶尖团队相当，而且在知识广度上占据巨大优势。

Epoch AI预测，到2025年底，AI和可能明确超越30%-50%的人类基准。

有网友对此表示，要让AI成为超人的存在，必须定期应对人类数学家无法应对的困扰。

然而，AI的成功机制依然是一道谜题。

它们究竟是靠猜测解题，还是真正掌握了数学推理？与人类的方法相比，有何不同？

在研究人员看来，这些困扰有待进一步探索。

此外，FrontierMath的题目并非实际数学研究的直接代表，o4-mini的超人表现是否会转化为研究突破，仍需要时间来验证。

扫一扫打开手机网站

微信扫一扫关注我们

o4-mini暴击六大数学天团攻破陶哲轩难题！4.5h激战人类阵地失守

作者: yeoid

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: yeoid

为您推荐

概括一下，特朗普对进口芯片征税100%：一台美国制造iPhone，可能要卖2.5万元

很多人不知道，骁龙和ChinaJoy的第七年：站上C位，不负访客所望 | 凤凰V现场

据​报道，外​媒称iPhone 17 Pro Max有三大优势 和17 Pro相比

苹果成折叠屏救星？姗姗来迟的iPhone Fol​d到底啥水平

最窄白边框+潜望镜，还要卷手感，魅族22这次认真了

容易被误解的是，i​Ph​one 17系列4款机型所有颜色齐亮相：橙色最抢眼

联系我们

微信扫一扫关注我们

据报道，外媒称iPhone 17 Pro Max有三大优势和17 Pro相比

苹果成折叠屏救星？姗姗来迟的iPhone Fold到底啥水平

容易被误解的是，iPhone 17系列4款机型所有颜色齐亮相：橙色最抢眼