o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

作者:小千 更新时间:2025-01-10 点击数:

【千问解读】

一水 发自 凹非寺

量子位 | 公众号 QbitAI

让大模型集体吃瘪,数学题正确率通通不到2%!

获大神卡帕西力荐,大模型 新数学基准来势汹汹——

一出手,曾在国际数学奥赛中拿下83%解题率的 o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。

所以,新挑战者到底啥来头??

一打听,这个新数学基准名为 FrontierMath,由 Epoch AI这家非营利研究机构号召 陶哲轩在内的60多位顶尖数学家提出。

这群人这次铁了心要给AI上难度,直接 原创了数百道极具挑战性的数学问题——

从数论中计算密集型问题到代数几何和范畴论中的抽象问题,涵盖了现代数学的大多数主要分支。

这些题有多难呢?按数学大佬陶哲轩对这项研究的评价说:

大模型们,至少需要再战个几年吧。

同时,卡帕西也表示非常喜欢这一新基准,甚至乐于见到大模型们“吃瘪”:

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准

FrontierMath:评估AI高级数学推理能力的新基准

今年以来,大语言模型(LLM)开始在各种数学benchmark上疯狂刷分,而且正确率动辄90%以上。

宣传看多了,人也麻了,于是纷纷反思——

一定是现在的基准测试“被污染了” (比如让AI在训练阶段提前学习基准测试中的问题)

对此,非营利研究机构Epoch AI看不下去了,于是直接联合60多位顶尖数学家 (共获得了14枚IMO金牌)推出FrontierMath。

这一新基准拥有 数百道大模型们之前没见过的数学题,而且难度颇高。

通常需要专业数学家花费数小时甚至数天的努力

一番实践检验下,果不其然,一众顶尖大模型纷纷折戟 (包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等)解题率均不足2%

而且即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,相关成功率仍然低于2%。

下面,我们具体介绍下FrontierMath。

这第一关主要解决数学题的原创性。

这群数学家们被要求按照 3个关键原则设计题目:

所有问题都是新的且未发表的,以防止数据污染;

解决方案是自动可验证的,从而实现高效的评估;

问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低;

除了出新题, 为了防止数据污染,机构还采取了其他措施。

比如为了最大限度地降低问题和解决方案在网上传播的风险,机构鼓励所有提交都通过安全、加密的渠道进行。

具体来说,机构采用加密通信平台与投稿人协调,并要求对在线存储的任何书面材料进行加密 (如加密文档)

当然也不完全依靠人力,为了进一步保证原创性,机构还通过抄袭检测工具Quetext和Copyscape对问题进行测试。

最终,数学家们提出了数百道原创题目,涵盖了 现代数学的大多数主要分支,从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

其中数论和组合学最多,合计约占所有MSC2020 (数学学科分类系统2020版本)的34%。

接下来,为了评估大模型在FrontierMath问题上的表现,研究开发了一个框架。

简单说,这一框架具体执行任务的过程如下:

分析问题:模型首先分析给定的数学问题;

提出策略:模型提出可能的解决方案策略;

实施并执行代码:将这些策略转化为可执行的Python代码并自动执行;

接收反馈:从代码执行的结果中接收反馈,包括输出和错误消息;

改进方法:根据实验结果,模型会验证中间结果,测试猜想,并可能改进其推理过程以修正潜在的错误;

该框架支持两种提交方式:一种是模型可以直接给出问题的最终答案;另一种是,在提交最终答案之前,模型可以先通过代码执行进行实验,以验证其解决方案的有效性。

不过需要提醒,在提交最终答案时, 模型必须遵循一些标准化格式

比如,在答案中需包含 #This is the final answer这一标记注释,且将结果保存在Python的pickle模块中,同时需确保提交的代码必须是自包含的,不依赖于先前的计算。

总之,这一评估过程将持续进行,直到模型提交了正确格式化的最终答案,或者达到了预设的标记限制(研究设置为10,000个token)。

如果模型在达到标记限制之前没有提交最终答案,它将收到一个最终提示,要求立即提交最终答案;

如果在收到该提示后模型仍然无法提供正确格式化的最终答案,则该尝试被标记为不正确。

陶哲轩看了都说难

为了进一步验证FrontierMath的难度,该机构还特意采访了4位数学大佬。

包括菲尔兹奖得主陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)在内,他们一致认为这些题非常具有挑战性。

下一步Epoch AI也计划从 四个方面持续推进

定期评估这些领先的大模型,并观察高级数学推理能力随时间推移和规模扩大而提高的情况;

保持难度的同时,向FrontierMath添加更多问题;

在未来几个月内发布更多代表性问题,供大家研究讨论;

扩大专家审查、增加错误数量和改进同行评审流程来加强质量控制;

这也合了卡帕西的心意,他认为这样的新基准应该更多,尤其是为那些看似“容易”的事情创建评估。

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。

有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶级专家行列(如数学和编码等), 但你不会雇用他们而不是让他们从事最琐碎的工作

如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易。

这是 莫拉维克悖论的变相,他在30多年前就观察到,对人类来说容易/困难的事情,与对计算机来说容易/困难的事情,在非直觉上可能大相径庭。

例如,人类对计算机下国际象棋印象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。

反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动任务,对硬件和软件的技术水平都是挑战。

这就像不久前OpenAI发布的魔方一样,大多数人都把注意力集中在解魔方本身(这是微不足道的),而不是用机器人的手转动魔方的一个面这一实际难度极高的任务。

因此,我非常喜欢这个FrontierMath基准, 我们应该制作更多的基准

但我也认为,如何为所有 “容易 “但其实很难的东西创建评估是一个有趣的挑战。

很长的语境窗口、连贯性、自主性、常识、有效的多模态输入/输出…… 我们如何建立良好的 “初级工作 “评估?就像你对团队中任何初级实习生的期望。

网友也表示,能在这种基准测试中取得高分的大模型将大有裨益。

陶哲轩梦想的就是这样的东西,可以连接到LEAN (微软研究院推出的一款定理证明器),让数学家成为编辑、顾问,偶尔处理一些真正困难的部分,而其余部分则自动化且可证明正确。

很难说一个在这次基准测试中能够达到80%的LLM对数学家来说没有用处。

对此,你怎么看?

论文:

https://arxiv.org/html/2411.04872v1

参考链接:

报名即将截止!

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名,评选从 企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月 MEET2025智能未来大会 公布,期待与数百万从业者共同见证荣誉时刻。

点这里

诸葛亮的那几次北伐是如何进行的?他为什么会失败?

的故事大家真的了解吗?今天小编给你们带来全新的解读~ 死后诸葛亮成了蜀国的实际掌权者,也肩负着蜀国存亡的重担。

228年,诸葛亮知道不能再等了,带领蜀军休整完毕进行北伐中原,当时诸葛亮的口号就是克复中原匡扶汉室,实际上就是要完成统一。

因为如果大家都和平发展下去,曹魏只会越来越强大,到那时候蜀国想防守都难,所以诸葛亮次计也是以守带攻。

可惜的是诸葛亮这五次北伐都没能给他带来多大的成效,诸葛亮究竟是怎么进行这五次北伐的呢? 诸葛亮是谁相比我不用介绍了吧,大家都知道刘备,最终请出了诸葛亮为其军师,诸葛亮也不负刘备所托,一直兢兢业业的为蜀国,刘备去世后,阿斗上位,其实阿斗生性善良,却没啥心眼,很容易被挑拨,这也是导致刘备4次北伐,最终克死五丈原,北伐由此结束。

第一次北伐被称为子午谷奇谋 由于事先无防备,导致陇右的南安、天水和安定三郡无力抵抗,天水、南安太守甚至弃守郡城向东逃窜,魏国天水守将、梁绪、尹赏、上官子脩等投降诸葛亮,雍州刺史郭淮则退往上邽固守待援。

顷刻间陇右五郡(陇西、南安、天水、广魏和安定)有三郡投降了诸葛亮,仅有广魏郡和陇西郡拒不投降。

陇西郡太守游楚坚决抵抗,蜀军难以攻克。

曹魏“朝野恐惧”,在洛阳的急率大军救援,亲自到长安坐镇,派大将军督军至郿县防御、率军五万前往抵抗诸葛亮,曹魏凉州刺史徐邈也遣参军与金城太守率军进攻南安郡。

诸葛亮也派遣为前锋,到街亭设防。

同时,为了防备雍州刺史郭淮从临渭出击配合张郃的进攻,于是诸葛亮命令高翔将军率领一支军队屯驻在临渭以北、街亭以南的列柳城。

第二次北伐折叠围攻陈仓 228年冬天,曹魏将领曹休在石亭被东吴将领打败,诸葛亮听说魏军大举东进,关中兵力空虚。

第三次北伐折叠攻取武都和阴平 229年春天,诸葛亮遣陈式(一说陈戒)进攻武都、阴平,曹魏大将郭淮领兵来救,诸葛亮率主力军向建威,牵制郭淮,魏军知道蜀军主力到临,便紧急撤退,蜀军顺利占领二郡。

之后,诸葛亮安抚了当地的氐人、羌人,然后留兵据守,自己率军回汉中。

因成功夺取二郡,再次恢复诸葛亮为丞相。

至冬天,诸葛亮徙府营至南山下的平原,建筑汉、乐二城,加强汉中防守。

第四次北伐折叠再战祁山 六月,诸葛亮眼见粮草接应不上,而又收到下令北伐军撤退的召命,诸葛亮惟有引军退回。

欲遣张郃追击蜀军,张郃认为“围师必阙,归师勿遏”,不赞同追击未被被打败而主动撤退的蜀军。

但司马懿坚持要张郃领兵追击,张郃无奈前往追击。

最后于木门道,被埋伏于高处的蜀军射中右膝,伤重病逝。

第五次北伐折叠挥师渭水折叠秋风五丈原 诸葛亮积劳成疾,终致自己病瘁,使蜀汉失去了复兴的中流砥柱。

他临终决定以统领各军撤退,引起和杨仪有嫌隙的武将不满,双方发生争斗,最后魏延失败,在逃往汉中的途中被杀,使蜀国又损失一大将。

蜀汉势力从此开始大幅步衰退直至灭亡。

而曹魏的司马懿因抗敌有功,开始攀上权力高峰。

其实诸葛亮大智慧已经显现,可是终有一个阿斗,因为宦官和奸臣当道,导致诸葛亮最终以失败告终,并不是为国有多强,而是一颗老鼠屎,坏了一锅粥。

今天小编就到这里,如果没有奸臣和宦官当道,诸葛亮和司马懿谁会赢呢,历史会因此而改变吗? 免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

司马迁为什么会对汉高祖刘邦的一些故事进行杜撰呢?

在《本纪》上来就说“不事家人生产作业”,刘邦不像平常人一样耕田劳作,突然之间变勤快了,岂能不让人怀疑!,感兴趣的读者可以跟着小编一起往下看。

再往下看,原来司马迁又插入一个让人怀疑的故事了,“与两子居田中耨,有一老父过请饮,吕后因哺之。

”吕后带着两个孩子在田里除草,有一老汉经过讨水喝,吕后不仅给他水喝,还拿饭给他吃。

刘邦家的地靠着大路,为何老汉特意经过?而且老汉只是讨水喝,吕后却广施爱心,不仅给水,还供饭吃。

“老父相吕后曰:‘夫人天下贵人。

’令相两子,见孝惠,曰:‘夫人所以贵者,乃此男也。

’相鲁元,亦皆贵。

”老汉在无意中透露天机,看了吕后面相便说:“夫人真是天下的贵人。

”吕后又让他给两个孩子相面,他见了孝惠帝,说:“夫人所以显赫,正是因为这娃。

”他又给鲁元相面,也同样是富贵面相。

“老父已去,高祖适从旁舍来,吕后具言客有过,相我子母皆大贵。

”老汉走后,高祖正巧从旁边的房舍走来,吕后就告诉了刘邦这稀奇事。

刘邦问这个人在哪,吕后说:“还走不远。

” 于是高祖就去追上了老汉,问他刚才的事,“老父曰:‘向者夫人、婴儿皆似君,君相。

’高祖乃谢曰:‘诚如父言,不敢忘德。

’及高祖贵,遂不知老父处。

” 诡异吧,这又是一桩无头案。

此事仅有刘邦一家四口知晓,而且最重要的人证却又是无从寻找。

刘邦奇人异相,孝惠帝、吕后也有贵人相,为何要添加如此故事?因为,孝惠帝差点被废太子,吕后也曾称制掌权数年。

所以,有理由相信这一幕的副导演应该是女主角吕后。

吕公择婿以貌取人 作为“神化”的副导演,吕后自然不忘徇私,也曾给自己的亲爹吕公露脸的机会。

吕公跟沛县关系不错,有一次宴请沛县有头有脸的人物。

宾客按份子钱多少来安排坐席,钱多主桌,钱少“堂下”。

负责接待,登记份子钱,并安排座位。

刘邦也来赴宴,必须给县令面子不是。

但是,他竟然不带份子钱,还吹牛“贺万钱”。

“吕公大惊,起,迎至门。

”司马迁对吕公细节描写很生动,“大惊”、“起”、“迎”,一系列动作表示对刘邦敬重,司马迁接着解释吕公有一技之长——相面,“见高祖状貌,因重敬之,引入坐。

” 吕公认为刘邦是大好青年不仅因为面貌体格,还与“高祖因狎侮诸客,遂坐上座,无所诎”有关,在有头有脸的人物面前,尤其是还有顶头上司县令,穷小子刘邦竟敢戏弄众宾客,且并不自卑。

所以,吕公对刘邦说,“臣有息女(亲生闺女),愿为季(刘邦字)箕帚妾。

”吕公许诺了闺女的婚事。

“沛令善公,求之不与,何自妄许与?”吕老太太跟吕公急赤白脸,“沛县县令善待你,想娶这个女儿你没同意,为什么随随便便地就把她许给刘季了呢?” 由此可以判断,刘邦跟吕后的婚事,完全是为了躲避沛县县令求婚。

毕竟,吕公来沛县是躲避仇家,又与沛县县令交好,再三拒绝会伤了朋友的友情。

更何况嫁给沛县县令只能是填房做小,而跟了刘邦起码是正室。

副导演吕后让编剧稍微改动了一下剧本,给吕公加了一句台词,“臣少好相人,相人多矣,无如季相”。

吕公吹嘘自己年轻时喜欢给别人相面,相过许多的人,但是没有人像刘邦的好面相。

吕公逃避县令“逼婚”,成了慧眼识人。

夜斩白蛇起义 刘邦当了之后,曾经替沛县押送一批民夫到骊山服役。

这并不是令人艳羡的公差,恰恰相反纯属苦差,因为“徒多道亡”,不少民夫在半路上逃跑了。

刘邦估计着等到达骊山人也就剩不下几个了。

“到丰西泽中亭,止饮,夜皆解纵所送徒,曰:‘公等皆去,吾亦从此逝矣!’”走到丰邑西面泽中亭时,便停下来休息饮酒,到夜晚就把押送的民夫解开绳子全部放走了。

刘邦说:“各位逃命去吧,我也要就此逃跑了。

” “天命所归”的刘邦此时并没有宏伟目标,只是个混日子赊酒喝的亭长。

民夫中有十多个的汉子,表示愿意追随刘邦。

“刘亭长往哪里去,我们便往哪里去”,不过是一群没有目标,没有目的地,没有归宿的“逃犯”了。

“高祖被酒,夜径泽中,令一人行前”。

刘邦带着酒意指挥十来个人,当晚从泽中选择小路逃走,派一人到提前探路。

一会儿探路人回来报告,“前面有条大蛇挡道,咱们还是回去吧。

” 刘邦喝了酒胆气壮,“好汉走夜路,不要怕!”于是亲自向前,拔剑斩蛇,蛇被斩为两段,道路就通了。

又走了几里路,刘邦既醉又困,在路边躺下睡着了。

诡异的事情又发生了。

“后人来至蛇所,有一老妪夜哭。

人问妪何哭,妪曰:‘杀吾子。

’人曰:‘妪子何为见杀?’” “后人”是落在后面的人,还是逃散的人顺路追过来呢?都没有不确定,但是他们肯定走过刘邦斩蛇的地方。

他们看到了很奇怪的一幕,一位老妇人在那哭泣。

经过询问才了解,老妇人的儿子被别人杀了。

有人问:“你的儿子为什么被杀?”一群四散逃命的人还有闲心顾及别人的闲事,岂不怪哉? “妪曰:‘吾子,白帝子也,化为蛇,当道,今者赤帝子斩之,故哭。

’人乃以妪为不诚,欲笞之。

妪因忽不见。

” 这段话涉及到五行方面内容,五行对应五色,即木(青)、火(赤)、土(黄)、金(白)、水(黑)。

按五行学说生克关系,火(赤)克金(白),所以说赤帝能够胜白帝。

老妇人说自己的儿子是白帝之子,变成大蛇,挡在路中,被赤帝之子杀了。

后面追上来的人听到老妇人如此说,都认为她半夜说鬼话吓唬人,想鞭打她。

老妇人却忽然不见了。

“后人至,高祖觉。

”后面的人追上来,刘邦也睡醒了。

纯属巧合?还是特意等待? 诡异的故事就此传开了,刘邦听了暗自高兴,有点自命不凡了。

“诸从者日益畏之”,这里“畏”究竟是“怕”多一些,还是“敬”多一些呢?应该是敬畏。

毕竟,此前心甘情愿追随的人仅仅十几个。

有了这个“诡异”的故事,追随的人多了,招兵买马也容易了。

这些诡异事件大都出现在《汉高祖本纪》,而真正诡异的天气却在《本纪》中出现,“春,汉王部五诸侯兵凡五十六万人,东伐楚。

项王闻之,即令诸侯击齐,而自以精兵三万人”,这一年是汉之二年,也就是公元前205年。

刘邦带着五十六万军队攻打项羽老窝彭城(今徐州),项羽此时正带着诸侯军攻打。

当听说刘邦攻打彭城,仅带领三万精兵撤回救援。

刘邦四月已经拿下彭城,项羽“晨击汉军而东,至彭城,日中,大破汉军。

” 项羽三万人把刘邦五十六万军队追着打到了睢水,楚军将刘邦团团围住,眼看着刘邦插翅难逃了。

岂料,“于是大风从西北而起,折木发屋,扬砂石,窈冥昼晦,逢迎楚军。

” 这才是苍天保佑! 正在这个时候,狂风从西北方向刮起,摧折树木,掀毁房舍,飞沙走石,刮得天昏地暗,白天变成了黑夜,向着楚军迎面扑来。

“楚军大乱,坏散,而汉王乃得与数十骑遁去。

” 这次沙尘暴来得巧,时间上刚刚好,方向上迎着楚军,所以刘邦才得以逃亡。

然而,如此诡异的事件竟然收录在《项羽本纪》,与《汉高祖本纪》中的诡异不属于一类。

司马迁用意大概如此吧。

司马迁是崇拜的,他在《世家》明确“孔子罕称命,盖难言之也”。

司马迁为何要对刘邦“诡异”之事记录详细呢?从以上“诡异”之说逐一分析发现,记录这些目的有二: 第一,给予新政权的正当性。

“非有尺寸,乘势起陇亩之中”,毕竟,刘邦是中国历史上第一个从平民登上帝位的人。

一统之后泰山,四处立碑,不也是为了维系自己的威望和天命所归,更何况从平民走出来的刘邦。

第二,增强义军的凝聚力。

“豪杰蜂起,相与并急”,刘邦走向起义道路纯属被逼,招兵买马,扩充队伍不像项羽那么轻松,相对来讲极度缺乏号召力。

起义也曾用人假装狐狸喊叫“陈胜王大楚兴”的口号,和鱼腹藏书来打造自己的天命所属。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

声明:本文内容仅代表作者个人观点,与本站立场无关。

如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理

加入收藏

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

点击下载文档

格式为doc格式

  • 账号登录
社交账号登录