o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

作者:小菜 更新时间:2025-01-10 点击数:
简介:最终,数学家们提出了数百道原创题目,涵盖了 现代数学的大多数主要分支,从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

接下来,为了评估大模型在FrontierMath问题上的表现,研究开发了一个框…

【千问解读】

一水 发自 凹非寺

量子位 | 公众号 QbitAI

让大模型集体吃瘪,数学题正确率通通不到2%!

获大神卡帕西力荐,大模型 新数学基准来势汹汹——

一出手,曾在国际数学奥赛中拿下83%解题率的 o1模型就败下阵来,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。

所以,新挑战者到底啥来头??

一打听,这个新数学基准名为 FrontierMath,由 Epoch AI这家非营利研究机构号召 陶哲轩在内的60多位顶尖数学家提出。

这群人这次铁了心要给AI上难度,直接 原创了数百道极具挑战性的数学问题——

从数论中计算密集型问题到代数几何和范畴论中的抽象问题,涵盖了现代数学的大多数主要分支。

这些题有多难呢?按数学大佬陶哲轩对这项研究的评价说:

大模型们,至少需要再战个几年吧。

同时,卡帕西也表示非常喜欢这一新基准,甚至乐于见到大模型们“吃瘪”:

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准

FrontierMath:评估AI高级数学推理能力的新基准

今年以来,大语言模型(LLM)开始在各种数学benchmark上疯狂刷分,而且正确率动辄90%以上。

宣传看多了,人也麻了,于是纷纷反思——

一定是现在的基准测试“被污染了” (比如让AI在训练阶段提前学习基准测试中的问题)

对此,非营利研究机构Epoch AI看不下去了,于是直接联合60多位顶尖数学家 (共获得了14枚IMO金牌)推出FrontierMath。

这一新基准拥有 数百道大模型们之前没见过的数学题,而且难度颇高。

通常需要专业数学家花费数小时甚至数天的努力

一番实践检验下,果不其然,一众顶尖大模型纷纷折戟 (包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等)解题率均不足2%

而且即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,相关成功率仍然低于2%。

下面,我们具体介绍下FrontierMath。

这第一关主要解决数学题的原创性。

这群数学家们被要求按照 3个关键原则设计题目:

所有问题都是新的且未发表的,以防止数据污染;

解决方案是自动可验证的,从而实现高效的评估;

问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低;

除了出新题, 为了防止数据污染,机构还采取了其他措施。

比如为了最大限度地降低问题和解决方案在网上传播的风险,机构鼓励所有提交都通过安全、加密的渠道进行。

具体来说,机构采用加密通信平台与投稿人协调,并要求对在线存储的任何书面材料进行加密 (如加密文档)

当然也不完全依靠人力,为了进一步保证原创性,机构还通过抄袭检测工具Quetext和Copyscape对问题进行测试。

最终,数学家们提出了数百道原创题目,涵盖了 现代数学的大多数主要分支,从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

其中数论和组合学最多,合计约占所有MSC2020 (数学学科分类系统2020版本)的34%。

接下来,为了评估大模型在FrontierMath问题上的表现,研究开发了一个框架。

简单说,这一框架具体执行任务的过程如下:

分析问题:模型首先分析给定的数学问题;

提出策略:模型提出可能的解决方案策略;

实施并执行代码:将这些策略转化为可执行的Python代码并自动执行;

接收反馈:从代码执行的结果中接收反馈,包括输出和错误消息;

改进方法:根据实验结果,模型会验证中间结果,测试猜想,并可能改进其推理过程以修正潜在的错误;

该框架支持两种提交方式:一种是模型可以直接给出问题的最终答案;另一种是,在提交最终答案之前,模型可以先通过代码执行进行实验,以验证其解决方案的有效性。

不过需要提醒,在提交最终答案时, 模型必须遵循一些标准化格式

比如,在答案中需包含 #This is the final answer这一标记注释,且将结果保存在Python的pickle模块中,同时需确保提交的代码必须是自包含的,不依赖于先前的计算。

总之,这一评估过程将持续进行,直到模型提交了正确格式化的最终答案,或者达到了预设的标记限制(研究设置为10,000个token)。

如果模型在达到标记限制之前没有提交最终答案,它将收到一个最终提示,要求立即提交最终答案;

如果在收到该提示后模型仍然无法提供正确格式化的最终答案,则该尝试被标记为不正确。

陶哲轩看了都说难

为了进一步验证FrontierMath的难度,该机构还特意采访了4位数学大佬。

包括菲尔兹奖得主陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)在内,他们一致认为这些题非常具有挑战性。

下一步Epoch AI也计划从 四个方面持续推进

定期评估这些领先的大模型,并观察高级数学推理能力随时间推移和规模扩大而提高的情况;

保持难度的同时,向FrontierMath添加更多问题;

在未来几个月内发布更多代表性问题,供大家研究讨论;

扩大专家审查、增加错误数量和改进同行评审流程来加强质量控制;

这也合了卡帕西的心意,他认为这样的新基准应该更多,尤其是为那些看似“容易”的事情创建评估。

之所以引入这个基准,是因为大模型越来越多地碾压现有的数学基准。

有趣的问题是,尽管从许多方面(/evals)来看,大模型正逐步跻身顶级专家行列(如数学和编码等), 但你不会雇用他们而不是让他们从事最琐碎的工作

如果你把问题描述整齐地放在盘子里,他们就能解决复杂的封闭式问题,但他们很难连贯地把长长的、自主的、解决问题的序列串联起来,而人却会觉得非常容易。

这是 莫拉维克悖论的变相,他在30多年前就观察到,对人类来说容易/困难的事情,与对计算机来说容易/困难的事情,在非直觉上可能大相径庭。

例如,人类对计算机下国际象棋印象深刻,但国际象棋对计算机来说却很容易,因为它是一个封闭的、确定性的系统,具有离散的行动空间、完全的可观测性等等。

反之亦然,人类可以系好鞋带或叠好衬衫,而且根本不需要考虑太多,但这是一项极其复杂的传感运动任务,对硬件和软件的技术水平都是挑战。

这就像不久前OpenAI发布的魔方一样,大多数人都把注意力集中在解魔方本身(这是微不足道的),而不是用机器人的手转动魔方的一个面这一实际难度极高的任务。

因此,我非常喜欢这个FrontierMath基准, 我们应该制作更多的基准

但我也认为,如何为所有 “容易 “但其实很难的东西创建评估是一个有趣的挑战。

很长的语境窗口、连贯性、自主性、常识、有效的多模态输入/输出…… 我们如何建立良好的 “初级工作 “评估?就像你对团队中任何初级实习生的期望。

网友也表示,能在这种基准测试中取得高分的大模型将大有裨益。

陶哲轩梦想的就是这样的东西,可以连接到LEAN (微软研究院推出的一款定理证明器),让数学家成为编辑、顾问,偶尔处理一些真正困难的部分,而其余部分则自动化且可证明正确。

很难说一个在这次基准测试中能够达到80%的LLM对数学家来说没有用处。

对此,你怎么看?

论文:

https://arxiv.org/html/2411.04872v1

参考链接:

报名即将截止!

「2024人工智能年度评选」

量子位2024人工智能年度评选将于11月15日截止报名,评选从 企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月 MEET2025智能未来大会 公布,期待与数百万从业者共同见证荣誉时刻。

点这里

刘备称帝得以顺利进行的三个人是哪位是怎么回事?为什么不是张飞关羽

这成功路上很重要的一点便是得有贵人的扶持,这不论是古代还是今天,他依然是不能够脱离的一个现实问题,而在我们熟知的时代,这一点是同样的重要的。

作为一个三分天下的英雄人物,的成长史可真实一波三折,当初在遇到了、之后,这整个的人生才算是开始存在,而加入到了这起义军的过程当中之后,刘备的表现却依旧那般的不入眼,甚至于在荆州的时候,讲到自己在48岁的时候已经是一无所有,这样的人生在那个时代可以说就是一个悲哀。

不过好在此人还是有着很大的可造之性的,在火烧赤壁之后是成为了天下三大英雄人物之一。

那么在刘备之一路走来的过程当中,自己的运气当然是一部分,而最终在成功促进他登上帝位的人物当中,有哪些人算得上是他的贵人呢?申明一点,这张飞和关羽还真没有帮上什么忙,在他们三人结拜之后,有将近十年的时间是刘备和他的两位弟弟一起共事,但是最后的结果却连个自己的城池也没有。

首先其中之一那便是要说到这张松此人,此人原本是的部下,但是一直不曾得到重用,在不断的怨恨积累之下,他开始怂恿刘璋,而暗中却是帮助刘备,这整个的益州的夺取,对于刘备来说太重要了,而这正是张松此人的贡献。

而这第二位那就要数这法正了,在当初夺取益州的时候,他也是发挥了很多积极的作用的。

而在建议刘备攻取汉中的时候,也是法正首先提出来的,当时的法正意识到的撤军一定是出现了意外,正是在这样的情景之下,刘备大军成功夺取了汉中,之后的曹操也是讲到,刘备军中能够判定这样的情况发生的人物绝对不简单,可见此人在其中发挥的作用是足够的强大的。

刘备夺取了汉中,这为整个的天下也是奠定了坚实的基础。

当然这第三位便是诸葛亮,刘备奋斗十多年依旧没有收获,在得知了有卧龙这样的贤者的时候,他是用三顾这样的真情打动诸葛亮,诸葛亮的出山改变了刘备的一生,对整个的天下大势也作出了很大的改变。

无数的传奇自然是不必说,自从他出山之后,刘备那颠沛流离的生活也即将结束,通过赤壁一战让整个的天下出现了三分这样的壮举,而为了稳固蜀国的江山,诸葛亮是用尽自己的力量,有了主人这般的恩典,他不得不呕心沥血。

正是有了上述这三位的存在,才得以顺利进行,你们有什么不同的看法呢? 随机文章小行星撞击云南事件真相,或为陨石坠落威力相当于为原子弹7%孙悟空墓发现的金箍棒是真的,考古学发现孙悟空和通天大圣合葬墓揭秘大龄不婚的前世因果,前世风流债今世还/可能备胎到老的结局海王星是谁发现的,勒威耶用数学计算出位置/伽勒发现海王星网曝喷火鱼喷火视频,详解3米长蓝色火焰形成原因/喷火百年一见迷案在线 mazx.cn本站内容大多收集于互联网,内容仅供娱乐,并不代表本站观点,如果本站内容侵犯了您的权益,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

日本遭原子弹袭击后如果还不投降?盟军将会进行怎么样的行动

1945年8月,美国分别在日本的广岛和长崎投下两颗原子弹,这也成为了压倒日本的最后一根稻草。

8月15日,日本正式宣布无条件投降。

(日本投降旧照) 那么,假如日本在遭到原子弹轰炸后,依然选择死不投降,盟军下一步的行动是什么? 早在1945年5月,德国宣布无条件投降之后,整个轴心国世界就只剩下了日本。

日本之所以选择负隅顽抗,并不是因为他们所谓武士道的大无畏精神,也不是因为裕仁天皇是个死脑筋。

实际上,日本早就知道了战争必败,但对于裕仁天皇来说,盟友和的下场,实在太过凄凉,如果现在宣布投降,那他自身必然也会因战犯头子的身份被处以极刑。

而且美国为了占领日本诸岛,付出了极其惨重的代价。

美军估计,假如真的打上日本岛,伤亡人数绝不会少于50万。

因此,在裕仁天皇的眼中,坚决抵抗不投降,实际上是在为日本谋取更多的利益。

日方能接受的,是“有条件投降”。

这些条件包括:尽力保证日本领土主权的完整;日方军队撤退回国,不必向各地的政权缴械;保证日本天皇的生命安全等。

不过,这些条件在美国看来,是绝对不能接受的。

因此为了尽早的结束战争,美国才不得不采用了原子弹轰炸的方法。

(裕仁天皇旧照) 假如日本在遭到轰炸后还是不投降,那将会给日本带来两个方面的影响。

一、日本本土遭到毁灭性打击。

在美国投放原子弹之前,军方实际上早已经制定好了登陆日本岛的作战计划,这个计划被统称为“没落行动”。

其中包括了奥林匹克行动和小王冠行动两个部分。

奥林匹克行动计划在1945年11月实施,其目的是占领九州岛南部的领土,让这部分土地与冲绳成为美军的战略基地。

而小王冠行动则计划在1946年1月实施,美军计划逼近日本的关东平原,直指东京。

由此可见,美国想要占领日本全境绝不是空穴来风,而日本方面实际上对这种局面也早有防备。

早在冲绳战役之前,日本就抽调了大批部队回到日本本土,准备最后的决战。

像占领中国东北的关东军主力部队就是其中一支。

而关东军向来以陆军的“皇军之花”著称,其战斗力十分强悍。

除了军队之外,日本军方更是一直在国内宣扬“一亿玉碎”的计划。

该计划要求每个日本国民都团结起来,与侵入的美国人死战到底。

也就是说,美军在登陆日本岛之后,不仅要与日本最精锐的部队战斗,还必须得进行大规模的屠杀与破坏,否则他们将根本无法面对日本全民皆兵的局面。

不过从另一个角度来说,日本这样的做法也必然会导致国民死伤惨重,人类文明将会遭到极大程度的毁坏。

从当时的世界形势来看,日本落败,本是板上钉钉的事,而他们如此极端的做法,最终也不过是伤害到自己罢了。

(华西列夫斯基画像) 二、日本国土被瓜分。

之所以说是瓜分,那是因为在美国投放原子弹之后,苏联也出兵了。

原子弹爆炸后,苏联方面由华西列夫斯基挂帅,150万大军浩浩荡荡地杀到了中国东北。

由于当时的关东军主力部队已经抽调的差不多,日本在中国东北只剩下了70万的,苏联在短短一周之内就造成了日本军队近10万的死伤。

假如他们不投降,苏联势必会在极短时间内将这70万人吃得干干净净。

而在这之后,由于美国对登陆作战伤亡巨大的担忧,苏美双方很有可能联手共同讨伐日本本土,由苏联派出陆军进行登陆作战,美国则在海中进行飞机炮火的支援。

等到日本被攻占之后,苏美两国再来瓜分日本的领土以及资源。

随机文章日本干细胞再生人体器官,万能干细胞(生命的源头)详解世界十大最危险机场,飞行员中仅10%人敢飞外星人说人类前世是神,美国秘密研究外星人(外星人说人类是神)可怕的太阳系皮壳理论,人们看到的太阳系都是假象(阴谋论)地表喀斯特地貌类型,喀斯特地貌的形成过程(大自然风化而成)迷案在线 mazx.cn本站内容大多收集于互联网,内容仅供娱乐,并不代表本站观点,如果本站内容侵犯了您的权益,敬请联系网站管理员,我们将尽快回复您,谢谢合作!

加入收藏
               

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

点击下载文档

格式为doc格式

  • 账号登录
社交账号登录