“肚子上的肉怎么甩都甩不掉”——2024年5月,北京白领小林打卡健身房6周,腰围从82cm缩到73cm,靠的不是每天5公里慢跑,而是把慢跑换成开合跳+...
2025-09-18 1
智东西9月18日消息,今天凌晨,OpenAI和谷歌前后脚宣布,自家模型在全球知名编程竞赛ICPC 2025(第49届国际大学生程序设计竞赛)总决赛获得金牌级别的表现。
OpenAI推理系统答对了全部12道题目,并且一次性答对11道题,最难的题目提交了9次后成功,与人类团队相比可排第一;Gemini 2.5 Deep Think高级版本在677分钟内解出10道题,与人类团队相比可位列第二。
如果将AI列入ICPC的总排名中,前三名应该是OpenAI推理系统、圣彼得堡国立大学、谷歌Gemini 2.5 Deep Think高级版本。
ICPC的要求是参赛者在5个小时内解出12道复杂算法问题,解题方案是否完美、解题耗时都会影响积分。
最终139支队伍中获得金牌的为前四名,分别为圣彼得堡国立大学、东京大学、北京交通大学、清华大学,解出题目最多的是圣彼得堡国立大学,共11道。
ICPC拿下金牌的人类团队
这是继2个月前,OpenAI推理系统、谷歌Gemini 2.5 Deep Think在国际数学奥林匹克竞赛(IMO)之后,又一次在顶尖国际竞赛中证明了自己的实力。
谷歌Gemini 2.5 Deep Think高级版本参加ICPC总决赛的代码已经在GitHub开源。
GitHub地址:
https://github.com/google-deepmind/gemini_icpc2025
ICPC是全球公认的历史最悠久、规模最大、最负盛名的大学级算法编程竞赛,每年来自近3000所大学和超过103个国家的参与者竞相解决现实世界的编程问题。
OpenAI和谷歌都参与并获得金牌级别表现,OpenAI推理系统解答了12道题,谷歌Gemini 2.5 Deep Think高级版本答出10道题,最好的人类团队答出11道题。
1、OpenAI:拿下满分,11道题一次就做对
OpenAI推理系统获得满分。
OpenAI提到并没有专门为ICPC训练模型,其采用通用推理模型组合的方式参赛。
比赛中,GPT-5与一款实验性推理模型共同生成解题方案,由该实验性推理模型负责筛选待提交的方案。最终,GPT-5正确解答了11道题目,而最后一道也是难度最高的一道题目由这款实验性推理模型解决。
其模型一次性答对了11道题,最难的问题在第9次提交时成功了。
2、谷歌:答对10道题,45分钟解出8道题
Gemini 2.5 Deep Think高级版本按照ICPC规则在远程在线环境中进行现场比赛,比人类参赛者晚10分钟开始。Gemini总共花费677分钟,解决了12个问题中的10个,其中8个花费45分钟,另外2个问题花费3个小时。
下图是2025年ICPC总决赛中解决每个问题所用的时间,Gemini所花的时间以蓝色显示,最快的大学生团队的时间以灰色显示。
Gemini在3道题目上的解题时间都超过了人类。
ICPC总决赛中解决每个问题所用的时间
此外,谷歌DeepMind还提到一道困住所有人类团队的难题,被Gemini在半小时内成功解答。
问题C要求团队设计一套解决方案,通过相互连接的管道网络将液体输送至一组储液罐,目标是找到一种管道配置,以最快速度将所有储液罐注满。
该问题存在无限多种可能的配置,因为每条管道均可处于开启、关闭甚至部分开启的状态,这使得寻找最优配置的难度极大。
问题C简介
Gemini找到了有效的解决方案:它首先假设每个水库都有一个“优先级值”,代表每个水库与其他水库相比应该获得的优先程度。
当给定一组优先级值时,可以使用动态规划算法找到管道的最佳配置。
Gemini发现,通过应用极小极大定理(Minimax Theorem),原问题可转化为寻找能使最终流量受到最大约束的优先级数值。
借助优先级数值与最优流量之间的关联,Gemini在类似碗状的凸性解空间中,通过嵌套三分搜索(Nested Ternary Searches)快速找到最优优先级数值,最终解决了C题。
目前订阅Google AI Ultra的Gemini用户已经可以在Gemini App中使用轻量级版本的Gemini 2.5 Deep Think。
谷歌DeepMind的博客中提到,Gemini的表现得益于其在预训练、训练后、强化学习技术、多步骤推理和平行思维方面的技术创新。
例如,在强化学习过程中,研究人员训练Gemini为编程人员面临的一些最困难的问题进行推理和生成代码,从结果反馈中学习并改进其方法。为了解决一个问题,多个Gemini Agent会各自提出自己的解决方案,使用终端执行代码和测试,然后根据所有尝试迭代解决方案。
谷歌DeepMind的内部研究表明,Gemini 2.5 Deep Think高级版本也能在2023年和2024年ICPC世界总决赛中取得金牌级别的表现,表现不亚于全球前20名竞技开发者。
在ICPC上获得金牌水平对软件开发具有直接的实际影响,如果将比赛中最好的AI和人类解决方案结合起来,所有12个问题都会得到彻底和正确的解决。这表明AI有潜力提供独特思路,为人类专家提供补充。
除了数学和编程外,Gemini 2.5 Deep Think高级版本还展示了在抽象推理方面的能力。
这是因为,ICPC的问题需要模型理解复杂的问题、设计多步骤的逻辑计划、完美实施,这一过程与许多科学和工程领域所需的技能相同,包括设计新药或微芯片等领域。
OpenAI的研究人员在X上发布帖子称,他们采用同一组模型参加IMO和IOI竞赛,展示了模型性能以及通用型。
从国际数学奥林匹克竞赛(IMO)到此次的编程竞赛,OpenAI以及谷歌的模型在解决更具挑战的数学、推理难题上迸发出巨大潜力。ICPC全球执行董事Bill Poucher博士称,ICPC一直致力于在解决问题方面设定最高标准,Gemini在这一领域取得的成绩,标志着定义下一代所需AI工具和学术标准的关键时刻。
这些在竞争性编程和数学推理方面的突破共同证明了大模型在抽象推理问题解决方面的性能飞跃,或能与人类专家结合,解决更加复杂的难题。
本文来自微信公众号“智东西”(ID:zhidxcom),作者:程茜,编辑:李水青,36氪经授权发布。
相关文章
“肚子上的肉怎么甩都甩不掉”——2024年5月,北京白领小林打卡健身房6周,腰围从82cm缩到73cm,靠的不是每天5公里慢跑,而是把慢跑换成开合跳+...
2025-09-18 1
国都证券投顾严秀丽认为,A股市场分化及风格轮动较为明显。预计后市A股大概率延续震荡上行态势,板块方面或难有特别明晰的主线。依旧看好科技板块,但连续上涨...
2025-09-18 3
这是关于两个普通女人的故事。 她们来自同一个小县城,在上海求学毕业后选择了两条不太一样的路。一个回到家乡考编“上岸”,另一个留在大城市求职腾挪。从20...
2025-09-18 1
“我教育你要爱国,但不是这样。”据报道,枪手泰勒·罗宾逊的父亲、共和党籍老警官马特·罗宾逊经历了长达几小时的思想斗争,最终决定劝说儿子投案自首,这是一...
2025-09-18 3
前言库克这次真拼了!苹果新机iPhone Air厚度压到5.6毫米,比口红还细。宣传照美如画,可别被这“纸片机”忽悠了,实际用起来全是坑。更离谱的是,...
2025-09-18 1
智东西9月18日消息,今天凌晨,OpenAI和谷歌前后脚宣布,自家模型在全球知名编程竞赛ICPC 2025(第49届国际大学生程序设计竞赛)总决赛获得...
2025-09-18 4
马来西亚一位16岁女孩自杀身亡,令人错愕的是,她生前在instagram上发起投票“Really Important, HELP ME CHOOSE~...
2025-09-18 5
2025年9月,麦肯锡最新报告显示,全球贸易投资信心指数跌至12年来最低点,G20国家间贸易摩擦事件同比激增34%。新一轮稀土争端升级,联合国多边协调...
2025-09-18 7
发表评论