Ky开元集团首页>资讯中心>项目成果>正文

OpenAI推出重磅o3推理模型!展现强大推理能力
2024年12月30日 11:34:03 来源:Ky开元集团 点击量:4942

12月20日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。

  12月20日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。
 
  o3能够进行复杂任务的推理,在科学、编码、数学等领域的表现要优于前一代o1模型,同时花费的处理时间也会更长。以一项评估AI高级数学推理能力的测试EpochAI Frontier Math为例,以往所有模型都未达到2%的准确率,而o3准确率达到了创纪录的25%。
 
  在2024年美国数学邀请赛中,o3模型的准确率高达96.7%,仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中,o3也解决了25.2%的问题。尽管这一得分看似不高,但此前其他大型语言模型曾在此“集体翻车”,正确率均未超过2%。
 
  在对科学知识的掌握方面,o3的表现也超出一般博士水平。在GPQA Diamond(衡量模型在博士级科学问题上的表现,涵盖化学、物理和生物学方面的专业知识)基准测试中,o3的准确率达到87.7%,超过了人类博士的70%,也比之前o1表现高近10%。
 
  此外,o3的编码能力也比之前的o1系列更胜一筹。在 SWE-bench Verified(衡量AI模型解决现实世界软件问题的能力)基准上,o3的准确率约为71.7%,比o1高20%以上。在Codeforces编码竞赛平台中,o3的得分为2727,相当于榜单上第175名人类编程员的水平,而o1得分仅为1891。
 
  o3模型让OpenAI在通往AGI的道路上又迈前了一步。在相关基准测试ARC-AGI中,高配版o3得分为87.5%,低计算设置下o3得分为75.7%,是o1模型的三倍。但高计算模式需要花费极其昂贵的成本,每个任务高达数千美元,低计算模式则需要20美元左右。
关键词

相关阅读 Related Reading

查看更多+
  • 预算8440万元 东华大学松江校区采购一批新建大型仪器装备

    东华大学松江校区新建大型仪器装备实践中心项目的预算为8440万元,项目编号为施招2025-305。
    2025-07-22 14:01:27
  • 苏州布局AI芯片与高端仪器产业,目标突破500亿、1500亿规模

    苏州通过AI芯片及高端仪器集群发展三年计划。AI芯片计划提出到2027年产业规模突破500亿元,并设定了引进项目、创新产品、应用场...
    2025-07-22 13:28:23
  • 《中国科学院主责国家重点研发计划重点专项管理实施细则》印发

    日前,中国科学院正式印发《中国科学院主责国家重点研发计划重点专项管理实施细则》,旨在规范中国科学院主责国家重点研发计划重点专项管理...
    2025-07-22 11:26:07
  • 浙江科技厅:2025年计划认定首台(套)装备280项

    浙江省科技厅回应政协提案,发布三项核心措施:实施400项重大科技项目,2025年产出超100项成果;改革117家新型研发机构,实行...
    2025-07-22 10:30:52
  • 【会议回顾】分论坛五:分子互作技术论坛

    第十五届中国生命科学公共平台管理与技术发展研讨会主要围绕科研仪器设备开放共享机制、技术开放共享机制和关键技术创新、公共平台智能化管...
    2025-07-22 09:20:36
  • 数千年人类传染病图谱揭示:病毒如何塑造我们的历史与未来

    《自然》杂志上一项突破性研究通过整合考古、遗传和历史数据,首次绘制了跨越数千年的全球人类传染病图谱。
    2025-07-22 08:37:09

版权与免责声明

  • 凡本网注明“来源:Ky开元集团”的所有作品,均为浙江兴旺宝明通网络有限公司-Ky开元集团合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其他方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:Ky开元集团”。违反上述声明者,本网将追究其相关法律责任。
  • 本网转载并注明自其他来源(非Ky开元集团)的作品,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。