澳洲OpenAI“草莓”来了,AI推理能力大幅升级,IMO奥数准确率达83%(图)

在澳大利亚澳洲新闻




OpenAI首个具有推理能力的AI大语言模型正在加速开发。

前两天有消息称,代号“草莓”的推理函数模型预计将在两周内发布。当地时间9月12日星期四,该模型宣布以“OpenAI o1”(英文字母O+阿拉伯数字1的正式名称)发布。

不过,作为o1系列模型的首个版本,OpenAI仅推出了o1-preview预览版和o1-mini迷你版,并且需要付费用户和免费版本分阶段进行。它是由用户和开发者发起的,开发者使用它的费用相当昂贵。

OpenAI“草莓”来了,AI推理能力大幅升级,IMO奥数准确率83%(图)—— 1OpenAI正式公布社交媒体发布o1模型

OpenAI“草莓”来了,AI推理能力大幅升级,奥数IMO准确率83%(组图)—— 2使用o1模型的成本至少是GPT-4o的3倍。初始消息发送数量有限,采用新方法进行训练

据介绍,o1新模型可以通过新的训练方法回答更复杂的编程、数学和科学问题在它后面。它在给出答案之前会“思考”,并且比人类更快。更小、更便宜的迷你版本专注于编程用例。

ChatGPT Plus 和 Team 付费用户将可以立即访问这两个模型,从用户界面中的 AI 模型选择器的下拉菜单中手动选择。这两种模式将于下周向 ChatGPT Enterprise 和 Edu 用户开放,并且所有免费用户将在未来未知的时间开放 o1-mini 的访问权限。 OpenAI希望未来能够根据提示自动选择正确的模型。

OpenAI“草莓”来了,AI推理能力大幅升级,奥数IMO准确率83%(图)—— 3目前,您只能在下拉菜单中手动选择型号,并没有取代GPT系列型号

但是,开发者接入o1的成本非常高。在 API(应用程序编程接口)中,o1-preview 每 100 万个输入代币收费 15 美元,是 GPT-4o 成本的三倍;每 100 万个输出代币收费 60 美元,是 GPT-4o 成本的四倍。 100 万个 token 是模型解析的文本块的大小,相当于大约 750,000 个单词。

OpenAI 研究负责人 Jerry Tworek 向媒体表示,o1 背后的训练方法与之前的模型有根本不同。

首先,o1“使用新的优化算法和专门为其定制的新训练数据集进行训练”。该数据集包含“推理数据”和专门为其量身定制的新训练数据集。科学文献。

其次,之前的GPT模型训练方式是模仿数据集的规则/范式,而o1则采用“强化学习”的方式,通过奖励和惩罚的方式教会模型自己解决问题,然后通过“思维链”来处理用户的查询,并提供思维链的摘要版本,类似于人类一步步处理问题的方式。

OpenAI“草莓”来了,AI推理能力大幅升级,IMO奥数准确率83%(图)—— 4您可以点击上右图中的思路链,看看o1模型是如何“思考”的

OpenAI“草莓”来了,AI推理能力大幅升级,IMO奥林匹克准确率达83%(图) - 5显示复杂数学问题的思路链

OpenAI认为,这种新的训练方法会让o1模型更加准确,减少编答案的“幻觉”问题,但并不能完全杜绝“幻觉”的发生幻觉”。新模型与GPT-4o的主要区别在于,它可以更好地解决编程和数学等复杂问题,同时还改进其推理过程,尝试不同的策略,并识别和纠正自己答案中的错误。

OpenAI“草莓”来了,AI推理能力大幅升级,奥数IMO准确率达83%(图) - 6优点:对于复杂推理任务来说是一个重大改进。你思考的时间越长,质量和安全性就越高。改进,展现思维步骤

在优势方面,OpenAI表示,o1模型是针对复杂推理任务的重大改进,代表了人工智能能力的新水平,该模型“会思考” “时间越长,推理任务的表现就越好,因为 O1 可以花更多的时间考虑复杂问题的各个部分,从而有效地进行事实检查。

具体来说,o1模型的推理能力得到了大幅提升,在物理、化学等学科的Challenge基准测试中表现相当于博士生(即专家人才)和生物学。此外,它的数学和编程能力也是超乎寻常的。在国际数学奥林匹克(IMO)资格考试中,准确率高达83%。 GPT-4o的准确率仅为13%。在Codeforces在线编程竞赛中,得分高达89%。排名,即只有11%的人类顶尖选手比O1模型更好。

OpenAI“草莓”来了,AI推理能力大幅升级,奥数IMO准确率83%(图) - 7OpenAI“草莓”来了,AI推理能力大幅升级,奥数IMO准确率83%(图) - 8

同时,o1模型提高了安全性,比以前的模型更好地遵守安全准则,并且更能抵抗有害内容的创建。在一项用户试图绕过安全规则的“越狱测试”中,GPT-4o 在最严格的标准下只得到了 22 分(满分 100 分),而 o1 预览版的得分高达 84 分(满分 100 分)。促进对超出现有资源已经可能实现的风险的评估。”

该公司表示,这些增强功能适用于“正在解决科学、编程、数学和类似领域的复杂问题”的人们。推理能力可能特别有用。 o1模型擅长准确生成和调试复杂代码。迷你版是更快的推理模型,比预览版便宜 80%。它在编程方面特别高效,适合需要推理但不需要广泛的世界知识的应用:

“例如,医学研究人员可以使用 o1 来注释细胞测序数据,物理学家可以使用 o1 来生成量子光学所需的复杂数学公式,各个领域的开发人员都可以使用 o1 构建和执行多个 Step-by-step 工作流程。”

测试该模型的汤森路透副总裁 Pablo Arredondo 也表示发现 o1 模型在分析法律摘要和解决 LSAT(法学院入学考试)逻辑问题方面比 OpenAI 更好:“我们发现它可以处理更多实质性和多方面的分析,而且我们的自动化测试也更好。显示出其处理一系列简单任务的能力有所提高。”

此外,如果你点击“显示创意链”,你可以发现,当“思考”,添加“嗯……”、“我很好奇”、“我在想”、“好吧”,让我看看”等口语表达来推进思考过程。

公司高管表示,OpenAI并不认为人工智能模型思维等同于人类思维。这种更加人性化的表达是为了展示模型如何花更多的时间处理问题,全面深入地理解问题。解决问题。

OpenAI“草莓”来了,AI推理能力大幅升级,IMO奥数准确率83%(图)—— 9可以看到思想链里充满了一些人类口语表达

OpenAI“草莓”来了,AI推理能力大幅升级,奥数IMO正确率83%(图)- 10缺点:无法浏览实时网页,无法上传文件和图片,缺乏广泛的世界知识,或者容易产生幻觉

但作为o1模型的初始版本,今天发布的o1-预览版也有明显的缺点。例如,它只是“纯文本版本”,暂时无法浏览网页信息以及上传文件和图片。

也就是说,它没有ChatGPT的很多功能。在许多常见用例中,它不如 GPT-4o 强大,并且存在使用限制。 o1预览版每周限制30条消息,迷你版每周限制30条消息。每周限制为 50 条。

提到的其他局限性包括:o1 模型在许多领域不如 GPT-4o,并且在关于世界的事实知识方面表现不佳;在某些用例中推理能力较慢,可能需要更长的时间来回答问题;目前,o1 是纯文本模型,缺乏推理特定文档或从网络收集实时信息的能力。

此外,让AI模型玩井字游戏一直被认为是一个问题。即使存在这个边界问题,具有推理能力的新O1模型在这场比赛中仍然会犯错误,即无法完全攻克技术难关。

OpenAI 在一份技术论文中也承认,它收到了一些“轶事反馈”,即 o1 预览版和迷你版比 GPT-4o 及其迷你版更容易产生“幻觉”,并且它的AI还在非常自信地编出答案,o1很少承认自己不知道某个问题的答案。

知名科技媒体Techcrunch指出,OpenAI在一篇与o1模型相关的博文中指出,它决定不向用户展示这一新模型最初的“思维链”,而是选择在答案中给出思考。链条的总结总结是为了保持“竞争优势”并弥补可能存在的缺陷。 “我们努力教会模型重现答案中思想链中任何有用的想法。”

OpenAI 也承认,训练 AI 模型推理能力的竞争压力很大:

< p>“OpenAI 可能先推出了 o1。但假设竞争对手很快也会效仿并推出类似型号,那么该公司真正的考验将是让o1得到广泛使用。

OpenAI未来将持续推出o1模型的更新版本,目标是在o1模型上进行几小时、几天甚至几周的推理时间实验,进一步提升其推理能力。 。

除了模型更新之外,我们还希望为o1模型添加网页浏览、文件和图片上传功能,使其对大家更加有用。除了o1系列之外我们还计划继续。开发并发布GPT系列中的模型。

在o1正式发布之前,有媒体表示最早可能在本周向有限数量的用户开放。而OpenAI并不是唯一的致力于开发具有推理能力的AI模型的公司Anthropic和Google也声称他们的先进人工智能模型具有“推理”能力:

“o1模型的发布与OpenAI的发布恰逢其时。它寻求筹集数十亿美元(估值高达 1500 亿美元),并在开发日益复杂的人工智能系统方面面临更激烈的竞争。”



澳洲中文论坛热点
悉尼部份城铁将封闭一年,华人区受影响!只能乘巴士(组图)
据《逐日电讯报》报导,从明年年中开始,因为从Bankstown和Sydenham的城铁将因Metro South West革新名目而
联邦政客们具有多少房产?
据本月早些时分报导,绿党副首领、参议员Mehreen Faruqi已获准在Port Macquarie联系其房产并建造三栋投资联

中文新闻,澳洲经济,时事,华人论坛动态,悉尼本地消息,墨尔本,珀斯,布里斯班,澳洲新闻,澳大利亚华人网,澳洲华人论坛