​北京时间9月13日凌晨,OpenAI突然深夜炸场,发布了一款名为o1的新模型

chatgpt下载2024-11-19 07:22:10115
北京时间9月13日凌晨,OpenAI突然深夜炸场,发布了一款名为o1的新模型,这是其计划中一系列“推理”模型中的第一个版本,也是此前业界盛传已久的“草莓”模型

OpenAI CEO萨姆·奥尔特曼(Sam Altman)表示,“这是我们迄今为止最强大、最稳定的模型系列o1,也是我们目前最优秀的推理模型。尽管o1还有缺陷和局限,但其表现依然令人印象深刻。”

OpenAI团队发布了o1模型的官方文档,无问芯穹TechView将对此文进行编译整理,文章来源:https://openai.com/index/learning-to-reason-with-llms/

本次发布的o1模型包括两种版本o1-preview 和 o1-mini。虽然目前还没有浏览网页、上传文件或图片等功能,但其推理能力有了显著提升,主要体现在数据分析、数学和编程方面。OpenAI称,这是它目前为止推理能力最好的模型,o1 在编程竞赛题(Codeforces)中排名第 89 位,在美国数学奥林匹克预选赛(AIME)中跻身全美前 500 名学生行列,在物理、生物和化学问题(GPQA)BenchMark测试中的准确率超过了人类博士水平。

但是,o1模型并没有全方位碾轧其他的大语言模型,它只是理科很强,在文本生成这类文科向的任务上,GPT-4o仍保持优势。

慢推理和思维链

o1主要采用了一种名为「思维链」(Chain of Thought,CoT)的方案,即把一个复杂的问题拆解为若干子问题,以此来提升推理能力。o1模型的性能与训练时的计算量以及测试时的计算量呈显著正相关。

图注:o1 的性能随着训练时间和测试时间的计算而平稳提高

CoT是大模型推理阶段的一个关键概念。对于一些复杂问题(比如数学问题),大模型的准确率很低,如果在模型给出最终回答之前,把中间逐步的推理步骤显式输出,能够增强其推理能力。常见的做法是在基模型的基础上做CoT的增强,比如使用包含CoT的提示词,相当于给了大模型具体的解题思路。

OpenAI的做法是将CoT内置到了基模型中,让o1模型拥有更接近人类的思考过程,而不仅仅是存储和检索信息。然后o1模型会在明确的奖励制度下,不断试错并自我纠正,最终生成更准确、更高质量的结果。

但更好的推理能力是有代价的,更长的推理环节让o1模型的响应速度变慢,一个稍微复杂点的问题就需要花费10多秒来处理。对于那些已经习惯了模型及时响应的用户来说,o1的使用体验可能并不友好。

物理化碾压GPT-4o,IOI金牌水平

大语言模型(如 o1)常基于大量文本数据集上进行预训练。虽然这些大模型具有较多的知识容量,但对于实际应用程序来说,它们可能成本高昂且速度缓慢。

相比之下,o1-mini 是一个较小的模型,针对 STEM 推理(即,将科学(Science)、技术(Technology)、数学(Mathematics)和工(Engineering)推理四个领域的知识和技能结合起来进行分析和推理)在预训练期间进行了优化。使用强化学习 (RL)方法进行训练后,o1-mini 在许多的推理任务上实现了性能提升,同时显著提高了成本收益。

在需要智能和推理的BenchMark测试中进行评估时,与 o1-preview 和 o1 相比,o1-mini 表现良好。不过,o1-mini 在需要非科学、技术、工程和数学知识的任务中表现较差(见局限性)。

为了突出与 GPT-4o 相比在推理方面的改进,Open AI公司在一系列不同的人类考试和人工智能BenchMark上测试了该模型。结果表明,在绝大多数推理繁重的任务中,o1模型都明显优于 GPT-4o

图注:o1 在较难的推理BenchMark上比 GPT-4o 有很大提高。实线表示pass@1(代码生成模型评价指标)的准确率,阴影区域表示 64 个样本的共识性能。

图注:o1 在各种BenchMark(包括 54/57 个 MMLU 子类别)上的性能均优于 GPT-4o。

在许多推理能力较强的BenchMark测试中,o1 的表现可以与人类专家相媲美。 在 2024 年的 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15)的问题。而o1模型则可以达到 13.9 分的成绩,并跻身全国前 500 名,超过了美国数学奥林匹克竞赛的分数线。

在GPQA-diamond 的问题测试中,o1 的表现超过了人类专家,成为第一个在这一BenchMark上做到这一点的模型。这些结果并不意味着 o1 在所有方面都比博士更有能力--只是说明该模型在解决博士有望解决的某些问题时更加熟练。

在其他几项人工智能BenchMark测试中,o1 的表现也超过了最先进的水平。启用视觉感知功能后,o1 在 MMMU 中的得分率达到 78.2%,成为首个能与人类专家竞争的模型。在 57 个 MMLU 子类别中的 54 个类别上,它的表现也优于 GPT-4o。

该模型在 2024 年国际信息学奥林匹克竞赛(IOI)中获得 213 分,排名第 49 位。还模拟了由 Codeforces 主办的编程竞赛,以展示该模型的编码技能。GPT-4o 的 Elo 评分3 为 808,在人类选手中排名第 11 位。Open o1模型远远超过了 GPT-4o ,优于 93% 的竞争对手。

图注:编程竞赛的进一步微调提高了 o1,在 2024 年国际信息学奥林匹克竞赛中排名提高到第 49 位。

除了考试和学术BenchMark外,还评估了人类对 o1-preview 和 GPT-4o 的偏好,即在广泛领域中具有挑战性的开放式提示上。在数据分析、编码和数学等推理能力较强的类别中,o1-preview 比 GPT-4o 更受青睐。

然而,o1-preview 在一些自然语言任务中并不受欢迎,这表明它并不适合所有的使用情况。在经典的9.11和9.9哪个数字大的问题上,o1还是翻了车。

图注:o1-preview 9.11与9.9的新一代受害者?

在那些能从更好的推理中受益的领域,人们更喜欢 o1-preview。o1 极大地推动了人工智能推理领域的最新发展。OpenAI公司计划在不断迭代的过程中推出该模型的改进版本。o1 及其后续产品将为科学、编码、数学和相关领域的人工智能带来许多新的用例。

图注:OpenAI o1模型和其他模型在各个数据集上的表现

推理成本仍然高昂

ChatGPT Plus 和 Team 用户将可以在 ChatGPT 中访问 o1 模型。o1-preview 和 o1-mini 都可以在模型选择器中手动选择,在本次推出时,o1-preview 的每周费率限制为 30 条消息,o1-mini 为 50 条消息。且API仅开放给第五级用户(已经消费了1000美元及以上且付费超过1个月的开发者)。o1-preview的定价明显更高,每百万输入token 15美元,每百万输出token 60美元,分别是GPT-4o的3倍和4倍,不仅限制了条数而且推理成本很高。

网友实测

大模型的阿尔法狗时刻?

o1系列模型的独特之处在于,其在答复问题前会花费更多时间进行「深度思考」,这与人的思考方式相似。经过训练,这些模型能够不断优化自己的思考方式,试验多种解决方案,并主动发现并纠正错误。

网友提供了OpenAI o1 根据prompt对视频游戏进行编码。

遇事不决,量子力学?

有网友尝试用o1解决量子引力问题,居然获得到目前为止最长的回复:整整68秒的思考!




是鸡生蛋还是蛋生鸡?


更有大V saurabh Chalke 使用GPT-o1的强大能力生成了一个全息着色器。




o1模型引领大模型算力需求的二次爆发


OpenAI 最新发布的 o1 系列模型标志着人工智能在复杂推理能力上的重大飞跃。o1 模型通过强化学习训练,能够在回答问题前进行深入的思考,类似于人类的“慢思考”过程。这种模型不仅在数学和编码任务上表现出色,而且在物理、化学和生物学等科学领域的基准测试中超越了人类博士生的水平。o1 模型的推理能力使其在多个行业中具有广泛的应用潜力,尤其是在需要处理复杂科学、数学和编程任务的场景中。


o1的适时亮相,实则是蕴含了OpenAI深远的战略考量。面对GPT-5即将采用的“双轮驱动”模式——即规模扩展(scaling)与思维链(o1)的深度融合,巨大的资源需求成为不可忽视的挑战。据估算需调动高达10万颗B200集群算力,这个算力使用量的资金缺口直指百亿美元大关。o1的推出,无疑为这一宏伟蓝图铺设了坚实的基石,再次引爆大模型算力需求市场。

本文链接:https://zkka.vip/ChatGPT/78.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章

网友评论