Meet OpenAI o3-mini

chatgpt下载2025-02-07 14:28:14106

2025年1月31，受到DeepSeek-R1的压力，OpenAI 也发布了最新的o3系列模型，不同于原来o1隐藏thinking过程，o3也展示其thinking过程，但是其system card并没有展示更多训练相关信息，更多是关于安全测试相关的内容，整体有用的内容不多。建议以后推理模型还是用r1-like，而不是o1-like。

https://openai.com/index/openai-o3-mini/
https://cdn.openai.com/o3-mini-system-card.pdf

TL;DR

🤖 发布OpenAI o3-mini，推理系列中最新、最具成本效益的模型
📝 在数学、代码、科学方面效果对齐了 o1，同时保持了 OpenAI o1-mini 的低成本和低延迟。
📦 代码能力超过了 o1 和 R1，但依然不支持视觉，无法取代Claude的代码地位
🧠 响应速度加快，平均7.7秒
⚙️ 三个Reasoning effort（推理速度）选项，低中高
🌊 支持 Function calling，Structured Outputs，Developer messages
🗂️ Streaming， Batch API support， Assistants API support
API 价格与 o1 mini 相同，输入1.1美金，输出4.4美金，是o1的15分之一，是 R1 的4倍。

Fast, powerful, and optimized for STEM reasoning

与OpenAI o1 类似，OpenAI o3-mini 已针对 STEM 推理进行了优化。具有medium reasoning effort的 O3-mini 与 O1 在数学、编码和科学方面的表现相当，同时提供更快的响应。

专家测试人员的评估表明，o3-mini 比 OpenAI o1-mini 产生更准确、更清晰的答案，具有更强的推理能力。

测试人员在 56% 的时间内更喜欢 o3-mini 对 o1-mini 的回答，并观察到在困难的现实问题上的主要错误减少了 39%。通过medium reasoning effort，o3-mini 在一些最具挑战性的推理和智能评估（包括 AIME 和 GPQA）上与 o1 的性能相匹配。

Model speed and performance

OpenAI o3-mini 具有与 OpenAI o1 相当的智能，可提供更快的性能和更高的效率。除了上面强调的 STEM 评估之外，o3-mini 在具有中等推理努力的额外数学和事实性评估中表现出卓越的结果。在 A/B 测试中，o3-mini 的响应速度比 o1-mini 快 24%，平均响应时间为 7.7 秒，而平均响应时间为 10.16 秒。

OpenAI o3-mini System Card

1 Introduction

OpenAI o 模型系列经过大规模强化学习训练，使用思维链进行推理。

这些先进的推理能力为提高我们模型的安全性和稳健性提供了新途径。特别是，我们的模型可以在响应潜在不安全提示时通过审慎协调推理出我们的安全政策。

这使得 OpenAI o3-mini 在某些基准上的表现与最先进的水平相当，这些基准包括生成非法建议、选择刻板反应和屈服于已知越狱等风险。在回答之前训练模型融入思维链可能会带来巨大的好处，同时也会增加因智力增强而产生的潜在风险。

由于编码和研究工程性能的提高，OpenAI o3-mini 是第一个在模型自主性方面达到中等风险的模型（参见第 5 节准备框架评估）。然而，它在旨在测试与自我改进相关的现实世界 ML 研究能力的评估中仍然表现不佳，而自我改进是获得高分类所必需的。

我们的结果强调了建立强大的对齐方法、广泛地对其有效性进行压力测试以及维护细致的风险管理协议的必要性。

2 Model data and training

OpenAI 推理模型经过强化学习训练，可以执行复杂的推理。

这个系列中的模型在回答之前会思考——它们可以在响应用户之前产生一长串的思维。通过训练，模型学会改进他们的思维过程，尝试不同的策略，并认识到自己的错误。推理使这些模型能够遵循我们设定的特定指南和模型政策，帮助它们按照我们的安全期望行事。这意味着他们更善于提供有用的答案，抵制绕过安全规则的企图，避免产生不安全或不适当的内容。

OpenAI o3-mini 是该系列中的最新模型。与 OpenAI o1-mini 类似，它是一种更快的模型，在编码方面特别有效。

我们还计划允许用户使用 o3-mini 搜索互联网并在 ChatGPT 中总结结果。我们预计 o3-mini 是一个有用且安全的模型，尤其是考虑到它在越狱和指令层次结构评估中的表现。

OpenAI o3-mini 已在各种数据集上进行了预训练，包括公开可用的数据和内部开发的自定义数据集，这些数据集共同增强了模型的强大推理和对话能力。我们的数据处理流程包括严格的过滤，以保持数据质量并降低潜在风险。我们使用高级数据过滤流程来减少训练数据中的个人信息。我们还结合使用审核 API 和安全分类器来防止使用有害或敏感内容，包括露骨的材料，例如涉及未成年人的性内容。

本文链接：https://zkka.vip/ChatGPT/847.html