点击⬇️图标关注 抓住你的灵感💡瞬间
一早,AI圈又“躁动”起来了!OpenAI这次“憋”出的“大招”,可不是闹着玩的——Deep Research深度研究功能,正式C位出道!这名字,听起来就高级感满满有没有?更高级的是,Deep Research背后的男人——传说中的o3模型,也终于揭开神秘面纱!千呼万唤始出来,这次o3的首秀到底成色如何?Deep Research又强在哪里?别眨眼,好戏这就开场!
Agentic AI 再下一城: Deep Research 让 ChatGPT 不再只是聊天机器人
OpenAI 这次祭出 Deep Research,绝非偶然,而是其 Agentic AI (代理式 AI) 战略的又一关键落子。 Agentic AI 是什么? 简单理解,就是 让 AI 更主动、更智能、更像人。 以前的 ChatGPT,说白了,还是个高级聊天机器人,你问一句答一句,缺乏自主性和思考深度。 但 Deep Research 的出现,彻底颠覆了这一刻板印象—— ChatGPT 不再只是被动接招,而是化身主动出击的研究特工! 它能主动上网搜集信息,能像专家一样分析研判,甚至能像人一样思考推理,最终输出一份专业级的研究报告! 这 Agentic 能力,简直爆表有没有? 用 OpenAI 研究负责人 Mark Chen 的话来说,Deep Research 就是 “我们的下一代智能体产品”!
当然,从去年12月开始市面上包括deepseek、谷歌、斯坦福也都推出了类似能力。所以这无疑是最重要的方向。
OpenAI CEO 奥特曼甚至激动地表示,Deep Research 就像 “拥有一种超能力,可以随时调用专家”! Web Browsing,绝对是 Deep Research 的点睛之笔,也是 ChatGPT 走向 Agentic AI 的关键一步!
值得一提的是,ChatGPT 并非一直不具备联网能力。 早在 GPT 系列模型时代,ChatGPT 就已经能够联网搜索信息。
但在 O 系列推理模型(如 o1、o3)中,联网功能却被暂时移除。这可能是 OpenAI 的技术战略权衡:为强化深度推理能力,避免联网引入的噪声干扰,同时降低技术实现难度和安全风险。通过分阶段迭代,OpenAI 先专注于推理核心,再逐步完善联网功能。如今,Deep Research 带回联网能力,标志着 O 系列模型的进一步成熟,也预示着 OpenAI 在 Agentic AI 领域的探索正在提速。
无论出于何种考量, Deep Research 重新带回联网能力, 都 是O系列模型走向成熟和完善的重要 一步, 也标志着, OpenAI 在 Agentic AI领域的探索和布局, 正在加速推进。
优化版 o3 加持: 可以浏览网页和执行 Python 代码的 o3,硬核实力不容小觑
Deep Research 的超能力,离不开其背后的硬核技术支撑—— 优化版 o3 模型加持! 据 OpenAI 研究员透露,Deep Research 是基于 “即将推出的 o3 模型” 的 “优化版本” 打造而成。 这优化版本的 o3,可不简单,除了浏览网页能力,它还能执行 Python 代码能力,这赋予了 Deep Research 更强大的数据分析和可视化能力。
端到端强化学习神助攻: Deep Research 炼成记,秘诀在于 Scale + RL
Deep Research 的强大 Agentic 能力,除了强大的模型加持,更离不开先进的训练方法—— 端到端强化学习 (End-to-End Reinforcement Learning)! 据 OpenAI 研究员介绍,Deep Research 通过端到端强化学习,在海量的复杂浏览和推理任务上进行训练。 在这魔鬼训练中,Deep Research 学会了如何规划和执行多步骤研究路径,如何根据实时信息做出反应和调整,甚至学会了必要时回溯和修正错误。 这听起来很玄乎,但简单来说,就是 OpenAI 像训练人类专家一样,训练 Deep Research,让它在实战中不断学习和进步! OpenAI 研究科学家 Hyung Won Chung 甚至用 “超人类耐心” 来形容 Deep Research 的强大毅力—— “Deep Research 的一个显著特点就是它极强的耐心。 我认为它已经接近了超人类耐心。 在这个项目的过程中,我意识到智力和耐心是非常契合的。” 这高度评价,也侧面印证了强化学习在 Agentic AI 训练中的关键作用—— “当 Scale (规模化) 遇上 RL (强化学习) 时,魔力就会产生!”
专家级研究报告一键生成: Deep Research 用例曝光,打工人狂喜!
Deep Research 到底能干什么? 发布会上,OpenAI 秀了一波王炸用例,简直让打工人狂喜——
帮 PM 完成深度市场调查报告: OpenAI 研究者亲自演示,只需输入一句 Prompt,Deep Research 就能分分钟搞定一份专业的市场调查报告,内容涵盖 iOS 和 Android 市场占有率、用户外语学习意愿、移动网络普及率变化趋势、发达和发展中国家差异等多维度信息,还贴心奉上格式精美的表格和图表! 据 OpenAI 研究员透露,以前需要 3 个小时才能完成的市场调研报告,Deep Research 只需 10 分钟就能高质量搞定!
为滑雪爱好者私人定制滑雪板购买攻略: 想在日本滑雪度假,但没带滑雪板? 没关系,告诉 Deep Research 你的滑雪需求 (例如 高级滑雪者、偏爱粉雪、需要亮骚配色 等个性化需求), Deep Research 立刻变身专业买手,全网搜索最适合你的滑雪装备,还贴心附赠详细的参数对比表格,让你闭眼入都不踩坑! Deep Research 甚至精准推荐了发布会演示人员自己拥有的同款滑雪板,这精准度,简直绝了!
投资分析师福音: 7 分钟搞定民用超音速航空旅行市场投资备忘录: 硅谷风投公司投资分析师亲测,只需一句 Prompt,Deep Research 7 分钟就能生成一份详尽的民用超音速航空旅行市场投资备忘录,内容涵盖市场分析、竞争格局、投资建议 等专业分析内容,简直是投资分析师解放生产力的神器! 据测算,Deep Research 完成这份专业投资备忘录,节省了大约 4 个小时的人工调研时间!
生物学专家点赞: Deep Research 快速检索同主题生物科研论文,专业度获认可: OpenAI 研究人员亲自演示,上传一篇生物学论文,让 Deep Research 检索同主题论文。 最终 Deep Research 给出的检索结果,得到了专业生物学专家的高度认可,认为检索结果非常靠谱,专业度值得信赖! 据测算,Deep Research 完成生物科研论文检索任务,节省了大约 5 个小时的人工检索时间!
看到这些前沿用例,你心动了吗? 反正我是已经迫不及待想上手体验一把 Deep Research 的丝滑操作了! 打工人们,颤抖吧! Deep Research 的降临,意味着,以后摸鱼划水的日子,可能真的要一去不复返了!(手动 狗头 again.jpg)
人类最后考试屠榜:o3 模型首秀即巅峰,26.6% 准确率惊艳四座!
想知道 o3 模型到底有多强?数据会告诉你答案!发布会上曝光的那张神秘榜单——“Humanity's Last Exam(人类最后考试)”,已经足够震撼人心!这份榜单可不是随随便便的“野鸡榜”,而是由“Center for AI Safety(AI 安全中心)”和“Scale AI(知名 AI 数据平台)”联合发布的权威 AI 基准测试。测试题目涵盖语言学、火箭科学、古典文学、生态学等 100 多个专业学科,题型包括多项选择题和简答题,总计超过 3000 道,难度堪称“地狱级”。
在这场“地狱级考试”中,Deep Research(o3)竟然狂揽 26.6% 的准确率,一举刷新榜单记录,强势登顶榜首!更令人震惊的是,OpenAI CEO 奥特曼透露,就在几天前,该榜单的最高分还由 o3-mini-high 模型保持,得分仅为 13%。短短几天时间,Deep Research(o3)就将榜单记录提升了近一倍! 这一提升幅度堪称离谱,也充分证明了 o3 模型在 AI 领域的碾压级实力。
尤其值得一提的是,Deep Research(o3)在化学、人文社会科学和数学等领域的表现尤为突出。这或许暗示着,o3 模型在逻辑推理和知识整合方面取得了质的飞跃。OpenAI 首席科学家 Ilya Sutskever 曾预言,未来的 AGI 将能够自主进行科学研究,而 Deep Research(o3)在人类最后考试中的表现,似乎正在印证这一预言。可以说,AGI 的时代,可能比我们想象的更近了!
GAIA 测试再屠榜:o3 模型多模态能力全面爆发,解决现实难题更进一步
除了在人类最后考试中屠榜,Deep Research(o3)在另一个权威 AI 基准测试——“GAIA 测试”中同样表现抢眼,再次强势登顶,实现双榜屠榜的壮举。那么,这个 GAIA 测试又是什么来头?
据悉,GAIA 测试是一个专门评估 AI 解决现实世界问题能力的公开基准测试,测试内容涵盖推理能力、多模态能力、网页浏览、代码执行、文件处理等多个核心领域,难度同样不容小觑。而 Deep Research(o3)能够在 GAIA 测试中再次夺冠,则进一步证明了它不仅“理论知识扎实”,在“实战能力”上同样强悍,尤其在解决现实世界难题方面更是更进一步。
值得关注的是,GAIA 测试侧重考察 AI 的多模态能力,而 Deep Research(o3)在这一测试中的优异表现,也暗示着 o3 模型的多模态能力可能已经迎来全面爆发。未来,这项能力或将在更广泛的应用场景中大放异彩!
专家级评测:Deep Research 节省数小时工作时间,经济价值潜力无限
为了更全面评估 Deep Research 的“实战能力”,OpenAI 还进行了专家级内部评测,邀请各领域专家利用 Deep Research 完成日常工作中耗时数小时的复杂任务,并对其完成效果进行主观评测。
结果显示,Deep Research 能够高质量完成专家需要数小时才能完成的复杂任务,且任务完成质量达到了专家的满意标准。 更令人欣喜的是,OpenAI 对 Deep Research 在不同经济价值范围内的任务通过率进行了分析,结果表明:Deep Research 的通过率与任务的经济价值高度相关,而与任务所需时间的相关性较低。 这意味着,Deep Research 更擅长解决那些“高经济价值”但不一定“耗时最长”的任务,从而展现出在提升知识工作效率和创造经济价值方面的巨大潜力。
此外,OpenAI 特别强调了 Deep Research 在幻觉评估方面的优异表现。虽然目前仍无法完全杜绝幻觉问题,但 Deep Research 在降低幻觉发生率方面的进步,依然值得肯定。
Deep Research 的局限性:早期阶段仍需不断完善
当然,我们也必须清醒地认识到,Deep Research 目前仍处于早期阶段,并非完美无缺。OpenAI 官方坦言,Deep Research 仍存在一些局限性,例如可能产生虚构事实、做出错误推断,以及难以区分权威信息与谣言等问题。这些问题虽然尚未完全解决,但 OpenAI 表示会持续优化模型性能,降低类似问题的发生概率。
AI Agent 时代加速到来:从 DeepSeek 到 Deep Research,未来值得期待!
现在你可能明白了,推理模型才刚刚崭露头角。OpenAI 这次发布 Deep Research验证了推理模型还有强大能力可以挖掘!期待国内模型能早点到达O3水平。
而这些需要注意的是,目前 Deep Research 的功能仅向 Pro 用户开放,Plus 用户仍需等待。后续可能还有按需付费版本。可能还得等一等。
另外,o3 mini的小彩蛋还得等一等。
所以,你会再次体会到DeepSeek的意义所在。它把人类最前沿的科研成果,免费提供给了中国用户,要知道OpenAI是不对中国地区开放的,即使你有钱,在现有的网络条件下也无法使用。
这也是为何 DeepSeek 能迅速出圈的原因之一。麻烦那些吐槽DeepSeek的记得把对话框左下角的“深度思考”和“联网搜索”两个小按钮打开。
对于国内用户来说,这无疑是一个“幸福的烦恼”。
最近经常有用户后台咨询deepseek总报服务器繁忙,请稍后再试,如何解决?AILin师傅也给你们找到解决的方法,可以直接用上深度推理。
🎁 满血版DeepSeek免费送20000000tokens ✨ 硅基流动重磅福利华为云昇腾提供算力支持 📢 限时福利,立即领取: 👉 https://cloud.siliconflow.cn/i/66LaXdb1
这些前沿产品就像是吹响了AI Agent时代的冲锋号!Deep Research展现出的强大Agentic能力,预示着,AI正在加速进化,从工具走向助手,甚至走向伙伴!未来的知识工作,必将被AI深刻改变。
点赞转发分享,好运加倍 🧧
点击关注和转发公众号 保持你对AI优质内容的敏感
网友评论