OpenAI近期宣布,其下一代AI模型O4或O5将接管AI研发,标志着人工通用智能(AGI)的发展已接近临界点。这些新模型预计将具备更强的通用性和适应性,能够在更广泛的任务中表现出与人类相当的智能水平。OpenAI的研究表明,AGI的突破可能在不久的将来实现,这将彻底改变科技、经济和社会结构。这一进展也引发了关于AI伦理、安全性和监管的广泛讨论。OpenAI强调,将继续致力于确保AI技术的安全性和可控性,以应对潜在的挑战和风险。
OpenAI的研究人员近期频繁暗示,其最新模型o1的真正价值远超出公众预期,传奇黑客Gwern更是提出了一个震撼性的预测:我们已经达到了“递归自我改进”的临界点,未来的o4或o5模型将能够接管AI研发的剩余工作。
o1的隐藏使命:数据工厂
o1的主要任务并非直接部署,而是为后续模型生成高质量的训练数据,每当o1解决一个问题,其生成的解决方案将成为o3模型的训练数据,通过这种方式,o1不仅能够提供正确答案,还能生成干净的对话记录,用于训练更精确的AI直觉。
这一策略也解释了为何Anthropic没有发布Claude-3.6-opus,该模型并未失败,而是被保留为内部工具,用于蒸馏出体积更小但性能卓越的Claude-3.6-sonnet,Gwern对OpenAI发布o1-pro感到意外,认为这些计算资源本可用于o3的自举训练。
OpenAI员工的乐观情绪
OpenAI的员工在社交媒体上表现出异常的乐观情绪,Gwern认为,这种情绪源于他们亲眼目睹了从4o模型到o3模型的惊人进步,这种进步类似于AlphaGo的等级分曲线:不断上升,再上升,持续上升。
OpenAI似乎已经突破了某个关键瓶颈,进入了真正的“起飞期”,从仅仅领先竞争对手几年的尖端AI研究,到如今跨越了最后的门槛,OpenAI的技术进步正在加速。
o3的惊人表现
最新发布的o3模型展现出了令人瞩目的性能:
Codeforces:获得2727分,成为全球排名第175位的竞赛程序员。
FrontierMath:得分25%,而这些问题的难度通常需要专业数学家花费数小时才能解决。
GPQA:得分88%,其中70%的得分已经代表了博士级的科学知识水平。
ARC-AGI:得分88%,远高于普通人在此类高难度视觉推理问题上的平均分75%。
o3-mini在许多编程任务上以更低的成本超越了o1的表现,进一步证明了其高效性。
AGI的必然性?
OpenAI的CEO Sam Altman在2024年11月曾表示:“我们正在做的工作会不断积累,过去三年的进步速度将在未来三年或六年或九年内持续。”一周前,他更是直言:“我们现在确信知道如何构建传统意义上的AGI……我们开始将目标转向超越这一点,瞄准真正意义上的超级智能。”
Gwern认为,这意味着OpenAI已经掌握了“递归自我改进”的关键,未来的o4或o5将能够自动化AI研发,并完成剩余的工作,对于其他公司而言,Gwern的观点是:“让DeepSeek追逐他们的尾灯吧,一旦超级智能研究能够自给自足,他们就再也得不到竞争所需的大型计算资源了。”
这是否真的可能?
从最初的4o模型到如今的o3,进步的速度令人震惊,就像观看AlphaGo的等级分曲线:不断上升,再上升,继续上升,Gwern指出,如果简单的搜索就能奏效,国际象棋早在上世纪60年代就该被解决了,想要让一群猴子在打字机上敲出《哈姆雷特》几乎是不可能的,但通过AI的递归自我改进,OpenAI已经证明o3-mini在许多任务上能以更低的成本超越o1的表现。
这一趋势很可能将持续下去,外部可能永远看不到中间模型的存在,就像围棋选手从未见过AlphaZero训练过程中的随机检查点一样,Metaculus和Manifold Market的AGI预测时间都提前了一年,虽然这些平台可能已经将推理计算扩展的影响纳入考虑,但AGI的到来似乎正在加速。
威胁模型的改变
过去,人们担心AGI一旦出现就能廉价部署数亿个副本,但现实可能并非如此,运行一次o3的高性能任务就要花费3000美元!这意味着,即使是国家级别的窃取者,也很难筹集足够的资金和基础设施来运行它,拥有最多芯片和算力的国家将轻松胜出。
思维链监督:福是祸?
如果模型的思考过程更多地体现在人类可理解的思维链中,而不是内部激活,这对AI安全来说是个好消息,通过人类监督和可扩展的监督机制,我们能更好地控制AI系统,Meta最近的Coconut技术让人担忧——它能让模型在不使用语言的情况下进行连续推理,虽然这可能提供性能优势,但正如Marius Hobbhahn所言:“为了边际性能提升而牺牲可理解的思维链,这是在搬起石头砸自己的脚。”
强化学习的隐忧
OpenAI公开承认使用强化学习来改进o系列模型的思维链输出,这带来了一些担忧:
- 通过强化学习优化思维链比优化基础模型更便宜。
- 长链思维链的强化学习反馈可能提供更高质量的信号。
- OpenAI可能使用某种“元级控制器”来在不同的“思维树”分支间进行导航。
强化学习的过度优化是许多AI安全威胁模型的起源,包括“激励权力寻求”,尽管基于过程的监督看起来比基于结果的监督更安全,但最新研究表明这种组合反而可能降低模型推理的可解释性。
新的安全挑战
如果第一批AGI(例如o5)采用推理计算范式,它们的参数量可能比传统同等性能的模型(如GPT-6)要小得多,这意味着:
1、小模型更容易被窃取。
2、但由于运行成本高昂,被盗模型的威胁大大降低。
3、模型特征可能更密集地嵌入在较小的网络中,增加了解释性的难度。
4、芯片专业化带来新的出口管制挑战。
AI研发的最后一程,或许,已经开始了。
网友评论