OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型

chatgpt下载2024-11-17 23:16:24130
OpenAI迫切需要给大众亮一亮手腕。

现在的苹果发布会确实还像春晚,发布会全是吐槽。而当初的盛况,已经被英伟达和OpenAI取代。

凌晨,AI界的春晚上演,OpenAI发布了一款名为GPT-4o的新旗舰生成式人工智能模型,并计划在未来几周内逐步在其各种产品中推出。

发布会全程只持续了26分钟,Open AI CEO奥特曼没有现身,由公司CTO和两位工程师来发布,规格和反响上与之前相比稍显黯淡。

从命名看,GPT-4o暂时还达不到5的程度,而考虑到各家大模型都在拼命秀,作为行业引领者的OpenAI迫切需要给大众亮一亮手腕。

基本结论是,GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉功能方面显著提升。

主要功能

GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思。能够从模型和网页获取响应,分析数据并创建图表,讨论拍摄的照片,获取摘要、写作或分析帮助,发现并使用 GPT 和 GPT 商店,通过“记忆”构建更有帮助的体验。

发布会重点演示的内容包含:

·图像理解与讨论:GPT-4o 在理解和讨论用户分享的图像方面表现优于任何现有模型。例如,用户可以拍摄不同语言的菜单,与 GPT-4o 对话以翻译、了解食物的历史和重要性,以及获取推荐。

通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。

·语音模式:支持更自然的实时语音对话和通过实时视频与 ChatGPT 对话的能力。比如,用户可以在观看现场体育赛事时,请求 ChatGPT 解释规则。

识别语气。发布会现场,演示嘉宾表示有点紧张,大模型会安抚,建议对方深呼吸。当演示嘉宾故意做出非常夸张且急促的呼吸声时,大模型可以纠正其呼吸方式,并指导如何缓慢地呼气和吸气。

中途打断。用户可以打断ChatGPT的回答。比如,演示嘉宾要求大模型讲一个睡前故事,大模型讲述故事的时候,演示嘉宾中途打断要求更有感情,大模型很快切换到了非常有戏剧性的声音。

根据外表判断情绪。演示嘉宾拿着手机摄像头对着自己的脸和大模型对话,大模型很快通过识别视频中的人物表情给出了自己的判断。

辅导交互。发布会现场,嘉宾在纸上写了一个简单的方程式,要求语音助手通过摄像头指导解数学题,大模型一步步提醒并讲解了解题思路。这个功能意味着大模型的教育场景落地效果可能会持续提升。

性能

·响应时间:GPT-4o 的音频输入响应时间极快,最低可达232毫秒,平均为320毫秒,与人类在对话中的响应时间相似。

·成本:相比去年11月发布的GPT-4-turbo,在API中,GPT-4o 的速度是 GPT-4 Turbo 的两倍,成本降低了50%,且处理速率限制提高了5倍。

·语言支持:支持超过 50 种语言的注册、登录、用户设置等。

·综合交互:GPT-4o 是第一个将文本、音频和图像输入整合的模型,可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。

与之前版本相比,GPT-4o 通过单一模型端到端训练,处理所有输入和输出。这避免了信息丢失,使模型能直接处理语调、多个说话者或背景噪音等,并能输出笑声、唱歌或表达情感。

GPT-4o 在 LMSys 竞技场上测试了一个版本即 im-also-a-good-gpt2-chatbot。测试结果遥遥领先。

·安全性:与70多位外部专家合作进行红队测试,涵盖社会心理学、偏见与公正、误信息等领域,以识别新增模态带来的风险,并据此建立安全干预措施。

产品规划

·用户层次:目前正向 ChatGPT Plus 和团队用户推出 GPT-4o,企业用户即将可用。同时也开始向 ChatGPT Free 用户推出,但有使用限制。Plus 用户的消息权限是 Free 用户的 5 倍,团队和企业用户则有更高的权限。

不过OpenAI还表示,公司的目标是使先进的 AI 工具能够为尽可能多的人提供服务。在未来几周,将开始向 ChatGPT Free 用户推出更多智能和高级工具。

·语音交互功能:计划在未来几周内以 alpha 版本推出新的语音模式,并向 Plus 用户提供早期访问。

·API接口:文本和图像功能已开始在 ChatGPT 中推出。开发者可以通过API访问作为文本和视觉模型的 GPT-4o。

语音和视频功能还有限制。Open AI以滥用风险为由,表示计划在未来几周内首先向“一小群值得信赖的合作伙伴”推出对GPT-4o新音频功能的支持。

·外部合作:OpenAI将为 macOS 推出新的 ChatGPT 桌面应用程序。该应用程序旨在无缝集成到电脑进行的任何操作中。通过键盘快捷键(Option + Space),就可以立即向 ChatGPT 提问。还可以直接在应用程序中截图并进行讨论,直接从电脑与 ChatGPT 进行语音和视频对话。

·失望之处:OpenAI没有带来新的AI搜索产品。之前有消息称,Open AI将发布AI搜索的功能,有媒体拿到了ChatGPT Search的提前体验版本——界面仍然是对话交互,但ChatGPT在回答时会使用网络信息进行回答。

不过,ChatGPT已经可以提供一些时效性强的信息,比如当天的股票或者天气。ChatGPT还可以回答网址,可以跳转链接,也可以提供最新的数据。

山姆·奥特曼评价道:新的语音(及视频)模式是前所未有的计算机界面体验,给人一种如同电影中AI的感觉,这种体验是真实而令人惊讶的。达到接近人类水平的响应速度和表达能力,带来了重大的改变。与计算机的交互从未感觉如此自然。

本文链接:https://zkka.vip/ChatGPT/46.html

GPT-4oGPT4ogpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o免费GPT-4o官网GPT4o官网

相关文章

网友评论