OpenAI近日推出了一款名为Operator的智能代理工具,旨在通过自然语言处理技术帮助用户更高效地完成任务。Operator能够理解复杂的指令,并与用户进行多轮对话,提供个性化的建议和解决方案。该工具集成了OpenAI先进的GPT模型,具备强大的语言理解和生成能力,能够处理诸如日程安排、数据分析和信息检索等任务。Operator的推出标志着人工智能在日常工作中的应用进一步深化,为用户提供了更加智能化的助手服务,有望提升工作效率并减少重复性劳动。OpenAI表示,Operator将继续优化,以更好地满足用户需求。
今天我们发布了Operator,这是一个可以代你在网络上执行任务的代理。它使用自己的浏览器,可以查看网页并通过打字、点击和滚动与之交互。目前这是一个研究预览版,意味着它有一些限制,并将根据用户反馈不断发展。Operator是我们首批代理之一,这些AI能够独立为你完成工作——你给它一个任务,它就会执行。
Operator可以处理各种重复性浏览器任务,如填写表格、订购杂货,甚至创建迷因。能够使用人类每天交互的相同界面和工具,扩大了AI的实用性,帮助人们节省日常任务的时间,同时为企业开辟了新的互动机会。
为确保安全和迭代推出,我们从小规模开始。从今天起,Operator将在operator.ChatGPT.com提供给美国的Pro用户。这个研究预览版让我们能够从用户和更广泛的生态系统中学习,并不断完善和改进。我们的计划是扩展到Plus、Team和Enterprise用户,并在未来将这些功能整合到ChatGPT中。
Operator由一个名为计算机使用代理(Computer-Using Agent,CUA)的新模型驱动。通过结合GPT-4o的视觉功能和通过强化学习的高级推理能力,CUA经过训练可以与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。
Operator可以通过截图"看"并使用鼠标和键盘允许的所有操作与浏览器"交互",使其能够在网络上采取行动,而无需定制API集成。
如果遇到挑战或犯错,Operator可以利用其推理能力进行自我纠正。当它陷入困境需要帮助时,会将控制权交还给用户,确保流畅的协作体验。
尽管CUA仍处于早期阶段并存在局限性,但它在WebArena和WebVoyager两个关键浏览器使用基准测试中创造了新的最先进的基准结果。
使用方法 开始时,只需描述你想完成的任务,Operator即可处理其余工作。用户可以随时接管远程浏览器的控制权,且Operator经过训练,会主动要求用户接管需要登录、支付详情或解决验证码的任务。
用户可以通过添加自定义指令来个性化Operator的工作流,可以针对所有网站或特定网站,如在Booking.com上设置航空公司偏好。Operator允许用户在主页保存提示以快速访问,非常适合重复任务,如在Instacart上补充杂货。类似于使用多个浏览器标签,用户可以通过创建新对话让Operator同时运行多个任务,比如在Etsy上订购个性化珐琅杯的同时在Hipcamp上预订露营地。
网友评论