OpenAI 正式推出首个 AI 代理「Operator」,能自主操控浏览器执行各种任务,包括预订旅行、订购外卖、填写表单等,并支援多任务处理与个性化设置。Operator 目前限美国专业版用户使用。 (前情提要:ChatGPT o3-mini 即将发布!OpenAI 产品长加码:Q1 上线 AI Agents 工具 ) (背景补充:OpenAI、软银、甲骨文启动史上最大 AI 基建计划「Stargate Project」:投资 5000 亿美元在美设资料中心 ) AI 代理(agent)是今年 AI 产业和加密领域都十分重视的赛道。自去年 10 月底 Anthropic 的「Computer Use」:一个能像人类一样操作电脑介面的 AI 系统问世后,AI 代理的发展又展开更广泛的想像。 而在今日,生成式人工智慧(AI)龙头 OpenAI 也正式推出自己的首个 AI 代理「Operator」,成为 AI 社群的重磅话题。 Operator 功能与使用范围 据了解,Operator 是一个可以自主控制浏览器,为用户执行各种任务的 AI 代理。用户只需描述想要完成的任务,Operator 就可以处理剩下的工作,像是上 Booking.com 预订旅行和餐厅、上 UBER 订购杂货和外卖、表单填写、帮你搜集购物清单、创建迷因…可以同时处理多项任务(就像我们在浏览器开多个分页)。 此外,它还能记住用户的偏好和设定,提供更个性化的服务;用户也能随时介入操作,调整操作或终止任务。 除了功能的便利性外,Operator 同样重视用户的隐私安全。官方称用户可以删除所有浏览记录,并一键登出所有网站。同时,OpenAI 提供了隐私设定选项,用户可以选择关闭「改善模型」功能,避免其数据被用于模型训练。 Operator 目前是研究预览版,仅对美国地区的专业版用户开放(订阅费用为每月 200 美元),用户可以透过该网址 Operator.ChatGPT.com 访问。未来将扩展至 Plus、Teams 和 Enterprise 用户。 I got early access to ChatGPT Operator. It's OpenAI's new AI agent that autonomously takes action across the web on your behalf. The 9 most impressive use cases I’ve tried (videos sped up): 1. Ordering dinner ingredients based on a picture and a recipe pic.twitter.com/tdbApPELD4 — Rowan Cheung (@rowancheung) January 23, 2025 运作原理 Operator 基于名为「Computer-Using Agent (CUA)」的新模型运作。CUA 将 GPT-4o 的视觉处理能力与强化学习带来的高级推理结合起来,专门训练来与图形用户界面 (GUI) 互动,例如萤幕上的按钮、菜单和文字栏位。 透过截图,Operator 可以「看见」界面内容,并通过使用滑鼠和键盘的操作来「互动」,从而实现无需 API 整合的网页操作。 当遇到挑战或出错时,Operator 会运用推理能力进行自我修正;如果无法解决问题,则会将控制权交还给用户,确保操作流畅并能与用户协同完成任务。 OpenAI 表示,已经与一些合作伙伴建立合作,包括 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等,以确保 Operator 在遵守既定规范的同时满足实际需求。 Operator 限制 不过,据创业家 Greg Isenberg 分享,Operator 也有一些限制。例如它无法处理付款或登录相关的任务、可能会在复杂界面中卡住、对 CAPTCHAs(验证码)无能为力,且每天的使用次数有限。此外,欧洲地区的推出时间尚未确定,根据 OpenAI CEO Sam Altman 的说法,还「需要一段时间」。 展望未来,Operator 将开放 API,为开发者提供支持,同时持续增强功能并扩大用户覆盖范围,未来将把该功能直接整合进 ChatGPT。 相关报导 OpenAI 最强模型 o3「遭爆作弊」疑用特权提前获测试答案,数学能力造假? 想控制ChatGPT?马斯克致信总检查长,要求强制拍卖OpenAI股份 OpenAI推出o3模型!推理能力再推高等级,为下一代AI铺路 〈OpenAI首款AI代理「Operator」来了!能帮你购物、订票、叫外送…解决繁琐网路任务〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。
OpenAI首款AI代理「Operator」来了!能帮你购物、订票、叫外送…解决繁琐网路任务
OpenAI 正式推出首个 AI 代理「Operator」,能自主操控浏览器执行各种任务,包括预订旅行、订购外卖、填写表单等,并支援多任务处理与个性化设置。Operator 目前限美国专业版用户使用。 (前情提要:ChatGPT o3-mini 即将发布!OpenAI 产品长加码:Q1 上线 AI Agents 工具 ) (背景补充:OpenAI、软银、甲骨文启动史上最大 AI 基建计划「Stargate Project」:投资 5000 亿美元在美设资料中心 ) AI 代理(agent)是今年 AI 产业和加密领域都十分重视的赛道。自去年 10 月底 Anthropic 的「Computer Use」:一个能像人类一样操作电脑介面的 AI 系统问世后,AI 代理的发展又展开更广泛的想像。 而在今日,生成式人工智慧(AI)龙头 OpenAI 也正式推出自己的首个 AI 代理「Operator」,成为 AI 社群的重磅话题。 Operator 功能与使用范围 据了解,Operator 是一个可以自主控制浏览器,为用户执行各种任务的 AI 代理。用户只需描述想要完成的任务,Operator 就可以处理剩下的工作,像是上 Booking.com 预订旅行和餐厅、上 UBER 订购杂货和外卖、表单填写、帮你搜集购物清单、创建迷因…可以同时处理多项任务(就像我们在浏览器开多个分页)。 此外,它还能记住用户的偏好和设定,提供更个性化的服务;用户也能随时介入操作,调整操作或终止任务。 除了功能的便利性外,Operator 同样重视用户的隐私安全。官方称用户可以删除所有浏览记录,并一键登出所有网站。同时,OpenAI 提供了隐私设定选项,用户可以选择关闭「改善模型」功能,避免其数据被用于模型训练。 Operator 目前是研究预览版,仅对美国地区的专业版用户开放(订阅费用为每月 200 美元),用户可以透过该网址 Operator.ChatGPT.com 访问。未来将扩展至 Plus、Teams 和 Enterprise 用户。 I got early access to ChatGPT Operator. It's OpenAI's new AI agent that autonomously takes action across the web on your behalf. The 9 most impressive use cases I’ve tried (videos sped up): 1. Ordering dinner ingredients based on a picture and a recipe pic.twitter.com/tdbApPELD4 — Rowan Cheung (@rowancheung) January 23, 2025 运作原理 Operator 基于名为「Computer-Using Agent (CUA)」的新模型运作。CUA 将 GPT-4o 的视觉处理能力与强化学习带来的高级推理结合起来,专门训练来与图形用户界面 (GUI) 互动,例如萤幕上的按钮、菜单和文字栏位。 透过截图,Operator 可以「看见」界面内容,并通过使用滑鼠和键盘的操作来「互动」,从而实现无需 API 整合的网页操作。 当遇到挑战或出错时,Operator 会运用推理能力进行自我修正;如果无法解决问题,则会将控制权交还给用户,确保操作流畅并能与用户协同完成任务。 OpenAI 表示,已经与一些合作伙伴建立合作,包括 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等,以确保 Operator 在遵守既定规范的同时满足实际需求。 Operator 限制 不过,据创业家 Greg Isenberg 分享,Operator 也有一些限制。例如它无法处理付款或登录相关的任务、可能会在复杂界面中卡住、对 CAPTCHAs(验证码)无能为力,且每天的使用次数有限。此外,欧洲地区的推出时间尚未确定,根据 OpenAI CEO Sam Altman 的说法,还「需要一段时间」。 展望未来,Operator 将开放 API,为开发者提供支持,同时持续增强功能并扩大用户覆盖范围,未来将把该功能直接整合进 ChatGPT。 相关报导 OpenAI 最强模型 o3「遭爆作弊」疑用特权提前获测试答案,数学能力造假? 想控制ChatGPT?马斯克致信总检查长,要求强制拍卖OpenAI股份 OpenAI推出o3模型!推理能力再推高等级,为下一代AI铺路 〈OpenAI首款AI代理「Operator」来了!能帮你购物、订票、叫外送…解决繁琐网路任务〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。