Operator の概要作員概述

2025年1月24日 05:48 2025年1月24日 05：48

以下の記事が面白かったので、簡単にまとめました。下面的文章很有趣，所以我簡要地總結了一下。

・Introducing Operator
・作員介紹

1. Operator 1.作員

「Operator」は、Webにアクセスしてユーザーに代わってタスクを実行できるエージェントです。独自のブラウザを使用して、Webページを参照し、入力、クリック、スクロールすることで操作できます。現在は研究プレビューであるため制限があり、ユーザーからのフィードバックに基づいて進化します。
“作員”是可以代表使用者訪問 Web 並執行任務的代理。您可以使用自己的瀏覽器瀏覽網頁，並通過鍵入、按兩下和滾動來與它們進行互動。 它目前處於研究預覽階段，因此它是有限的，並將根據用戶反饋進行改進。

「Operator」は、フォームへの記入、食料品の注文、ミームの作成など、さまざまな反復的なブラウザタスクを処理するよう要求できます。人間が日常的に使用するのと同じインターフェイスとツールを使用できることで、AIの有用性が広がり、人々が日常のタスクに費やす時間を節約できると同時に、企業にとって新たなエンゲージメントの機会が生まれます。
“作員”可以請求處理各種重複的瀏覽器任務，例如填寫表格、訂購雜貨、創建 meme 等。使用人類日常使用的相同介面和工具的能力擴展了 AI 的實用性，為人們節省了日常任務的時間，同時也為企業創造了新的參與機會。

安全かつ段階的な展開を確実にするために、小規模から開始します。本日から、「Operator」は米国のProユーザー向けに、operator.chatgpt.comで利用できます。将来的には、Plus、Team、Enterpriseユーザーにも拡大し、これらの機能を「ChatGPT」に統合する予定です。
從小處著手，以確保安全和分階段部署。從今天開始，Operator operator.chatgpt.com 可供美國的 Pro 使用者使用。未來，我們計劃擴展到 Plus、Team 和 Enterprise 使用者，並將這些功能集成到“ChatGPT”中。

2. Operator のしくみ 2. Operators 的工作原理

「Operator」は、「Computer-Using Agent (CUA)」と呼ばれる新しいモデルを搭載しています。「GPT-4o」の視覚機能と強化学習による高度な推論を組み合わせることで、「CUA」は画面に表示されるボタン、メニュー、テキストフィールドなどのGUIを操作するように学習されます。
“作員”由一個名為“計算機使用代理（CUA）”的新模型提供支援。通過將 GPT-4o 的視覺功能與通過強化學習的高級推理相結合，CUA 被訓練為與螢幕上出現的按鈕、功能表和文本欄位等 GUI 進行交互。

「Operator」は、ブラウザを「表示」(スクリーンショットを通じて) し、「対話」(マウスとキーボードで可能なすべてのアクションを使用) できるため、カスタムAPI統合を必要とせずにWeb上でアクションを実行できます。
作員可以在瀏覽器中「查看」（通過螢幕截圖）和「交互」（使用滑鼠和鍵盤執行所有可能的作），從而允許他們在Web上執行作，而無需自定義 API 集成。

問題に遭遇したり間違いを犯したりした場合、「Operator」は推論機能を活用して自己修正することができます。行き詰まり、支援が必要になった場合は、ユーザーに制御を戻すだけで、スムーズで協力的な体験が保証されます。
如果您遇到問題或犯了錯誤，“作員”可以利用推理功能進行自我糾正。如果您遇到困難並需要説明，只需將控制權交還給使用者即可，確保流暢的協作體驗。

「CUA」はまだ初期段階にあり、制限もありますが、2つの主要なブラウザ使用ベンチマークである「WebArena」と「WebVoyager」で、SOTAを達成しました。「Operator」の背後にある evals と研究の詳細については、研究ブログを参照してください。
“CUA” 仍處於起步階段，存在局限性，但我們已經通過兩個主要的瀏覽器使用基準“WebArena”和“WebVoyager”實現了 SOTA。要瞭解有關「Operators」背後的評估和研究的更多資訊，請查看我們的研究博客。

3. 使い方 3. 如何使用

「Operator」を開始するには、実行したいタスクを説明するだけです。ユーザーはいつでもリモートブラウザの制御を引き継ぐことができます。また、「Operator」は、ログイン、支払いの詳細、CAPTCHAの解決が必要なタスクについては、ユーザーに引き継ぎを積極的に依頼するように学習されています。
要啟動 Operator，只需描述要執行的任務即可。用戶可以隨時接管遠端瀏覽器的控制權。作員還接受過培訓，可以主動要求使用者接管需要登錄、付款詳細資訊和 CAPTCHA 解析的任務。

ユーザーは、Booking.com で航空会社の好みを設定するなど、すべてのサイトまたは特定のサイトに対してカスタム指示を追加することで、「Operator」でワークフローをパーソナライズできます。「Operator」を使用すると、ユーザーはプロンプトを保存してホームページにすばやくアクセスできます。これは、「Instacart」で食料品を補充するなどの繰り返しのタスクに最適です。ブラウザで複数のタブを使用するのと同様に、ユーザーは新しい会話を作成して、「Operator」で複数のタスクを同時に実行できます。たとえば、「Hipcamp」でキャンプ場を予約しながら、「Etsy」でパーソナライズされたエナメルマグを注文するなどです。
用戶可以通過為所有網站或特定網站添加自定義說明（例如在 Booking.com 中設置航空公司首選項）來個人化 Operator 中的工作流程。 “Operator” 允許使用者保存提示並快速存取主頁。這非常適合重複性任務，例如使用“Instacart”補充雜貨。與在瀏覽器中使用多個選項卡類似，用戶可以在 Operator 中創建新對話並同時執行多個任務。例如，您可以在“Hipcamp”上預訂露營地，同時在“Etsy”上訂購個性化的琺瑯杯。

4. エコシステムとユーザー 4. 生態系統和使用者

「Operator」はAIを受動的なツールからデジタルエコシステムの能動的な参加者へと変革します。これにより、ユーザーのタスクが効率化され、革新的な顧客体験を求め、より高いコンバージョン率を望む企業にエージェントのメリットがもたらされます。「DoorDash」「Instacart」「OpenTable」「Priceline」「StubHub」「Thumbtack」「Uber」などの企業と連携して、「Operator」が確立された規範を尊重しながら現実世界のニーズに対応できるようにしています。これらの連携に加えて、特に公共部門のアプリケーションにおいて、特定のワークフローのアクセシビリティと効率性を向上させる可能性が大いにあると考えています。これらのユースケースをさらに検討するために、ストックトン市などの組織と協力しています⁠。
運營商將 AI 從被動工具轉變為數位生態系統的積極參與者。這簡化了用戶的任務，並使希望獲得創新客戶體驗並希望獲得更高轉化率的企業的代理受益。我們與 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack 和 Uber 等公司合作，以確保我們的營運商能夠在遵守既定規範的同時響應現實世界的需求。除了這些集成之外，我們還看到了提高某些工作流程的可訪問性和效率的巨大潛力，尤其是在公共部門應用程式中。為了進一步探索這些使用案例，我們正在與斯托克頓市等組織合作。

5. 安全性とプライバシー 5. 安全和隱私

「Operator」の安全性を確保することは最優先事項であり、不正使用を防止し、ユーザーが確実に制御できるように3層の安全対策が施されています。
確保「作員」的安全是重中之重，並採取了三層安全措施來防止濫用並確保用戶處於控制之中。

まず、「Operator」は、それを使用する人が常に制御し、重要なポイントで入力を求めるように学習されます。
首先，“作員”被學習到由使用它的人不斷控制，並在關鍵點要求輸入。

・テイクオーバーモード  ・接管模式
「Operator」は、ログイン認証情報や支払い情報などの機密情報をブラウザに入力するときに、ユーザーにテイクオーバーを要求します。テイクオーバーモードでは、「Operator」はユーザーが入力した情報を収集したり、スクリーンショットを撮ったりしません。
“Operator” 提示使用者在瀏覽器中輸入敏感資訊（例如登錄憑證或付款資訊）時接管。在接管模式下，“作員”不會收集使用者輸入的任何資訊或截取屏幕截圖。

・ユーザーの確認  ・使用者的確認
注文の送信やメールの送信など、重要なアクションを完了する前に、「Operator」は承認を求める必要があります。
在完成重要作（例如提交訂單或發送電子郵件）之前，“作員”必須尋求批准。

・タスクの制限  - 任務限制
「Operator」は、銀行取引や、就職活動の決定など、重大な決定を必要とする特定の機密タスクを拒否するように学習されています。
“作員”經過培訓，可以拒絕某些需要關鍵決策的敏感任務，例如銀行交易或求職決策。

・監視モード  ・監控模式
電子メールや金融サービスなどの特に機密性の高いサイトでは、「Operator」は動作を厳密に監視し、ユーザーが潜在的な間違いを直接検出できるようにします。
對於特別敏感的網站，例如電子郵件和金融服務，“作員”會密切監控行為，並允許使用者直接檢測潛在的錯誤。

次に、「Operator」でのデータプライバシーの管理が容易になりました。
其次，在 Operators 中管理數據隱私變得更加容易。

・学習のオプトアウト・退出宣告學習
ChatGPT 設定で「全員のためにモデルを改善する」をオフにすると、Operator のデータもモデルのトレーニングに使用されなくなります。
如果你在 ChatGPT 設置中關閉了 “Improve models for everyone”（為每個人改進模型），Operator 的數據也不會用於訓練模型。

・透過的なデータ管理 - 透明的數據管理
ユーザーは、「Operator」設定のプライバシーセクションでワンクリックですべての閲覧データを削除し、すべてのサイトからログアウトできます。Operator での過去の会話もワンクリックで削除できます。
使用者只需在「運營商」設置的隱私部分按一下，即可刪除所有瀏覽數據並註銷所有網站。您還可以透過按兩下刪除 Operator 上過去的對話。

最後に、隠しプロンプト、悪意のあるコード、フィッシングの試みなどを通じて「Operator」を誤解させようとする敵対的な Web サイトに対する防御を構築しました。
最後，我們建立了防禦措施，抵禦試圖通過隱藏提示、惡意代碼、網路釣魚嘗試等誤導“作員”的惡意網站。

・慎重なナビゲーション - 謹慎導航
「Operator」はプロンプト注入を検出して無視するように設計されています。
“Operator” 旨在檢測和忽略提示注入。

・監視
専用の「モニターモデル」が疑わしい動作を監視し、何かおかしいと思われる場合はタスクを一時停止できます。
專用的「monitor model」監控可疑行為，如果您認為有問題，可以暫停任務。

・検出パイプライン・檢測管道
自動化されたプロセスと人間によるレビュープロセスにより、新しい脅威が継続的に特定され、保護手段が迅速に更新されます。
自動化和人工審核流程會持續識別新威脅，並確保快速更新保護措施。

悪意のある人物がこの技術を悪用しようとする可能性があることは承知しています。そのため、「Operator」は有害なリクエストを拒否し、許可されていないコンテンツをブロックするように設計しました。OpenAIのモデレーションシステムは、繰り返し違反があった場合に警告を発したり、アクセスを取り消したりすることができ、悪用を検出して対処するための追加のレビュープロセスを統合しています。また、使用ポリシーに準拠して「Operator」とやり取りする方法についてのガイダンスも提供しています。
我們知道不良行為者可能會嘗試利用這項技術。這就是為什麼「Operator」被設計為拒絕有害請求並阻止未經授權的內容。如果反覆違規，OpenAI 的審核系統可以提醒您或撤銷訪問許可權，並且它集成了額外的審查流程來檢測和解決濫用問題。它還提供了有關如何根據使用策略與“Operator”交互的指導。

「Operator」はこれらの安全対策を講じて設計されていますが、完璧なシステムなど存在せず、これはまだ研究プレビュー段階です。OpenAIは、実際のフィードバックと厳格なテストを通じて、継続的な改善に取り組んでいます。詳しくは研究ブログを参照してください。
Operator 在設計時就考慮到了這些保護措施，但沒有一個系統是完美的，它仍處於研究預覽階段。 OpenAI 致力於通過真實世界的反饋和嚴格的測試來持續改進。有關更多資訊，請參閱研究博客。

6. 制限事項

「Operator」は現在、初期研究プレビュー段階にあり、すでに幅広いタスクを処理できるようになっていますが、まだ学習と進化の過程にあり、間違いを犯す可能性もあります。たとえば、スライドショーの作成やカレンダーの管理などの複雑なインターフェースでは、現在課題に直面しています。早期のユーザーフィードバックは、精度、信頼性、安全性の向上に重要な役割を果たし、「Operator」を誰にとってもより優れたものにするのに役立ちます。
《作員》目前處於早期研究預覽階段，已經能夠處理廣泛的任務，但它仍處於學習和進化的過程中，可能會犯錯誤。例如，創建幻燈片和管理日曆等複雜介面目前面臨挑戰。早期用戶反饋在提高準確性、可靠性和安全性方面發揮著重要作用，有助於使“作員”更好地為每個人服務。

7. 今後の予定 7. 未來計劃

7-1. API の CUA 7-1. API CUA

「Operator」を動かすモデル「CUA」をAPI で近日中に公開し、開発者がそれを使用して独自の「Computer-Using Agents」を構築できるようにする予定です。
我們很快將發佈一個模型「CUA」，該模型為 API 中的“ Operators” 提供支援，開發人員將能夠使用它來構建自己的「Computer-Using Agents」。

7-2. 強化された機能 7-2. 增強功能

より長く複雑なワークフローを処理できるように、「Operator」の機能を継続的に改善していきます。
我們將繼續改進「Operator」的功能，使其能夠處理更長、更複雜的工作流程。

7-3. より広いアクセス 7-3. 更廣泛的訪問

「Operator」のより広いアクセスを計画しています。Plus、Team、Enterprise ユーザー向けに提供し、大規模環境での安全性と使いやすさに自信が持てるようになったら、将来的には ChatGPT にその機能を直接統合し、シームレスなリアルタイムおよび非同期タスク実行を実現します。
我們正在計劃為「Operators」提供更廣泛的訪問許可權。一旦您確信它通過提供給 Plus、Team 和 Enterprise 用戶來安全且易於大規模使用，您將來需要將其功能直接集成到 ChatGPT 中，以實現無縫即時和異步任務執行。