OpenAI最新推出的代理AI工具「Operator」,標誌著人工智慧在日常網路使用中的又一次重大進步。這款工具基於「電腦使用代理(Computer-Using Agent,CUA)」全新模型開發,充分運用GPT-4o的強大視覺辨識能力和先進的強化學習推理功能。這使得Operator能夠像人類一樣靈活自如地與螢幕上的圖形介面互動,包括按鈕、選單和文字欄位等,從而在沒有任何額外API支援的情況下執行各種數位任務。
Operator的設計目的是為了簡化許多重複性的重要工作,比如填寫網頁表單、訂外送服務或購買票券等。使用者僅需提供明確的指令,Operator便能有效地自動化這些常見的網路行為。舉例來說,當使用者希望在StubHub網站上購買NBA球票,或是在Booking上查詢機票時,Operator將會全權處理這些網頁操作。此外,在進行一些需要使用者確認或介入的任務時,例如結帳、登入帳號或處理CAPTCHA驗證,Operator會智能地將控制權回傳給使用者,以確保安全性和準確性。
目前,Operator僅在美國提供給ChatGPT Pro訂閱用戶使用,未來將計劃逐步擴展到其他地區和更多用戶。OpenAI還與多家知名平台合作,包括DoorDash、Instacart、OpenTable、Priceline與Uber等,以確保Operator可以在多樣的服務中發揮功能,滿足更廣泛的使用需求。
CUA模型的核心技術在於其多步驟的任務計劃能力,以及在遇到挑戰時的自我修正能力,這使得Operator能應對各種複雜的任務。儘管CUA目前仍處於測試階段,且功能還有待進一步完善,其在各類數位環境中的表現已達到新高度。
根據最新的性能測試結果,在完整的電腦使用任務中,CUA在「OSWorld」平台的成功率達到38.1%,在WebArena中則提高至58.1%,而在WebVoyager測試中成功率進一步攀升至87%。這些結果展示了CUA能夠輕鬆駕馭螢幕、滑鼠和鍵盤等基本介面,以執行多樣化的網頁任務,展現出驚人的適應能力和效率。
隨著科技的不斷演進,OpenAI的Operator無疑為未來的數位任務自動化鋪平了道路,無論在個人使用還是商業應用方面,都將為使用者帶來前所未有的便利與效率。