①通過AI代理Operator,使用者可以直接命令A(yù)I“上網(wǎng)”執(zhí)行預(yù)訂餐廳、購(gòu)買雜貨、訂票等一系列操作; ②整個(gè)過程,AI的操作與人類的行為邏輯完全一致; ③這項(xiàng)功能將首先向美國(guó)的ChatGPT Pro用戶開放,未來會(huì)拓展到更多的群體。
財(cái)聯(lián)社1月24日訊(編輯 史正丞)美國(guó)初創(chuàng)公司OpenAI周四突然舉行直播活動(dòng),發(fā)布市場(chǎng)期待已久的首款A(yù)I代理工具Operator(意為操作員),能夠代理用戶執(zhí)行基于網(wǎng)頁的操作。
言簡(jiǎn)意賅的解釋,就是Operator能夠像人類一樣使用網(wǎng)頁瀏覽器。
與“問一句、答一句”的聊天機(jī)器人不同,AI代理能夠在人類有限監(jiān)督的情況下按照設(shè)定完成任務(wù),也被普遍視為AI生產(chǎn)力的下一個(gè)里程碑。在OpenAI通往通用人工智能(AGI)的五個(gè)步驟中,AI代理是繼聊天機(jī)器人、推理機(jī)器人之后的第三步,也是全新的一步。
山姆·奧爾特曼介紹稱,從周四開始,美國(guó)的ChatGPT Pro用戶(一個(gè)月交200美元)將能使用“研究預(yù)覽版”的Operator。未來將拓展到更多區(qū)域的Pro用戶,幾個(gè)月后ChatGPT Plus用戶也能用上。同時(shí)在未來幾周、幾個(gè)月里,還會(huì)發(fā)布更多的AI代理。
什么是Operator?
Operator由一個(gè)名為CUA(計(jì)算機(jī)使用代理)的新模型驅(qū)動(dòng),結(jié)合了GPT-4o的視覺能力,以及通過強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的高級(jí)推理。Operator能夠“看見”網(wǎng)頁(截圖),并使用鼠標(biāo)和鍵盤允許的所有操作與網(wǎng)頁進(jìn)行互動(dòng)。在操作中如果碰到困難,模型會(huì)調(diào)用推理能力進(jìn)行自我糾正,若依然無法解決問題則會(huì)把控制權(quán)交還給人類。
要理解這種新事物,還得靠新鮮生動(dòng)的案例。
Operator的界面與聊天機(jī)器人ChatGPT類似,最大的區(qū)別是調(diào)用“AI代理”完成用戶吩咐的事情。
在演示案例中,Operator被要求預(yù)訂某家飯店。用戶只需要在對(duì)話框中輸入“給我訂一個(gè)XX飯店今晚19點(diǎn)的桌子”,然后AI代理就會(huì)自己打開網(wǎng)頁,進(jìn)入預(yù)訂網(wǎng)站,搜索餐廳并完成預(yù)訂。
如果用戶所需的時(shí)段已經(jīng)被訂完,AI會(huì)詢問“19點(diǎn)的桌子訂完了,19點(diǎn)45分的桌子還有,要不要訂?”
在另一個(gè)案例中,用戶上傳了一張寫有“雞蛋、菠菜、蘑菇”等雜貨的購(gòu)物清單,要求Operator去買菜網(wǎng)站上進(jìn)行操作。隨后AI就會(huì)打開瀏覽器,順著清單逐一搜索并加入購(gòu)物車。
完成任務(wù)后,Operator會(huì)告訴用戶總共需要多少錢,以及騎手送達(dá)的時(shí)間,然后將瀏覽器的控制權(quán)交還給人類。
OpenAI也提醒使用者,雖然Operator已經(jīng)是市面上最強(qiáng)的AI代理,但與人類相比依然差得很遠(yuǎn)。例如在使用瀏覽器的基準(zhǔn)測(cè)試中,OpenAI CUA模型能拿到58.1%的評(píng)分,但人類的水平可以達(dá)到78%。所以這項(xiàng)新技術(shù)仍有可能犯錯(cuò),但會(huì)在未來數(shù)月里持續(xù)改進(jìn)。