①ChatGPT開啟高級語音模式:實時視頻通話、屏幕共享和圖像上傳; ②高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨特的語氣和特征。 ③不僅讓ChatGPT作為AI陪伴工具的體驗感大幅提升,也為更高效強大的AI教育工具作出了示范。
《科創(chuàng)板日報》12月13日訊(編輯 宋子喬) 技術分享日第六天,OpenAI給出了更貼近“本心”的東西——ChatGPT開啟高級語音模式:實時視頻通話、屏幕共享和圖像上傳。
為什么說更貼近“本心”?
OpenAI CEO Altman此前在接受Salesforce專訪時透露,自己最喜歡的AI電影是《她》(《Her》,一個男人愛上他的AI虛擬助手的故事),“對話語言界面的想法具有令人難以置信的預見性?!盩he Information在報道中稱,Altman希望最終開發(fā)出一種類似該電影中的AI助理那樣,能夠快速響應的虛擬助手。
《Her》里的機器人女友代表著具身智能的終極形態(tài),可以與人無障礙交互。
此前,ChatGPT的DAN模式(Do anything now的簡稱)允許AI以更加隨意的方式與用戶對話,其“人味兒”之重已經(jīng)讓人驚艷,不僅可以低延遲交流,還能模仿人類語氣,提供情緒價值。這次,ChatGPT不僅能聽會說,還解鎖了視覺能力,通過攝像頭“睜眼看世界”。
此次分享直播中,CEO Sam Altman并沒有出現(xiàn),而是由包括OpenAI的首席產(chǎn)品官Kevin Weil、OpenAI產(chǎn)品經(jīng)理Jackie Shannon、負責多模態(tài)的OpenAI技術團隊成員Michelle Qin和Rowan Zellers在內(nèi)的四位員工來介紹了更新的功能。
高級語音模式的實時視頻通話功能最為出彩。在OpenAI的團隊成員依次與ChatGPT視頻打過招呼并有了一定的認識后,有人發(fā)問:帶著馴鹿角的同事叫什么?ChatGPT用圣誕老人限定語音給出了準確答案,展現(xiàn)“記憶”能力。
接下來,團隊演示了ChatGPT如何教人操作手沖咖啡設備,只需給ChatGPT打一通“視頻通話”,它能根據(jù)你面前的器具,手把手教你完成每一個步驟。在整個演示過程中,ChatGPT的聲音自然而親切,還調(diào)整了語氣,甚至像人類一樣大笑。
屏幕共享功能則是通過屏幕共享的方式,讓ChatGPT來“看”你的屏幕,也是一種實時視頻理解能力。用戶只需點擊右下角的高級語音模式圖標,在下拉菜單中選擇分享屏幕,就能獲得針對性的幫助。
OpenAI團隊成員與其共享成功后,讓ChatGPT瀏覽了自己的短信并要求指導回復,ChatGPT展現(xiàn)了“高情商”的一面,建議夸贊對方的圣誕裝飾。
據(jù)介紹,高級語音模式支持超過50種語言,9種逼真輸出語音選項,且每種語音都有自己獨特的語氣和特征。而其背后的GPT-4o不僅可以將語音轉換為文本,還可以理解和標記音頻的其他功能,例如呼吸和情感。
支持50多種語言的ChatGPT能夠實時理解現(xiàn)實世界的場景,不僅讓ChatGPT作為AI陪伴工具的體驗感大幅提升,也為更高效強大的AI教育工具作出了示范。
上述功能即日起在ChatGPT移動應用中推出,在接下來的一周內(nèi),這些功能將向所有團隊用戶以及大多數(shù)Plus和Pro用戶開放。