谷歌狙擊OpenAI 集中火力猛攻AI智能體

原創(chuàng)

2024-12-12 10:33 星期四

科創(chuàng)板日?qǐng)?bào) 宋子喬

①Gemini 2.0將是支撐谷歌智能體開(kāi)發(fā)的最新一代模型；
②第一時(shí)間上線的是比Gemini 1.5 Pro更強(qiáng)的Gemini 2.0 Flash實(shí)驗(yàn)版。

《科創(chuàng)板日?qǐng)?bào)》12月12日訊（編輯宋子喬） 12月12日，在OpenAI宣布ChatGPT全面接入蘋(píng)果之際，谷歌發(fā)布新一代大模型Gemini 2.0，值得注意的是，Gemini 2.0專為AI智能體（AI Agent）而生。

谷歌首席執(zhí)行官Sundar Pichai在公開(kāi)信中稱，“在過(guò)去一年中，我們一直在投資開(kāi)發(fā)更具“代理性”的模型，即這些模型能更深入地理解你周圍的世界，提前多步思考，并在你的監(jiān)督下為你執(zhí)行任務(wù)。今天，我們很高興迎來(lái)新一代的模型——Gemini 2.0，它是我們迄今為止最強(qiáng)大的模型。通過(guò)多模態(tài)的新進(jìn)展——如原生圖像和音頻輸出——以及原生工具使用，我們能夠構(gòu)建新的AI智能體，使我們更接近普遍AI助手的愿景。”

谷歌DeepMind CEO Demis Hassabis也表示，2025年將是AI智能體的時(shí)代，Gemini 2.0將是支撐我們基于智能體工作的最新一代模型。

目前Gemini 2.0版本尚未正式上線，谷歌表示已經(jīng)將其提供給了一些開(kāi)發(fā)者內(nèi)測(cè)。第一時(shí)間上線的是比Gemini 1.5 Pro更強(qiáng)的Gemini 2.0 Flash實(shí)驗(yàn)版，實(shí)驗(yàn)版已在網(wǎng)頁(yè)端開(kāi)放，Gemini用戶可以通過(guò)PC端訪問(wèn)Gemini 2.0 Flash，移動(dòng)端即將推出。

根據(jù)谷歌發(fā)布的基準(zhǔn)測(cè)試結(jié)果，不論是在多模態(tài)的圖片、視頻能力上，還是編碼、數(shù)學(xué)等能力上，僅是Flash實(shí)驗(yàn)版的Gemini 2.0表現(xiàn)幾乎全面超越Gemini 1.5 Pro，且響應(yīng)速度提升了2倍。

谷歌集中火力猛攻AI智能體

通過(guò)谷歌的本次更新，我們已經(jīng)可以窺見(jiàn)其AI布局的冰川一角——一切為了智能體。

1、更強(qiáng)大的多模態(tài)能力：

Gemini 2.0 Flash實(shí)驗(yàn)版除了支持圖像、視頻和音頻等多模態(tài)輸入，還支持多模態(tài)輸出，比如原生生成的圖像與文本結(jié)合，以及可操控的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音（TTS）音頻。

2、更專業(yè)的AI搜索：

谷歌在Gemini Advanced中推出了一項(xiàng)名為深度研究（Deep Research）的智能體新功能。該功能結(jié)合了谷歌的搜索專長(zhǎng)和Gemini的高級(jí)推理能力，可以圍繞一個(gè)復(fù)雜主題生成研究報(bào)告，相當(dāng)于一個(gè)私人研究助手。

3、多款智能體更新、上線：

更新了基于Gemini 2.0構(gòu)建的智能體Project Astra ：Astra的新功能包括支持多語(yǔ)言混合對(duì)話；能夠在Gemini應(yīng)用中直接調(diào)用Google Lens和地圖功能；記憶能力提升，具備最多10分鐘的會(huì)話內(nèi)記憶，對(duì)話更連貫；借助新的流式處理技術(shù)和原生音頻理解能力，該智能體能夠以近于人類對(duì)話的延遲來(lái)理解語(yǔ)言。值得注意的是，Astra是谷歌為眼鏡項(xiàng)目所做的前瞻項(xiàng)目。谷歌提到，正在將Project Astra移植到眼鏡等更多移動(dòng)終端中。

發(fā)布適用于瀏覽器的智能體Project Mariner（海員項(xiàng)目）：該智能體能夠理解并推理瀏覽器屏幕上的信息，包括像素和網(wǎng)頁(yè)元素（如文本、代碼和圖片），然后通過(guò)Chrome擴(kuò)展程序來(lái)利用這些信息幫你完成任務(wù)。

發(fā)布專為開(kāi)發(fā)者打造的AI編程智能體Jules：Jules支持直接集成到GitHub工作流中，用戶使用自然語(yǔ)言描述問(wèn)題，就能直接生成可以合并到GitHub項(xiàng)目中的代碼；

發(fā)布游戲智能體：能夠?qū)崟r(shí)解讀屏幕畫(huà)面，通過(guò)用戶游戲屏幕上的動(dòng)作給出下一步操作建議，或直接在你打游戲的時(shí)候通過(guò)和你語(yǔ)音交流。

谷歌表示，明年年初，會(huì)將Gemini 2.0擴(kuò)展到更多旗下產(chǎn)品中。此前推出的AI Overviews將集成 Gemini 2.0，從而提升復(fù)雜問(wèn)題處理能力，包括高級(jí)數(shù)學(xué)公式、多模態(tài)查詢和編程。本周已經(jīng)進(jìn)行有限測(cè)試，預(yù)計(jì)明年推廣，并擴(kuò)展至更多國(guó)家和語(yǔ)言。

閱86.24W

我要評(píng)論

反饋意見(jiàn)