達(dá)觀數(shù)據(jù)創(chuàng)始人陳運(yùn)文:訓(xùn)練數(shù)據(jù)是未來的核心競爭力|AI領(lǐng)先者心聲2024
原創(chuàng)
2024-01-05 13:37 星期五
科創(chuàng)板日報(bào)記者 黃心怡
達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文認(rèn)為,10年內(nèi)AI將能代替90%以上的日常辦公工作,大幅提升社會效率,幫助企業(yè)更有效地整合、存儲和共享知識資源,加速企業(yè)治理創(chuàng)新。

《科創(chuàng)板日報(bào)》1月5日訊(記者 黃心怡)ChatGPT的橫空出世,帶來2023年全球大模型熱潮。在2024年新年之際,財(cái)聯(lián)社、《科創(chuàng)板日報(bào)》聯(lián)合上海市人工智能行業(yè)協(xié)會,邀請人工智能領(lǐng)軍者與行業(yè)精英推出“2024·AI領(lǐng)先者心聲”系列報(bào)道,回顧過去的一年,展望新的一年AI大模型發(fā)展的機(jī)遇與挑戰(zhàn)。

達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文向《科創(chuàng)板日報(bào)》表示:

文字作為人類歷史的重要組成部分,經(jīng)歷了發(fā)明、提煉知識、走向智能三個階段。其中,提煉知識的能力(即知識管理),是核心能力,這也是如今以ChatGPT為代表的大模型LLM(Large Language Model)成功的精髓。

10年內(nèi)AI將能代替90%以上的日常辦公工作,大幅提升社會效率,幫助企業(yè)更有效地整合、存儲和共享知識資源,加速企業(yè)治理創(chuàng)新。企業(yè)的目標(biāo)是利用AI來解決問題,而不是單純地和AI結(jié)合。因此,企業(yè)需要思考如何讓人和機(jī)器更好地協(xié)作,且以解決問題為出發(fā)點(diǎn)。

image

陳運(yùn)文“2024·AI領(lǐng)先者心聲”全文如下:

2023年當(dāng)ChatGPT風(fēng)靡全球時,對于我們這個專注于文檔智能化處理與大數(shù)據(jù)挖掘的一家科技公司而言,一場漫長而艱苦的“拉鋸戰(zhàn)”開始了:要做自主研發(fā)版的大語言模型。

早在6年前OpenAI就發(fā)布了第一代GPT技術(shù),那時除了學(xué)術(shù)圈,社會大眾少有關(guān)注。直至去年11月底ChatGPT正式發(fā)布,才像一塊石頭砸入水中,激起浪花無數(shù)。短短數(shù)年時間,技術(shù)迭代以光速般跨越,撬動整個社會與行業(yè)的變革。

盡管作出了自主研發(fā)的決定,首先要做足的是心理建設(shè)——從哪里入手才能盡快追趕同行腳步?開弓沒有回頭箭,咬著牙也得上。這一路都是“黑夜獨(dú)行”。海外同行沒有公布GPT訓(xùn)練過程的工程細(xì)節(jié)和參數(shù)方法這類核心要素,大模型優(yōu)異的效果隱藏在諸多技術(shù)細(xì)節(jié)里。為了給團(tuán)隊(duì)更多知識補(bǔ)給,我們向復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授們請教,翻閱了許多業(yè)界頂尖論文和技術(shù)報(bào)告。每周技術(shù)團(tuán)隊(duì)都在反復(fù)討論技術(shù)方案,開展各種交流研討,逐字逐句探究“核心指南”。同時,硬件試驗(yàn)設(shè)備也得跟上。

由于大語言模型需要消耗大量的算力與海量的數(shù)據(jù),采購了一批高性能的科學(xué)運(yùn)算GPU(圖形處理器)。這確實(shí)是相當(dāng)大的技術(shù)投入,但為了加速國產(chǎn)模型的研發(fā)還是非常值得的。除了作為人工智能基礎(chǔ)設(shè)施的算力平臺,大模型的訓(xùn)練還需要巨大規(guī)模的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)好比智能時代的“石油”。

投入了非常大精力來積累和提煉文本數(shù)據(jù),源源不斷地投入模型的訓(xùn)練——這些數(shù)據(jù)規(guī)模比一所大學(xué)圖書館所有藏書量都要大得多。研發(fā)團(tuán)隊(duì)每天都在絞盡腦汁攻克技術(shù)難關(guān)。訓(xùn)練過程中,有監(jiān)督的精調(diào)技術(shù)十分關(guān)鍵,提示詞的設(shè)計(jì)也有技巧。嘗試了上百次各種有監(jiān)督精調(diào)技術(shù)的試驗(yàn),與各類數(shù)據(jù)蒸餾加工的技巧,逐步摸索出了一個有效的大語言模型蒸餾和精調(diào)方法。測試效果很好,我們越來越有信心。

年初至今,一直在思考垂直場景下大模型的落地產(chǎn)品。不同于ChatGPT的通用模型,我們選擇面向垂直行業(yè)的企業(yè)客戶來開發(fā)文檔資料處理系統(tǒng),實(shí)現(xiàn)模型的本地化部署,讓模型具備更高的可靠性、安全性與準(zhǔn)確性,由此更符合市場需求。就連產(chǎn)品取名也費(fèi)了些腦筋,大家在90多個候選名字中最終挑選了“曹植”這個獨(dú)特的名字,因?yàn)椴苤灿小捌卟匠稍姟钡拿烂?,希望我們的系統(tǒng)也能流暢地創(chuàng)作寫作,源源不斷生成內(nèi)容。

我們的目標(biāo)是今年6月底發(fā)布正式版本?,F(xiàn)在團(tuán)隊(duì)每天都很緊張,日拱一卒,還有無數(shù)技術(shù)“鴻溝”等著翻越——只有對質(zhì)量細(xì)節(jié)“吹毛求疵”才能讓產(chǎn)品更精致。創(chuàng)新創(chuàng)業(yè)生涯中這次的挑戰(zhàn)很苦很累,但相信這會帶來中國文檔智能處理方面的重要突破。公司的每一個會議室都是以計(jì)算機(jī)算法來命名的,等到“曹植”這一產(chǎn)品亮相后,將會用新的核心算法名稱掛在會議室門口,以記住這段與時間賽跑的日子。

2015年,創(chuàng)辦達(dá)觀數(shù)據(jù)時,中國的科技創(chuàng)投行業(yè)已經(jīng)非常蓬勃,對我們這些創(chuàng)業(yè)者來說,資金已然不是最主要的門檻,專業(yè)背景、技術(shù)實(shí)力、產(chǎn)業(yè)經(jīng)驗(yàn)和資源,決定著我們這樣的初創(chuàng)企業(yè)能否做深、做專、做精。這也是達(dá)觀選擇在張江研發(fā)國產(chǎn)版“GPT”的原因:“上海、包括張江有很多優(yōu)秀人才,我們最重要、最寶貴的資產(chǎn)就是我們優(yōu)秀的工程師。另外我們這邊有以前在金融、制造等領(lǐng)域做得非常優(yōu)秀的業(yè)務(wù)人員,把他們之前很多年積累的業(yè)務(wù)知識變成我們?nèi)斯ぶ悄軐I(yè)能力的一部分。

在To B行業(yè)化中,一個主要問題是監(jiān)管難度的提高。在To C端,也要面對備案等法規(guī)要求。雖然達(dá)觀曹植大模型面向垂直行業(yè)專屬客戶,但依然通過了第三批生成式人工智能(大語言模型)上線備案,以確保合規(guī)。傳統(tǒng)互聯(lián)網(wǎng)時代,能夠以相對容易的方式審核文本內(nèi)容,及時發(fā)現(xiàn)和處理一些涉及意識形態(tài)等有問題的內(nèi)容。但是,大模型讓監(jiān)管難度顯著增加。

因此,在落地過程中,如何進(jìn)行有效監(jiān)管成為一個亟待解決的問題。否則會面臨濫用、不當(dāng)使用或者其他潛在的法律問題。在解決監(jiān)管問題的同時,還需要思考如何讓更多的人從大模型的應(yīng)用中受益。一言以蔽之,如何保證合理監(jiān)管和推動社會效益之間的平衡是一個全行業(yè)都需要認(rèn)真思考和解決的關(guān)鍵問題。

我們要達(dá)成以下兩點(diǎn)共識:首先,未來可能只有少數(shù)幾家廠商具備高質(zhì)量的提供底層通用大模型的能力,而垂直大模型和其產(chǎn)業(yè)化應(yīng)用將迎來非常多的機(jī)會和競爭。未來企業(yè)內(nèi)部,可能會同時將多個大模型結(jié)合起來,一起來去解決企業(yè)內(nèi)部的各種問題。其次,企業(yè)的目標(biāo)是利用AI來解決問題,而不是單純地和AI結(jié)合。因此,企業(yè)需要思考如何讓人和機(jī)器更好地協(xié)作,且以解決問題為出發(fā)點(diǎn)。不是為了用大模型而追捧大模型。

文字作為人類歷史的重要組成部分,經(jīng)歷了發(fā)明、提煉知識、走向智能三個階段。其中,提煉知識的能力(即知識管理),是核心能力,這也是如今以ChatGPT為代表的大模型LLM(Large Language Model)成功的精髓。其本質(zhì)上是對大規(guī)模知識的有效提煉學(xué)習(xí),并形成強(qiáng)大的文字語義理解能力。

針對其他應(yīng)用場景未來還會出現(xiàn)更多的X-GPT系統(tǒng),甚至更多其他的LLM語言模型,其他行業(yè)也將逐步落地應(yīng)用大模型創(chuàng)造自動化腦力工作的系統(tǒng)。未來,智能知識管理行業(yè)將會發(fā)展為包含巨大機(jī)會的全新市場,未來辦公形態(tài)也會隨之發(fā)生巨變。

10年內(nèi)AI將能代替90%以上的日常辦公工作,大幅提升社會效率,幫助企業(yè)更有效地整合、存儲和共享知識資源,加速企業(yè)治理創(chuàng)新。在語言模型與企業(yè)經(jīng)營管理的深度結(jié)合下,各類辦公自動化場景發(fā)生巨大轉(zhuǎn)變,實(shí)現(xiàn)自動閱讀(文檔自動審核、數(shù)據(jù)自動查驗(yàn)、知識自動挖掘),以及自動寫作(報(bào)告自動撰寫、文章自動起草、意見自動歸納)。

不僅如此,基于每個企業(yè)的知識庫,企業(yè)能夠打造自己專屬的“知識大腦”,通過大模型充分與專業(yè)性長文本寫作結(jié)合,認(rèn)真打磨出針對每個企業(yè)自己的專用文本處理系統(tǒng),開啟企業(yè)智慧知識管理新篇章。

目前,大模型仍存在兩大缺陷:一是真實(shí)性和準(zhǔn)確性不足,模型無法保證回復(fù)結(jié)果的真實(shí)性,存在虛假信息,也可能會給出錯誤的結(jié)果。二是模型有偏向性,存在服務(wù)合規(guī)性問題。事實(shí)(Facts)是客觀的,觀點(diǎn)(Opinion)是主觀的,但是兩者在文本中往往總是雜糅在一起的,因此如果使用具有各自“”觀點(diǎn)〞的文本訓(xùn)練后,相應(yīng)的系統(tǒng)也會有各自不同的“三觀”,給出不同的觀點(diǎn)甚至出現(xiàn)偏見。大模型并非是客觀和中立的,其結(jié)果嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)本身的偏向性,所以采納其答案時需要注意。

此外,參數(shù)規(guī)模大只表明系統(tǒng)承載的知識可以更多,但并不一定代表模型更智能,因?yàn)橛?xùn)練數(shù)據(jù)規(guī)模、訓(xùn)練策路好壞、超參數(shù)配置等都對模型有更大的影響。訓(xùn)練數(shù)據(jù)是未來的核心競爭力。論文、報(bào)告、新聞、書籍等各類文檔資料是主要的訓(xùn)練數(shù)據(jù),通過特定渠道收集“喂給”模型,模型通過這些文檔資料的閱讀和建模來吸收知識,高質(zhì)量的數(shù)據(jù)會成為最核心的競爭力。

收藏
149.73W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
4.16W 人關(guān)注
8853 人關(guān)注