99亚洲精品无码久久久久,白嫩少妇激情无码,噼里啪啦免费高清看

達(dá)觀數(shù)據(jù)創(chuàng)始人陳運(yùn)文：訓(xùn)練數(shù)據(jù)是未來的核心競爭力|AI領(lǐng)先者心聲2024

原創(chuàng)

2024-01-05 13:37 星期五

科創(chuàng)板日報(bào)記者黃心怡

達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文認(rèn)為，10年內(nèi)AI將能代替90%以上的日常辦公工作，大幅提升社會效率，幫助企業(yè)更有效地整合、存儲和共享知識資源，加速企業(yè)治理創(chuàng)新。

《科創(chuàng)板日報(bào)》1月5日訊（記者黃心怡）ChatGPT的橫空出世，帶來2023年全球大模型熱潮。在2024年新年之際，財(cái)聯(lián)社、《科創(chuàng)板日報(bào)》聯(lián)合上海市人工智能行業(yè)協(xié)會，邀請人工智能領(lǐng)軍者與行業(yè)精英推出“2024·AI領(lǐng)先者心聲”系列報(bào)道，回顧過去的一年，展望新的一年AI大模型發(fā)展的機(jī)遇與挑戰(zhàn)。

達(dá)觀數(shù)據(jù)創(chuàng)始人兼CEO陳運(yùn)文向《科創(chuàng)板日報(bào)》表示：

文字作為人類歷史的重要組成部分，經(jīng)歷了發(fā)明、提煉知識、走向智能三個階段。其中，提煉知識的能力（即知識管理），是核心能力，這也是如今以ChatGPT為代表的大模型LLM（Large Language Model）成功的精髓。

10年內(nèi)AI將能代替90%以上的日常辦公工作，大幅提升社會效率，幫助企業(yè)更有效地整合、存儲和共享知識資源，加速企業(yè)治理創(chuàng)新。企業(yè)的目標(biāo)是利用AI來解決問題，而不是單純地和AI結(jié)合。因此，企業(yè)需要思考如何讓人和機(jī)器更好地協(xié)作，且以解決問題為出發(fā)點(diǎn)。

陳運(yùn)文“2024·AI領(lǐng)先者心聲”全文如下：

2023年當(dāng)ChatGPT風(fēng)靡全球時，對于我們這個專注于文檔智能化處理與大數(shù)據(jù)挖掘的一家科技公司而言，一場漫長而艱苦的“拉鋸戰(zhàn)”開始了：要做自主研發(fā)版的大語言模型。

早在6年前OpenAI就發(fā)布了第一代GPT技術(shù)，那時除了學(xué)術(shù)圈，社會大眾少有關(guān)注。直至去年11月底ChatGPT正式發(fā)布，才像一塊石頭砸入水中，激起浪花無數(shù)。短短數(shù)年時間，技術(shù)迭代以光速般跨越，撬動整個社會與行業(yè)的變革。

盡管作出了自主研發(fā)的決定，首先要做足的是心理建設(shè)——從哪里入手才能盡快追趕同行腳步？開弓沒有回頭箭，咬著牙也得上。這一路都是“黑夜獨(dú)行”。海外同行沒有公布GPT訓(xùn)練過程的工程細(xì)節(jié)和參數(shù)方法這類核心要素，大模型優(yōu)異的效果隱藏在諸多技術(shù)細(xì)節(jié)里。為了給團(tuán)隊(duì)更多知識補(bǔ)給，我們向復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授們請教，翻閱了許多業(yè)界頂尖論文和技術(shù)報(bào)告。每周技術(shù)團(tuán)隊(duì)都在反復(fù)討論技術(shù)方案，開展各種交流研討，逐字逐句探究“核心指南”。同時，硬件試驗(yàn)設(shè)備也得跟上。

由于大語言模型需要消耗大量的算力與海量的數(shù)據(jù)，采購了一批高性能的科學(xué)運(yùn)算GPU（圖形處理器）。這確實(shí)是相當(dāng)大的技術(shù)投入，但為了加速國產(chǎn)模型的研發(fā)還是非常值得的。除了作為人工智能基礎(chǔ)設(shè)施的算力平臺，大模型的訓(xùn)練還需要巨大規(guī)模的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)好比智能時代的“石油”。

投入了非常大精力來積累和提煉文本數(shù)據(jù)，源源不斷地投入模型的訓(xùn)練——這些數(shù)據(jù)規(guī)模比一所大學(xué)圖書館所有藏書量都要大得多。研發(fā)團(tuán)隊(duì)每天都在絞盡腦汁攻克技術(shù)難關(guān)。訓(xùn)練過程中，有監(jiān)督的精調(diào)技術(shù)十分關(guān)鍵，提示詞的設(shè)計(jì)也有技巧。嘗試了上百次各種有監(jiān)督精調(diào)技術(shù)的試驗(yàn)，與各類數(shù)據(jù)蒸餾加工的技巧，逐步摸索出了一個有效的大語言模型蒸餾和精調(diào)方法。測試效果很好，我們越來越有信心。

年初至今，一直在思考垂直場景下大模型的落地產(chǎn)品。不同于ChatGPT的通用模型，我們選擇面向垂直行業(yè)的企業(yè)客戶來開發(fā)文檔資料處理系統(tǒng)，實(shí)現(xiàn)模型的本地化部署，讓模型具備更高的可靠性、安全性與準(zhǔn)確性，由此更符合市場需求。就連產(chǎn)品取名也費(fèi)了些腦筋，大家在90多個候選名字中最終挑選了“曹植”這個獨(dú)特的名字，因?yàn)椴苤灿小捌卟匠稍姟钡拿烂?，希望我們的系統(tǒng)也能流暢地創(chuàng)作寫作，源源不斷生成內(nèi)容。

我們的目標(biāo)是今年6月底發(fā)布正式版本?，F(xiàn)在團(tuán)隊(duì)每天都很緊張，日拱一卒，還有無數(shù)技術(shù)“鴻溝”等著翻越——只有對質(zhì)量細(xì)節(jié)“吹毛求疵”才能讓產(chǎn)品更精致。創(chuàng)新創(chuàng)業(yè)生涯中這次的挑戰(zhàn)很苦很累，但相信這會帶來中國文檔智能處理方面的重要突破。公司的每一個會議室都是以計(jì)算機(jī)算法來命名的，等到“曹植”這一產(chǎn)品亮相后，將會用新的核心算法名稱掛在會議室門口，以記住這段與時間賽跑的日子。

2015年，創(chuàng)辦達(dá)觀數(shù)據(jù)時，中國的科技創(chuàng)投行業(yè)已經(jīng)非常蓬勃，對我們這些創(chuàng)業(yè)者來說，資金已然不是最主要的門檻，專業(yè)背景、技術(shù)實(shí)力、產(chǎn)業(yè)經(jīng)驗(yàn)和資源，決定著我們這樣的初創(chuàng)企業(yè)能否做深、做專、做精。這也是達(dá)觀選擇在張江研發(fā)國產(chǎn)版“GPT”的原因：“上海、包括張江有很多優(yōu)秀人才，我們最重要、最寶貴的資產(chǎn)就是我們優(yōu)秀的工程師。另外我們這邊有以前在金融、制造等領(lǐng)域做得非常優(yōu)秀的業(yè)務(wù)人員，把他們之前很多年積累的業(yè)務(wù)知識變成我們?nèi)斯ぶ悄軐I(yè)能力的一部分。

在To B行業(yè)化中，一個主要問題是監(jiān)管難度的提高。在To C端，也要面對備案等法規(guī)要求。雖然達(dá)觀曹植大模型面向垂直行業(yè)專屬客戶，但依然通過了第三批生成式人工智能（大語言模型）上線備案，以確保合規(guī)。傳統(tǒng)互聯(lián)網(wǎng)時代，能夠以相對容易的方式審核文本內(nèi)容，及時發(fā)現(xiàn)和處理一些涉及意識形態(tài)等有問題的內(nèi)容。但是，大模型讓監(jiān)管難度顯著增加。

因此，在落地過程中，如何進(jìn)行有效監(jiān)管成為一個亟待解決的問題。否則會面臨濫用、不當(dāng)使用或者其他潛在的法律問題。在解決監(jiān)管問題的同時，還需要思考如何讓更多的人從大模型的應(yīng)用中受益。一言以蔽之，如何保證合理監(jiān)管和推動社會效益之間的平衡是一個全行業(yè)都需要認(rèn)真思考和解決的關(guān)鍵問題。

我們要達(dá)成以下兩點(diǎn)共識：首先，未來可能只有少數(shù)幾家廠商具備高質(zhì)量的提供底層通用大模型的能力，而垂直大模型和其產(chǎn)業(yè)化應(yīng)用將迎來非常多的機(jī)會和競爭。未來企業(yè)內(nèi)部，可能會同時將多個大模型結(jié)合起來，一起來去解決企業(yè)內(nèi)部的各種問題。其次，企業(yè)的目標(biāo)是利用AI來解決問題，而不是單純地和AI結(jié)合。因此，企業(yè)需要思考如何讓人和機(jī)器更好地協(xié)作，且以解決問題為出發(fā)點(diǎn)。不是為了用大模型而追捧大模型。

文字作為人類歷史的重要組成部分，經(jīng)歷了發(fā)明、提煉知識、走向智能三個階段。其中，提煉知識的能力（即知識管理），是核心能力，這也是如今以ChatGPT為代表的大模型LLM（Large Language Model）成功的精髓。其本質(zhì)上是對大規(guī)模知識的有效提煉學(xué)習(xí)，并形成強(qiáng)大的文字語義理解能力。

針對其他應(yīng)用場景未來還會出現(xiàn)更多的X-GPT系統(tǒng)，甚至更多其他的LLM語言模型，其他行業(yè)也將逐步落地應(yīng)用大模型創(chuàng)造自動化腦力工作的系統(tǒng)。未來，智能知識管理行業(yè)將會發(fā)展為包含巨大機(jī)會的全新市場，未來辦公形態(tài)也會隨之發(fā)生巨變。

10年內(nèi)AI將能代替90%以上的日常辦公工作，大幅提升社會效率，幫助企業(yè)更有效地整合、存儲和共享知識資源，加速企業(yè)治理創(chuàng)新。在語言模型與企業(yè)經(jīng)營管理的深度結(jié)合下，各類辦公自動化場景發(fā)生巨大轉(zhuǎn)變，實(shí)現(xiàn)自動閱讀（文檔自動審核、數(shù)據(jù)自動查驗(yàn)、知識自動挖掘），以及自動寫作（報(bào)告自動撰寫、文章自動起草、意見自動歸納）。

不僅如此，基于每個企業(yè)的知識庫，企業(yè)能夠打造自己專屬的“知識大腦”，通過大模型充分與專業(yè)性長文本寫作結(jié)合，認(rèn)真打磨出針對每個企業(yè)自己的專用文本處理系統(tǒng)，開啟企業(yè)智慧知識管理新篇章。

目前，大模型仍存在兩大缺陷：一是真實(shí)性和準(zhǔn)確性不足，模型無法保證回復(fù)結(jié)果的真實(shí)性，存在虛假信息，也可能會給出錯誤的結(jié)果。二是模型有偏向性，存在服務(wù)合規(guī)性問題。事實(shí)（Facts）是客觀的，觀點(diǎn)（Opinion）是主觀的，但是兩者在文本中往往總是雜糅在一起的，因此如果使用具有各自“”觀點(diǎn)〞的文本訓(xùn)練后，相應(yīng)的系統(tǒng)也會有各自不同的“三觀”，給出不同的觀點(diǎn)甚至出現(xiàn)偏見。大模型并非是客觀和中立的，其結(jié)果嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)本身的偏向性，所以采納其答案時需要注意。

此外，參數(shù)規(guī)模大只表明系統(tǒng)承載的知識可以更多，但并不一定代表模型更智能，因?yàn)橛?xùn)練數(shù)據(jù)規(guī)模、訓(xùn)練策路好壞、超參數(shù)配置等都對模型有更大的影響。訓(xùn)練數(shù)據(jù)是未來的核心競爭力。論文、報(bào)告、新聞、書籍等各類文檔資料是主要的訓(xùn)練數(shù)據(jù)，通過特定渠道收集“喂給”模型，模型通過這些文檔資料的閱讀和建模來吸收知識，高質(zhì)量的數(shù)據(jù)會成為最核心的競爭力。

閱149.73W

我要評論

反饋意見