用GPT-4糾錯GPT-4!OpenAI推出CriticGPT模型
原創(chuàng)
2024-06-28 11:34 星期五
財聯(lián)社 周子意
①OpenAI公司推出了一個基于GPT-4的模型CriticGPT,用于捕獲ChatGPT代碼輸出中的錯誤;
②該模型可以對ChatGPT的響應(yīng)結(jié)果做出指正,從而幫助AI訓(xùn)練師更好地發(fā)現(xiàn)錯誤;
③在CriticGPT的幫助下,AI訓(xùn)練師的指正比自己單獨做的更加全面。

財聯(lián)社6月28日訊(編輯 周子意)根據(jù)OpenAI周四(6月27日)發(fā)布的新聞稿,該公司新推出了一個基于GPT-4的模型——CriticGPT,用于捕獲ChatGPT代碼輸出中的錯誤。

CriticGPT的作用相當(dāng)于讓人們用GPT-4來查找GPT-4的錯誤。該模型可以對ChatGPT響應(yīng)結(jié)果做出批評評論,從而幫助人工智能訓(xùn)練師在“基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)”過程中發(fā)現(xiàn)的錯誤,為人工智能訓(xùn)練師提供明確的人工智能幫助。

image

這一新模型的發(fā)布意在向投資者傳達(dá),OpenAI在RLHF賽道上的領(lǐng)先地位。RLHF的一個關(guān)鍵部分就是收集比較,讓人工智能訓(xùn)練師對不同的ChatGPT回答進(jìn)行評分,并反饋給ChatGPT。

研究發(fā)現(xiàn),當(dāng)訓(xùn)練師借助CriticGPT來審查ChatGPT輸出代碼時,他們的表現(xiàn)要比沒有得到幫助的人高出60%。并且,在CriticGPT的幫助下,他們的指正比自己單獨做的更加全面。

CriticGPT的審查

隨著大模型在推理和行為方面的進(jìn)步,ChatGPT變得更加準(zhǔn)確,它的錯誤也變得更加微妙。這可能會使人工智能訓(xùn)練師很難發(fā)現(xiàn)其中不準(zhǔn)確的情況,從而使RLHF的比較任務(wù)更加困難。

若是如果沒有更好的工具,人們很難對這些系統(tǒng)進(jìn)行評估。而OpenAI指出,CriticGPT模型將有能力評估先進(jìn)人工智能系統(tǒng)的輸出。

OpenAI舉了一個例子:用戶對ChatGPT下達(dá)“用Python編寫指定函數(shù)”的任務(wù),ChatGPT根據(jù)這一指令給出了相關(guān)代碼。對于ChatGPT給出的代碼,CriticGPT點評了其中一條,并給出了效果更好的替代方案。

image

還有一項數(shù)據(jù)顯示,在OpenAI的實驗中,隨機(jī)訓(xùn)練師在超過60%的時間里更傾向于人類與CriticGPT合作后得出的指正,而不是單純由人類訓(xùn)練師作出的批評。

不過,OpenAI也指出,CriticGPT的建議并不總是正確的,但與沒有人工智能的幫助相比,它還是可以幫助訓(xùn)練師找出模型中的更多問題。

收藏
88.06W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
9.48W 人關(guān)注
4.16W 人關(guān)注
1.29W 人關(guān)注