您現(xiàn)在的位置:首頁 > 綜合 > 特別關(guān)注 > 正文

國盛證券劉高暢:中文數(shù)據(jù)欠缺 算力消耗顯著|天天微資訊

時間:2023-04-27 08:29:26    來源:東方財富網(wǎng)    


(資料圖)

國盛證券劉高暢在節(jié)目中表示,數(shù)據(jù)方面,高質(zhì)量的中文語料庫相對稀缺,會有一些誤差率的問題;算力方面,訓練端對算力的要求不是很極限,但應(yīng)用端對算力的消耗非常顯著。

以下為文字精華:

提問:除了算法,人工智能訓練的時候也需要很大的算力,包括海量的數(shù)據(jù),特別是我們中國跟海外的數(shù)據(jù)源可能還存在一些割裂。在算力和數(shù)據(jù)方面,我們和海外有多少差距?

劉高暢:數(shù)據(jù)方面,在GPT3以前用的都是互聯(lián)網(wǎng)的公開數(shù)據(jù),中文目前來看,客觀的條件就是高質(zhì)量的語料庫相對來講會稀缺一些。

在整個OpenAI的大模型中,我們了解到中文的語料庫使用只有5%,從誤差率的角度來講,英文可能在2%—3%,中文大概在10%以上。用中文去測試ChatGPT,效果也不如英文。但是,我們也看到國內(nèi)的高質(zhì)量語料庫在快速生成中,大家也在探索,包括知乎和萬方這樣的一些高質(zhì)量語料庫在形成。

大模型的數(shù)據(jù)還是以互聯(lián)網(wǎng)公開數(shù)據(jù)為主,可能在寫代碼這個階段,一些頂尖大廠比如微軟,代碼的水平會比較高,但是畢竟這一塊只是小部分,我們推測起不了決定性的作用,應(yīng)該不是特別大的瓶頸。OpenAI在去年GPT3.5的時候,大概用了45TB的數(shù)據(jù),做模型數(shù)據(jù)集處理和傾斜的部分應(yīng)該是不超過1TB的,所以其實是很少的數(shù)據(jù),這一點不用特別擔心。

算力方面,如果從訓練端的角度來看,如果在GPT3以前,用2000張英偉達A100的算力,如果你訓不出來成果,我們建議就不要去做了,說明這個團隊水平有點問題。如果在GPT3.5以前,5000張如果訓不出來,我們建議也不要再做訓練了,說明這個團隊多多少少有點問題。

我們認為在訓練階段,對算力的需求量沒有那么極限,國內(nèi)明面上和潛在的產(chǎn)業(yè)中的儲備我們認為是夠的。

應(yīng)用端來看,做模型蒸餾和模型裁剪,把算力的消耗做到以前的90%,已經(jīng)是很高的縮減度了。但是就這樣的情況來看,算力還是會捉襟見肘,對未來算力的消耗還會非常顯著,包括我們國家的一些晶圓代工和設(shè)計廠商,這也是他們需要努力的地方,其實是機遇也是挑戰(zhàn)。

關(guān)鍵詞:

凡本網(wǎng)注明“XXX(非中國微山網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和其真實性負責。

特別關(guān)注