國盛證券劉高暢：中文數(shù)據(jù)欠缺算力消耗顯著|天天微資訊

時間：2023-04-27 08:29:26 來源：東方財(cái)富網(wǎng)

(資料圖)

國盛證券劉高暢在節(jié)目中表示，數(shù)據(jù)方面，高質(zhì)量的中文語料庫相對稀缺，會有一些誤差率的問題；算力方面，訓(xùn)練端對算力的要求不是很極限，但應(yīng)用端對算力的消耗非常顯著。

以下為文字精華：

提問：除了算法，人工智能訓(xùn)練的時候也需要很大的算力，包括海量的數(shù)據(jù)，特別是我們中國跟海外的數(shù)據(jù)源可能還存在一些割裂。在算力和數(shù)據(jù)方面，我們和海外有多少差距？

劉高暢：數(shù)據(jù)方面，在GPT3以前用的都是互聯(lián)網(wǎng)的公開數(shù)據(jù)，中文目前來看，客觀的條件就是高質(zhì)量的語料庫相對來講會稀缺一些。

在整個OpenAI的大模型中，我們了解到中文的語料庫使用只有5%，從誤差率的角度來講，英文可能在2%—3%，中文大概在10%以上。用中文去測試ChatGPT，效果也不如英文。但是，我們也看到國內(nèi)的高質(zhì)量語料庫在快速生成中，大家也在探索，包括知乎和萬方這樣的一些高質(zhì)量語料庫在形成。

大模型的數(shù)據(jù)還是以互聯(lián)網(wǎng)公開數(shù)據(jù)為主，可能在寫代碼這個階段，一些頂尖大廠比如微軟，代碼的水平會比較高，但是畢竟這一塊只是小部分，我們推測起不了決定性的作用，應(yīng)該不是特別大的瓶頸。OpenAI在去年GPT3.5的時候，大概用了45TB的數(shù)據(jù)，做模型數(shù)據(jù)集處理和傾斜的部分應(yīng)該是不超過1TB的，所以其實(shí)是很少的數(shù)據(jù)，這一點(diǎn)不用特別擔(dān)心。

算力方面，如果從訓(xùn)練端的角度來看，如果在GPT3以前，用2000張英偉達(dá)A100的算力，如果你訓(xùn)不出來成果，我們建議就不要去做了，說明這個團(tuán)隊(duì)水平有點(diǎn)問題。如果在GPT3.5以前，5000張如果訓(xùn)不出來，我們建議也不要再做訓(xùn)練了，說明這個團(tuán)隊(duì)多多少少有點(diǎn)問題。

我們認(rèn)為在訓(xùn)練階段，對算力的需求量沒有那么極限，國內(nèi)明面上和潛在的產(chǎn)業(yè)中的儲備我們認(rèn)為是夠的。

應(yīng)用端來看，做模型蒸餾和模型裁剪，把算力的消耗做到以前的90%，已經(jīng)是很高的縮減度了。但是就這樣的情況來看，算力還是會捉襟見肘，對未來算力的消耗還會非常顯著，包括我們國家的一些晶圓代工和設(shè)計(jì)廠商，這也是他們需要努力的地方，其實(shí)是機(jī)遇也是挑戰(zhàn)。

關(guān)鍵詞：

上一篇：天天即時看！沒眼看！藍(lán)軍五連敗創(chuàng)30年最差神燈這是拱火來了？
下一篇：最后一頁

相關(guān)新聞

快捷通達(dá)能力提升拉林高等級公路米拉山隧道建成通車
重磅！河南省將開展電動車交通違法大整治行動
26日人民幣對美元匯率中間價與前一交易日持平
“成本跑得比規(guī)?？臁?消費(fèi)金融機(jī)構(gòu)正收縮線下業(yè)務(wù)
獨(dú)角獸沒現(xiàn)身科創(chuàng)板受理企業(yè)名單這是為何？
預(yù)測：“五一”出行哪些路段比較擁堵？
全國將簽發(fā)統(tǒng)一電子社保卡看病后不用排隊(duì)直接線上支付
鄭州城市軌道交通三期規(guī)劃來了今年鄭州將有4個地鐵項(xiàng)目通車
中國將加強(qiáng)工業(yè)互聯(lián)網(wǎng)等技術(shù)在輕工行業(yè)推廣應(yīng)用
油價或迎年內(nèi)“第七漲” 五一假期用油成本將增加

凡本網(wǎng)注明“XXX（非中國微山網(wǎng)）提供”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

成本銳降+需求猛增儲能行業(yè)景氣度持續(xù)走高|環(huán)球視訊

在光伏硅料價格及碳酸鋰價格下跌趨勢中，儲能賽道或成為最大受益群體。有熟悉儲能產(chǎn)業(yè)的人士表示，2023年儲

2023-04-27 07:45
經(jīng)濟(jì)日報(bào)金觀平：強(qiáng)化企業(yè)科技創(chuàng)新主體地位_天天熱頭條

經(jīng)濟(jì)日報(bào)頭版文章稱，關(guān)鍵核心技術(shù)必須牢牢掌握在自己手里。實(shí)現(xiàn)高水平科技自立自強(qiáng)，要求企業(yè)承擔(dān)更大責(zé)任

2023-04-27 07:37
時訊：IMF駐華首席代表：人民幣國際化取得了實(shí)質(zhì)性進(jìn)展，未來將繼續(xù)向前推進(jìn)

國際貨幣基金組織(IMF)駐華首席代表史蒂文·巴奈特在接受澎湃新聞旗下高端投資對話節(jié)目《首席連線》采訪時

2023-04-27 07:39
當(dāng)前頭條：多只醫(yī)藥主題基金業(yè)績亮眼細(xì)分領(lǐng)域行情可期

今年以來，多只醫(yī)藥主題基金業(yè)績表現(xiàn)喜人。業(yè)內(nèi)人士表示，近期醫(yī)藥公司一季度營收業(yè)績陸續(xù)披露，不少來自創(chuàng)

2023-04-27 07:42
新產(chǎn)品批量淪為“迷你”基，公募“上新”仍需控制節(jié)奏焦點(diǎn)速看

近日，多只踩著2億元底線成立的基金遭遇大額贖回，新發(fā)基金后續(xù)發(fā)展令人擔(dān)憂。不少成立時間不長的基金已岌

2023-04-27 06:42
動力電池今年裝車預(yù)計(jì)增長近四成，業(yè)界研判碳酸鋰價格二季度將現(xiàn)拐點(diǎn)

4月26日至27日舉行的中國汽車動力電池產(chǎn)業(yè)創(chuàng)新聯(lián)盟大會預(yù)計(jì)，2023年我國動力電池裝車需求將達(dá)409 9GWh，同

2023-04-27 06:34
芝加哥小麥期貨周三跌1.7%連跌六天，糖期貨在巴西前景改善之際跌離最近11年最高位環(huán)球今日報(bào)

周三(4月26日)紐約尾盤，彭博谷物分類指數(shù)跌1 02%，報(bào)44 1871點(diǎn)，一度走軟至44 1794點(diǎn)，逼近2022年7月22日

2023-04-27 05:35
標(biāo)普500指數(shù)的11個板塊幾乎全軍覆沒，科技板塊漲1.7%“鶴立雞群”

周三(4月26日)，標(biāo)普公用事業(yè)板塊收跌2 37%，工業(yè)、保健、能源、原材料板塊跌幅介于1 87%-1 18%，金融板塊

2023-04-27 05:26
世界最資訊丨退市節(jié)奏加快，投資者保護(hù)措施效果顯現(xiàn)

今年以來，A股市場已有6家公司退市摘牌。其中，中航機(jī)電(002013)因吸收合并退市，ST凱樂、ST榮華、ST西源、

2023-04-27 05:46
2030年前我國在運(yùn)核電裝機(jī)規(guī)模有望成世界第一環(huán)球快報(bào)

4月26日，中國核能可持續(xù)發(fā)展論壇2023年春季國際高峰會議召開，中國核能行業(yè)協(xié)會發(fā)布《中國核能發(fā)展報(bào)告》

2023-04-27 05:32

熱文推薦

國盛證券劉高暢：中文數(shù)據(jù)欠缺 算力消耗顯著|天天微資訊

特別關(guān)注

焦點(diǎn)資訊

國盛證券劉高暢：中文數(shù)據(jù)欠缺算力消耗顯著|天天微資訊