您現(xiàn)在的位置:首頁(yè) > 科技 > 正文

“雙十一”流量大考過(guò)關(guān) 流計(jì)算功不可沒(méi) 什么是流計(jì)算?

時(shí)間:2019-11-14 10:17:57    來(lái)源:科技日?qǐng)?bào)    

如何扛住流量“洪峰”,是每年“雙十一”的技術(shù)大考。隨著流量的飆升,這一大考無(wú)疑變得越來(lái)越難。

“雙十一”剛過(guò),各大電商紛紛公布當(dāng)日戰(zhàn)績(jī)。從目前公布的數(shù)據(jù)不難看出,今年“雙十一”的訂單創(chuàng)建量峰值創(chuàng)下新高,單日數(shù)據(jù)處理量紀(jì)錄也再次被刷新。

“雙十一”的數(shù)據(jù)量不僅大,還會(huì)實(shí)時(shí)變化??梢哉f(shuō),每個(gè)購(gòu)物數(shù)據(jù)都是個(gè)性化的、動(dòng)態(tài)的,完成處理它們的工作,需要有強(qiáng)大的計(jì)算能力作為支撐。

“今年的數(shù)據(jù)處理工作,除了批處理(對(duì)數(shù)據(jù)進(jìn)行批量處理)外,還有流處理,就是實(shí)時(shí)處理數(shù)據(jù)。龐大的交易數(shù)據(jù)每分鐘、每秒鐘都在變,它們并不是從數(shù)據(jù)庫(kù)里面統(tǒng)計(jì)出來(lái)的,而是系統(tǒng)自動(dòng)一層層把它們匯集上來(lái)的。”阿里巴巴集團(tuán)首席技術(shù)官?gòu)埥ㄤh表示。他口中的“流處理”就是流計(jì)算,即實(shí)時(shí)計(jì)算。對(duì)于扛住“雙十一”流量“洪峰”,它功不可沒(méi)。

那么,什么是流計(jì)算?它是如何抗住“雙十一”流量“洪峰”的?對(duì)此,科技日?qǐng)?bào)記者采訪了業(yè)內(nèi)專(zhuān)家。

以內(nèi)存取代硬盤(pán)實(shí)現(xiàn)快速處理

北京理工大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)、教授劉馳在接受科技日?qǐng)?bào)記者采訪時(shí)解釋道,流計(jì)算指當(dāng)一條數(shù)據(jù)被處理完后,立刻被序列化到內(nèi)存中,然后通過(guò)網(wǎng)絡(luò)傳輸?shù)较乱粋€(gè)節(jié)點(diǎn),由下一個(gè)節(jié)點(diǎn)繼續(xù)處理。“這種流式處理技術(shù),是以內(nèi)存取代硬盤(pán)的方式來(lái)實(shí)現(xiàn)數(shù)據(jù)快速處理,這是流計(jì)算之所以能夠高效處理數(shù)據(jù)的根本原因。”他表示。

據(jù)劉馳介紹,流計(jì)算具有高性能、海量式、實(shí)時(shí)性、分布式、易用性、可靠性等多項(xiàng)優(yōu)勢(shì),主要的應(yīng)用方向有,對(duì)金融與科學(xué)計(jì)算中的數(shù)據(jù)進(jìn)行快速運(yùn)算和分析;對(duì)存在于社交網(wǎng)站、電子郵件、視頻、電話記錄、電子感應(yīng)器中的數(shù)字格式信息流進(jìn)行快速處理并反饋等。

“流式處理可被用于兩種不同的計(jì)算場(chǎng)景:事件流和持續(xù)計(jì)算。”劉馳介紹道,在事件流場(chǎng)景,系統(tǒng)會(huì)持續(xù)產(chǎn)生大量的數(shù)據(jù),這類(lèi)數(shù)據(jù)最早出現(xiàn)在銀行和股票交易領(lǐng)域,也會(huì)在互聯(lián)網(wǎng)監(jiān)控、無(wú)線通信等領(lǐng)域出現(xiàn)。這些領(lǐng)域的相關(guān)業(yè)務(wù),需要流計(jì)算技術(shù)以近乎實(shí)時(shí)的方式對(duì)數(shù)據(jù)流進(jìn)行復(fù)雜分析。

“而在持續(xù)計(jì)算場(chǎng)景,比如大型網(wǎng)站,流計(jì)算技術(shù)可以動(dòng)態(tài)實(shí)時(shí)地刷新用戶訪問(wèn)數(shù)據(jù),展示網(wǎng)站實(shí)時(shí)流量的變化情況,分析每天各小時(shí)的流量和用戶分布情況。一些需要實(shí)時(shí)處理數(shù)據(jù)的場(chǎng)景也能應(yīng)用到流計(jì)算技術(shù),比如對(duì)根據(jù)用戶行為產(chǎn)生的日志文件進(jìn)行實(shí)時(shí)分析,對(duì)用戶進(jìn)行商品的實(shí)時(shí)推薦等。”劉馳介紹道。

實(shí)時(shí)采集、實(shí)時(shí)計(jì)算、實(shí)時(shí)查詢

劉馳向記者介紹道,流計(jì)算的處理流程一般包含三個(gè)階段:數(shù)據(jù)實(shí)時(shí)采集、數(shù)據(jù)實(shí)時(shí)計(jì)算和實(shí)時(shí)查詢服務(wù)。

首先,后臺(tái)工作人員會(huì)用實(shí)時(shí)數(shù)據(jù)集成工具,將數(shù)據(jù)實(shí)時(shí)傳輸?shù)搅魇綌?shù)據(jù)存儲(chǔ)系統(tǒng)。具體過(guò)程是,系統(tǒng)將長(zhǎng)時(shí)間累積的大量數(shù)據(jù),平攤到每個(gè)計(jì)算時(shí)間節(jié)點(diǎn),數(shù)據(jù)會(huì)被不停地進(jìn)行小批量實(shí)時(shí)傳輸。此時(shí),數(shù)據(jù)將會(huì)被源源不斷地寫(xiě)入流數(shù)據(jù)存儲(chǔ)系統(tǒng),不需要預(yù)先加載的過(guò)程。同時(shí),在此過(guò)程中,數(shù)據(jù)是持續(xù)流動(dòng)的,在計(jì)算完成后就會(huì)被立刻丟棄。

然后,不同于批量計(jì)算等待數(shù)據(jù)集成全部完成后才啟動(dòng)計(jì)算作業(yè),流式計(jì)算作業(yè)是一種常駐計(jì)算服務(wù),一旦啟動(dòng)將一直處于等待事件觸發(fā)的狀態(tài),即一有小批量數(shù)據(jù)進(jìn)入流式數(shù)據(jù)存儲(chǔ)系統(tǒng),流計(jì)算系統(tǒng)就會(huì)立刻計(jì)算并得出結(jié)果。“同時(shí),部分電商平臺(tái)的流計(jì)算團(tuán)隊(duì),還使用了增量計(jì)算模型,將大批量數(shù)據(jù)分批進(jìn)行增量計(jì)算,進(jìn)一步減少單次運(yùn)算規(guī)模并有效降低整體運(yùn)算時(shí)延。”劉馳說(shuō)。

最后,采用數(shù)據(jù)批處理方式,通常需要等待數(shù)據(jù)計(jì)算結(jié)果得出后,才能批量將數(shù)據(jù)傳輸?shù)皆诰€系統(tǒng)。而流式處理方式可在每次小批量數(shù)據(jù)計(jì)算工作完成后,就立刻將計(jì)算結(jié)果寫(xiě)入在線系統(tǒng)。“這樣無(wú)需等待全部數(shù)據(jù)計(jì)算工作完成,我們就可在流計(jì)算數(shù)據(jù)查詢系統(tǒng)中,查詢到在線系統(tǒng)的數(shù)據(jù)處理結(jié)果。技術(shù)人員也可將實(shí)時(shí)結(jié)果發(fā)送給可視化系統(tǒng),以實(shí)現(xiàn)計(jì)算結(jié)果的實(shí)時(shí)化展示。”劉馳說(shuō)。

技術(shù)雖強(qiáng)大但仍存在短板

不過(guò),劉馳表示,流計(jì)算雖然強(qiáng)大,也存在技術(shù)短板。

“如果在系統(tǒng)內(nèi)存不足的情況下,還要滿足多個(gè)用戶的數(shù)據(jù)請(qǐng)求,那么每個(gè)用戶實(shí)際被分到的內(nèi)存就會(huì)很少。此時(shí),應(yīng)用流式處理技術(shù)后,由于內(nèi)存需求量增加,系統(tǒng)會(huì)把原來(lái)分給多個(gè)用戶的內(nèi)存資源,全部分給一個(gè)用戶。其他需要內(nèi)存的用戶,則會(huì)因?yàn)闆](méi)有內(nèi)存可用,被迫進(jìn)入等待狀態(tài),直到那個(gè)占有內(nèi)存資源用戶退出后,其他用戶才能使用內(nèi)存。”劉馳說(shuō),同時(shí),實(shí)時(shí)的計(jì)算環(huán)境會(huì)由于各種各樣的原因,比如網(wǎng)絡(luò)延時(shí)等,導(dǎo)致程序到達(dá)計(jì)算節(jié)點(diǎn)的順序出現(xiàn)變化。

“此外,流計(jì)算技術(shù)面對(duì)的是源源不斷涌入的數(shù)據(jù),而如果還像批處理那樣來(lái)計(jì)算數(shù)據(jù)的話,就可能會(huì)導(dǎo)致計(jì)算根本無(wú)法結(jié)束,或隨著時(shí)間的推移需要保存的數(shù)據(jù)越來(lái)越多,給內(nèi)存造成巨大壓力。”劉馳補(bǔ)充道,“數(shù)據(jù)不斷產(chǎn)生,就需要計(jì)算持續(xù)進(jìn)行。但計(jì)算時(shí)間一長(zhǎng),出問(wèn)題的概率就會(huì)大大增加。一旦出現(xiàn)問(wèn)題,一些在計(jì)算過(guò)程中緩存下來(lái)的數(shù)據(jù)該被怎么長(zhǎng)期保存、怎么恢復(fù)就會(huì)成為比較大的問(wèn)題。”(記者 崔 爽)

關(guān)鍵詞: 雙十一流量大考

凡本網(wǎng)注明“XXX(非中國(guó)微山網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注