如何扛住流量“洪峰”,是每年“雙十一”的技術大考。隨著流量的飆升,這一大考無疑變得越來越難。
“雙十一”剛過,各大電商紛紛公布當日戰(zhàn)績。從目前公布的數(shù)據(jù)不難看出,今年“雙十一”的訂單創(chuàng)建量峰值創(chuàng)下新高,單日數(shù)據(jù)處理量紀錄也再次被刷新。
“雙十一”的數(shù)據(jù)量不僅大,還會實時變化??梢哉f,每個購物數(shù)據(jù)都是個性化的、動態(tài)的,完成處理它們的工作,需要有強大的計算能力作為支撐。
“今年的數(shù)據(jù)處理工作,除了批處理(對數(shù)據(jù)進行批量處理)外,還有流處理,就是實時處理數(shù)據(jù)。龐大的交易數(shù)據(jù)每分鐘、每秒鐘都在變,它們并不是從數(shù)據(jù)庫里面統(tǒng)計出來的,而是系統(tǒng)自動一層層把它們匯集上來的。”阿里巴巴集團首席技術官張建鋒表示。他口中的“流處理”就是流計算,即實時計算。對于扛住“雙十一”流量“洪峰”,它功不可沒。
那么,什么是流計算?它是如何抗住“雙十一”流量“洪峰”的?對此,科技日報記者采訪了業(yè)內(nèi)專家。
以內(nèi)存取代硬盤實現(xiàn)快速處理
北京理工大學計算機學院副院長、教授劉馳在接受科技日報記者采訪時解釋道,流計算指當一條數(shù)據(jù)被處理完后,立刻被序列化到內(nèi)存中,然后通過網(wǎng)絡傳輸?shù)较乱粋€節(jié)點,由下一個節(jié)點繼續(xù)處理。“這種流式處理技術,是以內(nèi)存取代硬盤的方式來實現(xiàn)數(shù)據(jù)快速處理,這是流計算之所以能夠高效處理數(shù)據(jù)的根本原因。”他表示。
據(jù)劉馳介紹,流計算具有高性能、海量式、實時性、分布式、易用性、可靠性等多項優(yōu)勢,主要的應用方向有,對金融與科學計算中的數(shù)據(jù)進行快速運算和分析;對存在于社交網(wǎng)站、電子郵件、視頻、電話記錄、電子感應器中的數(shù)字格式信息流進行快速處理并反饋等。
“流式處理可被用于兩種不同的計算場景:事件流和持續(xù)計算。”劉馳介紹道,在事件流場景,系統(tǒng)會持續(xù)產(chǎn)生大量的數(shù)據(jù),這類數(shù)據(jù)最早出現(xiàn)在銀行和股票交易領域,也會在互聯(lián)網(wǎng)監(jiān)控、無線通信等領域出現(xiàn)。這些領域的相關業(yè)務,需要流計算技術以近乎實時的方式對數(shù)據(jù)流進行復雜分析。
“而在持續(xù)計算場景,比如大型網(wǎng)站,流計算技術可以動態(tài)實時地刷新用戶訪問數(shù)據(jù),展示網(wǎng)站實時流量的變化情況,分析每天各小時的流量和用戶分布情況。一些需要實時處理數(shù)據(jù)的場景也能應用到流計算技術,比如對根據(jù)用戶行為產(chǎn)生的日志文件進行實時分析,對用戶進行商品的實時推薦等。”劉馳介紹道。
實時采集、實時計算、實時查詢
劉馳向記者介紹道,流計算的處理流程一般包含三個階段:數(shù)據(jù)實時采集、數(shù)據(jù)實時計算和實時查詢服務。
首先,后臺工作人員會用實時數(shù)據(jù)集成工具,將數(shù)據(jù)實時傳輸?shù)搅魇綌?shù)據(jù)存儲系統(tǒng)。具體過程是,系統(tǒng)將長時間累積的大量數(shù)據(jù),平攤到每個計算時間節(jié)點,數(shù)據(jù)會被不停地進行小批量實時傳輸。此時,數(shù)據(jù)將會被源源不斷地寫入流數(shù)據(jù)存儲系統(tǒng),不需要預先加載的過程。同時,在此過程中,數(shù)據(jù)是持續(xù)流動的,在計算完成后就會被立刻丟棄。
然后,不同于批量計算等待數(shù)據(jù)集成全部完成后才啟動計算作業(yè),流式計算作業(yè)是一種常駐計算服務,一旦啟動將一直處于等待事件觸發(fā)的狀態(tài),即一有小批量數(shù)據(jù)進入流式數(shù)據(jù)存儲系統(tǒng),流計算系統(tǒng)就會立刻計算并得出結果。“同時,部分電商平臺的流計算團隊,還使用了增量計算模型,將大批量數(shù)據(jù)分批進行增量計算,進一步減少單次運算規(guī)模并有效降低整體運算時延。”劉馳說。
最后,采用數(shù)據(jù)批處理方式,通常需要等待數(shù)據(jù)計算結果得出后,才能批量將數(shù)據(jù)傳輸?shù)皆诰€系統(tǒng)。而流式處理方式可在每次小批量數(shù)據(jù)計算工作完成后,就立刻將計算結果寫入在線系統(tǒng)。“這樣無需等待全部數(shù)據(jù)計算工作完成,我們就可在流計算數(shù)據(jù)查詢系統(tǒng)中,查詢到在線系統(tǒng)的數(shù)據(jù)處理結果。技術人員也可將實時結果發(fā)送給可視化系統(tǒng),以實現(xiàn)計算結果的實時化展示。”劉馳說。
技術雖強大但仍存在短板
不過,劉馳表示,流計算雖然強大,也存在技術短板。
“如果在系統(tǒng)內(nèi)存不足的情況下,還要滿足多個用戶的數(shù)據(jù)請求,那么每個用戶實際被分到的內(nèi)存就會很少。此時,應用流式處理技術后,由于內(nèi)存需求量增加,系統(tǒng)會把原來分給多個用戶的內(nèi)存資源,全部分給一個用戶。其他需要內(nèi)存的用戶,則會因為沒有內(nèi)存可用,被迫進入等待狀態(tài),直到那個占有內(nèi)存資源用戶退出后,其他用戶才能使用內(nèi)存。”劉馳說,同時,實時的計算環(huán)境會由于各種各樣的原因,比如網(wǎng)絡延時等,導致程序到達計算節(jié)點的順序出現(xiàn)變化。
“此外,流計算技術面對的是源源不斷涌入的數(shù)據(jù),而如果還像批處理那樣來計算數(shù)據(jù)的話,就可能會導致計算根本無法結束,或隨著時間的推移需要保存的數(shù)據(jù)越來越多,給內(nèi)存造成巨大壓力。”劉馳補充道,“數(shù)據(jù)不斷產(chǎn)生,就需要計算持續(xù)進行。但計算時間一長,出問題的概率就會大大增加。一旦出現(xiàn)問題,一些在計算過程中緩存下來的數(shù)據(jù)該被怎么長期保存、怎么恢復就會成為比較大的問題。”(記者 崔 爽)
關鍵詞: 雙十一流量大考
凡本網(wǎng)注明“XXX(非中國微山網(wǎng))提供”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和其真實性負責。
大眾網(wǎng)·海報新聞記者張穩(wěn)呂樂田陽孫震泰安報道時值深秋,泰安市邱家店鎮(zhèn)姚家坡村迎來了一年中最忙碌的時節(jié)——作為全國最大的“秋褲村”,每
2022-10-29 18:34
在中國,每12秒有1人發(fā)生卒中,每21秒有1人死于卒中,腦血管病已成為中國居民第一位的死亡原因,早期預防顯得尤為重要。每年10月29日是“世界
2022-10-29 18:39
10月28日上午,全國首個航運企業(yè)集成化審批服務平臺在青島自貿(mào)片區(qū)啟動。該平臺運用數(shù)據(jù)中臺、AI人工智能、電子簽名等技術,將涉及水路運輸、
2022-10-29 18:37
海報評論員朱延魯10月28日,山東公布了2022年前三季度全省經(jīng)濟運行數(shù)據(jù)。根據(jù)地區(qū)生產(chǎn)總值統(tǒng)一核算結果,前三季度,全省生產(chǎn)總值為64409億元,
2022-10-29 18:31
作為正規(guī)醫(yī)院,南昌豐益肛腸醫(yī)院在改善就醫(yī)環(huán)境、降低就醫(yī)費用、優(yōu)化就醫(yī)流程方面下功夫;實行的無假日醫(yī)院制度,為上班族看病提供便利;通過
2022-10-29 17:53
10月28日,山東發(fā)布了前三季度的全省經(jīng)濟運行情況。前三季度全省生產(chǎn)總值64409億元,同比增長4 0%。跑贏3 0%的全國大盤,經(jīng)濟大省山東交出了一
2022-10-29 15:41
大眾網(wǎng)·海報新聞記者解強民通訊員姜雁群濟南報道10月28日,濟南軌道交通3號線二期設備工程開工活動在稻香站舉行,標志著濟南軌道交通3號線二
2022-10-29 15:32
大眾網(wǎng)·海報新聞記者梁雯濟南報道11月9日至10日,2022全國中小企業(yè)數(shù)字化轉型大會將于山東國際會展中心舉行。本次大會主題為“創(chuàng)新引領發(fā)展數(shù)
2022-10-29 15:36
大眾網(wǎng)·海報新聞記者孫杰濟南報道10月28日,由中國聯(lián)合國協(xié)會主辦、外交部國際司支持、山東大學承辦的第十八屆中國模擬聯(lián)合國大會開幕。此次
2022-10-29 15:42
測評每天護膚一小步變美就更進一步啦,因為對于好肌膚,我們不管是化妝還是素顏都會顯得好看,今天想和大家分享一下本人親自測評護膚品--鄭
2022-10-29 14:12