作者:鄔賀銓 來源: 發布時間:2022-11-1 22:59:8
“東數西算”下算力發展的“數學題”與“算術題”

 


   當前,我國正在實施“東數西算”工程。在算力發展這個話題下,我談一些對數據中心“數學”與“算術”的思考。這里的“數學”是指數據的科學,“算術”指的是算力的技術。

 

要分開:以算為主還是以存為主

 

   從2012年到2019年,科技巨頭谷歌的算力需求6年間擴大了30萬倍,約每3個半月翻一番。它為什么會有這么高的計算需求?是人工智能(AI)驅動了算力的增長。

   以OpenAI于2020 年發布的AI語言分析模型GPT-3為例,它的參數規模有1750億個,有45TB數據,數學模型大小為700GB。微軟專門為OpenAI打造的超級計算機,擁有28.5萬個中央處理器(CPU)和1萬個圖形處理器(GPU),供OpenAI訓練所有的AI模型,一次訓練成本約為1300萬美元。可見,AI的建模對計算能力有很高的要求。

   目前,算力可以分為基礎算力(基于CPU芯片)、智能算力(基于GPU和NPU芯片)和超算算力(基于高性能計算機);贕PU/NPU/FPGA等構建的AI智算中心,更適于訓練數據和導出模型。訓練出數學模型后,后續利用模型計算輸入數據的AI決策結果,這并不需要太高的計算算力。所以,通常是用基于CPU的通用計算做已知數學模型下的計算任務,可以理解為智算中心的功能主要是“算”,數據中心的主要任務是“存”。

   中國信息通信研究院數據顯示,2021年全球算力分布為美國占31%、中國占27%,其次是日本、德國、英國等其他國家。其中,美國的基礎算力占全球35%、智能算力占15%、超算占30%,而中國這三類分別為27%、26%和20%。

   可以看出,美國以基礎算力為主,中國則是智能算力超過美國。中國的超算和智能算力中心是以政府為主,基礎算力以運營商和互聯網企業為主;美國則主要是互聯網企業為主。

   另外,中國三大電信運營商都做了云計算的能力和業務部署,全球其他運營商沒有此類布局,這與國外有所不同。

 

要關注:熱數據與冷數據

 

   從數據角度,大部分數據可以分為熱數據和冷數據。熱數據主要是一些需要實時計算的數據,相比之下冷數據不需要實時性。我國部署的八大算力樞紐,實際上西部主要是定位于處理冷數據和本地一些熱數據,而東部主要是處理熱數據。

   國際數據公司IDC提出,人類歷史上90%的數據都是過去幾年產生的,其中50%是過去兩年產生的。最近產生的數據是熱數據,但熱數據經過一段時間之后,也會“降溫”繼而變成冷數據。一項統計認為,冷、溫、熱三類數據分別占累計數據量的80%、15%和5%,這意味著冷數據是最多的、主要的。

   熱數據要求實時計算,但冷數據的需求主要是存儲;蛘哒f,對冷數據來講計算并不是常態,存儲才是。東西部的算力中心,分別更適合于處理熱數據和冷數據。從這個意義上來講,“東數西算”可以說是“東數西存”——主要是存,當然也有計算。

   在計算架構上,主要有兩種:存算分離和存內計算。

   存算分離架構是在控制單元指令下,從存儲器讀數據并交到CPU計算,得到的結果再送回存儲器。如此往復的I/O通信,對于熱數據的計算來說效率不高。

   但存算分離有個優點,即存儲單元不僅可以服務于單個計算單元,還可以同時服務多個服務器的計算,形成一個池化的存儲,這樣能夠支持多云計算,實現較高利用率和低成本、低能耗。而這恰好適用于冷數據,例如可以用云平臺建模,用邊緣計算訓練與仿真。

   不過,熱數據需快速計算,因而受限于存算分離I/O通信的瓶頸,且CPU能力受累于存儲器訪問速度而難以發揮,更需要存內計算。存內技術以隨機存取存儲器(RAM)替代硬盤,在RAM內完成所有運算,F在還有一些阻變存儲器和相變存儲器等新型非易失性存儲器,已經在實驗室中取得了突破,但大規模推廣成本還較高。還有介乎于存內計算和存算分離之間的模式,如近存計算。

   總體而言,存算分離適用于冷數據處理,存內計算適用于熱數據處理。舉個例子,自動駕駛的數據要在路邊甚至車內同時完成存與算。

   西部以處理冷數據為主,但也需要處理當地的熱數據。冷熱數據是否需要分別采用不同的存算架構?這也是值得研究的問題。

 

要厘清:PUE與IT能效

 

   現在數據中心都喜歡強調 PUE。PUE是數據中心能耗占IT系統能耗之比,反映了制冷系統的水平,但不能用來衡量IT系統的能效。

   衡量碳使用效率的指標是CUE,其能更直觀地反映數據中心的節碳水平。PUE與CUE在常規電力方面是等效的,但在使用綠電時,即使數據中心PUE很高,CUE也可以很低。因此,PUE低不代表不耗能,因為IT系統也是有能耗的。

   據統計,數據中心IT系統的能耗中,服務器約占50%,存儲系統約占35%,網絡通信設備約占15%。數據中心需要7×24小時工作,但連續工作并不是連續計算。一般來講,很多數據中心計算的時間占比不高,但是數據“睡覺”的時候也耗能——此時存儲系統能耗成為主體。所以麥卡錫報告稱,數據中心大部分電能是用于維持服務器的,服務器大部分時間僅用于存儲,只有6%~12%用來計算。所以,降低存儲的能耗非常重要。

   要降低能耗,首先考慮冷數據存儲,有人建議采用磁帶代替磁盤。據估計,如果100PB的數據存儲全部采用硬盤,10年的存儲成本要1641萬美元;而如果這些數據100%用磁帶來代替,存儲成本可下降73%。

   目前磁帶存儲正被越來越多的科技公司所接受和應用。比如,百度智能駕駛已全面開始使用磁帶存儲,對比之前的存儲系統,整體成本下降了85%。

   但對于熱數據,人們希望越快越好,就用閃存代替磁盤。它不但速度快,能效也好,但目前成本還比較高。

   還有一種改進能效的辦法是數據預處理。不是所有數據都是有用的,我們需要去掉一些無效值,如空格、有缺失的數據、過期數據等。另外,可以通過數據壓縮算法把數據優化,還有合理安排數據存儲的位置和調度,以比較精確地找出數據所存的位置,這樣也可以減少能耗。

 

對“東數西算”的思考

 

   “東數西算”使得算力設施的布局超越了數據中心樞紐的范疇,雖然設想東部與西部互為冷熱數據的配對,但東西部間應如何配比?

   我注意到廣東省關于數據中心的規劃:設計省內算力占70%,省外算力占30%,這與冷數據占比80%的客觀情況有出入。按理說,省外多數是冷數據,冷數據占80%,但省外算力只有30%,這顯然不能滿足需要;蛘,是不是可以理解為,80%的冷數據是指存儲容量,而不是算力的比例?所以這是個問題。

   另外,在市場經濟條件下,東西部的存算比例理應“配對”。但是,誰去管它們之間的存算匹配?如果任由各自獨立設計,怎么能做到最佳利用容量?這里也存在問題。因此,在“東數西算”推進過程中,需要進一步加強東西部算力樞紐、數據中心的協同。

   同時,同一數據中心樞紐或集群內部也有很多比例需要優化。數據中心樞紐內有多個數據中心,每個數據中心內部又有多個業主:有騰訊建的、阿里建的;有電信建的,也有聯通、移動建的。各建各的、各種各樣,基本沒有協商。那么,怎么協調它們的能源、土地、電力等的供應?怎么建立共享機制以實現樞紐內各數據中心所需的能源與網絡資源集約化,從而提升利用率?目前還沒有這種機制。為此,需要協調“東數西算”跨域數據中心能力,避免存算資源不匹配。總之,“東數西算”還需要“懂數細算”。

   此外,每一個數據中心還需要設定計算力、存力和網絡能力的合理比例以及相應的災備比例。這是與冷熱數據、大小文件數據有關聯的,不能“一刀切”。

   從長遠來看,數據中心越大型能效就越好,但也忌一步到位:一般而言,CPU的能力一年半就要換代,若超前建設,實際上是浪費的。咨詢公司Gartner認為,到2025年,75%的數據要在邊緣處理,只有25%的數據會送到云計算中心或數據樞紐上。如何協同邊緣與中心云的算力比例?這也是需要認真研究的命題。所以,關于數據中心的“數學”和“算術”,還有很多需要深入研究的內容,算力對我們來講還是一個比較新的東西,要善于從實踐中學習創新!

(作者系中國工程院院士,記者趙廣立根據其在2022中國算力大會上的發言整理)

 

 

《科學新聞》 (科學新聞2022年10月刊 封面)
發E-mail給:      
| 打印 | 評論 |
99久久精品国产精品久久