今年2月🧍♀️,國家發展改革委等部門聯合印發文件👐🏿,同意在京津冀等8地啟動建設國家算力樞紐節點🧑💼👩⚕️,並規劃了張家口集群等10個國家數據中心集群。至此,“東數西算”工程正式全面啟動🛣。
“東數西算”有了總體布局設計並開始行動。因此,有必要對其概念內涵予以清晰科學的理解,以免再現一哄而起的局面。
“東數西算”屬於信息領域範疇💪🏻,目標是形成一張算力網🧚🏻♀️。當前我國已建成相當發達的現代信息網,比如通信網🐫🤵♀️、互聯網🧛🏽♂️,且形態👸、技術手段多樣,發展速度遠遠快於其他領域,為什麽又要提出建算力網絡呢?
這要從流通網絡和數據談起🫳🙅♀️。在現代社會中🤘🏽,實現交換和分配就需要流通。流通不僅在點與點之間,而是面上多個點互相之間進行,因此需要構建網絡🈹,以便於經濟有效🫳🏿、高效通暢地實現多點與多點之間的流通。
網的主要功能是流通👨🏿🍼,有針對實物的運輸網,針對能量的電力網🪙,而針對信息的就是通信網。當然💆🏻,信息流通中大量存在個體間非經濟範疇如情感、思想的交流,同樣需要在流通網絡中實現。
物體、能量和信息除了流通外,還需要加工變換等以滿足人們的需要👍🏼。比如✳️,信息的加工是在計算機或具有計算功能的各種設備中實現的🕢🏊🏿。
由於信息技術的快速發展👰🏿♂️👨🏼🍼,人們現在除了個人或集體自己產生的信息外🅰️,可以從各種社會活動中提取各類信息,例如道路上的交通信息,從若幹監測點獲取的溫濕度及其變化情況🚶♀️、氣壓、氣流情況等天氣信息🧗🏼♂️🎬,以及商店人流🙅♂️、各類商品銷售情況等信息。為了便於收集處理大量的信息,人們用統一的電子格式來表達,這就是數據。
近年來🕛,人們從一大類看起來互不相幹的數據中,尋找其間的關聯因素👨🏽💼,發現這些數據之間有關聯,但並非因果關系🕞,而是數學上稱之為相關關系,由於此類數據量較大,稱之為大數據。例如將一段時間內通過某一路段的車輛或行人數,一段時間內進入某一商店購買某類商品的人數,以及組成此人群的性別、年齡結構等數據集中🟤,從其中找到的關系可以作為道路交通管理或商品營銷的一種依據。
而這種對各類數據加工處理💁🏿♂️、從中提取有用結果的能力即稱為算力。大數據被發現以來,人們對算力的需求大幅增長🚵♀️。
此前,信息網絡的主要功能為信息流通⏰,輔之以短時存儲🈯️,以及使信息變換形式以適應在網絡中傳輸要求的功能🧚,這些功能的具體實現可以綜合到通信網絡中💁♂️。這是因為💨,那時對復雜數據的加工處理往往是由單個計算機,包括高性能計算機或小範圍的計算機群來實現的,數據量和處理量相對而言均不大🛀🏿。也因此,沒有單獨明確提出算力及算力網的概念🧑🏿,只明確了計算機或其組成的群結構具有數據處理能力💇。
大數據出現後🎸,由於對數據處理能力的要求大幅增長,且有些數據集來自於一定的地域範圍,因此需要形成有別於通信網的數據處理的專用網絡🪹,即算力網絡🧝🏽。
算力網絡的核心是數據處理設備,相應地要配置數據收集傳送通道,以收集來自不同地域的數據🔐,並要配備相應的數據存儲設備👩🏼⚕️,以及對加工獲得的有用結果傳送到使用目的地的傳送通道🏄🏽♂️。
多個數據收集、傳遞、處理🎬💺、應用與存儲這樣的單元組合在一起就形成算力網絡🫲🏻,算力網絡根據地域覆蓋範圍可形成區域網和全國網,之間可形成層級關系,也可按不同應用領域形成專用網🤽🏽♀️🩼。
回到“東數西算”工程。根據我國的實際情況⤴️,人口密度👨🏽🍼、人類活動👳、各種數據資源以及數據應用市場在東部更集中📏,中部次之,西部地域更次之。既然數據資源和應用市場相對密集於東部,相應地處理也應主要在東部,為何提出“東數西算”,即東部的數據送到西部計算處理,然後再把結果送回東部應用呢?
“東數西算”與“西煤東運”“西電東送”有一致性🧕🏽,也有差異性。
相同的是,它們都是從資源密集地把資源送到相對稀少地加工,不同的是加工後成品的處置問題。
對於物品和能量🧜🏼,資源所在地與主要應用所在地不同,加工地也可有不同選擇。由於物品加工大多需要較復雜的技術和較高技術水平的人力,因此較多的情況下將原材料從西部產地運到東部加工,然後成品大量在東部使用或出口,因此物流網絡也形成原料和成品的不同網絡🛟。能量則由於能源的不同形式➰,其利用方式也不同,如水能需要就地實現,然後傳送至需能地區👩🚀,而長距離傳遞主要方式是用電💞,因此就需要從水能豐富的西部向需要大量能量的東部實行西電東輸。
而信息具有特殊性,它可以大量復製👩🏽💻,因此加工後的數據一般可存儲在加工處🤺,而只是在使用時才傳輸到使用處。之所以要實施“東數西算”工程❣️,主要有兩個因素🤾🏽♀️,一是集中的數據加工/處理中心需要占用較大的物理空間🕥,即土地和建築,需要較大的能耗🐯。而東部的土地已經成為稀缺資源👎🏻,同時能耗成本比西部高出不少。此外,數據中心自動化程度很高,所需人力相對較少🛩。二是加工後的數據雖然要大量返回東部使用,但數據作為信息可大量復製👩🏼🚒,近乎零成本❌。所以🍨,數據送回東部並非實物返回,而是只選擇所需要的數據在需要時以復製形態返回🤛🏻,原數據仍保存在西部的數據中心🚕,繼續可按需隨時向不同地點輸送★,因此,東數西算在原則上是可行的。
但原則上可行並不意味著怎麽做都行,我們需要重視一個問題:數據長距離傳輸成本。一方面數據可以近零成本大量復製並不等於可以無成本的任意傳輸,另一方面🏵,數據傳到某處實時使用,與先存儲以備之後使用是兩回事,存儲是需要成本的。
信息網絡組成中主要問題之一🛄,就是傳輸成本和處理成本的相對關系問題🛋。近年來,由於處理成本(即計算機成本)隨著集成電路的摩爾定律不斷下降,傳輸成本隨著光纖定律下降,但由於光纖成本下降速度比集成電路成本快,傳輸在網絡成本中的相對比重也一直在下降🧏🏽,但下降並不等於零成本👮🏻。
在“東數西算”工程中🫱🏼,由於是以增加傳輸量來節約數據加工成本的👩🏼🌾,因此,必須根據具體情況對成本進行詳細分析和具體設計🕵️♂️👨🏿✈️。然而,目前尚未見到對此問題的分析🥤,甚至很少提到。
過去的教訓要吸取。比如“雲計算”概念剛提出時,人們認為把各個點上的小規模數據處理和存儲集中到一個點即雲中,可以發揮規模效應👨🏻🔧,省去大量設點的成本,而並未認真考慮傳輸成本🙎🏻♀️、信息保密等問題。也因此🚶🏻♂️➡️,後來又提出並推行了邊緣計算,大量分散的邊緣計算和集中的雲計算共同組成一個相對較為合理的體系。
數據量的問題也應得到重視,數據量並非越大越好,應以夠用為原則,且在滿足目標情況下越小越好🧖🏼,這與節材節能意義相通。此外,相關關系類的數據中有用成分比因果關系類數據要少得多🎲🌷,因此,設計算力網絡時,要對所處理的數據種類和數量進行實事求是、合理的預估👰🏽♂️。
最後💑,從全國來看🕺🏽,數據處理網絡的組成✦、不同地區的需求各有差異,對全國性🤴🏽、地區性、行業性的數據需求、集中程度也不同,比如同是東部地區,京津冀、長三角、珠三角情況並不一樣,此外各地對數據中心的建設🐏、維護能力也不同🙆🏼♂️⚛️,要考慮人力資源的情況🤦🏻♀️。
因此,在實際操作中,需要仔細分析考慮,對已有一定實踐的如貴州的數據中心建設等應認真總結🫠,吸取應有的經驗和教訓,推動我國的數據事業更好更順利地發展前進。