如何推進高校算力服務建設?我們邀請了清華大學高性能計算研究所高級工程師張武生、北京大學高性能計算平臺主任工程師樊春、浙江大學信息技術中心總工程師張紫徽、華中農業大學作物遺傳改良全國重點實驗室生物信息高性能計算平臺工程師劉浩、賽爾網絡有限公司副總經理蔡哲對高校算力難點挑戰、建設模式、隊伍建設、未來發展等話題進行了深入探討。
01
難點與挑戰
張紫徽
算力“新基建”面臨多重挑戰
算力平臺作為“數字新基建”,在高校發揮著越來越大的作用。GhatGPT等人工智能應用的爆發,也對算力提出了更高的要求和期待。算力在高校已經不是可有可無的存在,而是學校教學、科研、管理的重要基礎。高校算力服務建設面臨不少挑戰:
第一,算力基礎設施建設還遠遠不夠。比如機房建設,機房往往需要很長的建設周期,很多高校在建設時依據的標準并不像專業機房那么高,所以后期的運維管理就會存在很多限制,而學校對基礎設施的持續投入比較保守。
第二,算力服務人才隊伍面臨挑戰。高校從事算力服務的人員在專業建設上的引領能力普遍偏弱,很多情況下都只是在做基礎的運維工作。而運維服務、安全服務、容量規劃,以及冗余、容災等相關工作,已經遠遠超過了高校算力隊伍的能力范圍,在團隊規模和技術上與企業相比都存在一定差距。
第三,算力服務在應對新需求方面能力不足。很多情況下,面對院系教師提出的新科研場景需求,超算中心現有的能力往往難以應對,比較被動。
第四,高校對算力服務本身的認識有待提升。無論從資金、人員投入還是學校重視程度上看,都存在不少欠缺。
張武生
規模越大挑戰越多
高校的科研和教學對算力的需求一直在逐年增加。有幾種因素促進了算力服務設施的建設:
第一,人才培養和引進力度加大,高校在優勢專業培育和開拓方面不斷進展,留在或流入教學科研領域的高水平人員越來越多,這使得算力設施的建設有了需求基礎;
第二,國家和地方政府的持續支持,其中國家層面對教學科研儀器的引入和研發支持力度一直都很大,地方政府也會為高校的計算設施建設提供支持;
第三,算力設施在學校設備管理中一般歸結為大型科研儀器,儀器建設的投入與高校教學科研水平提升顯然是正相關的;此外就是社會需求,大數據和統計學習在產業領域的應用得到回報,反過來影響人才培養和科研課題的設立,也推動了高校算力平臺的建設。
但與此同時,高校算力平臺建設也面臨不少挑戰。從平臺硬件投入來看,高校算力平臺從傳統的同構型CPU平臺轉向了異構型的CPU和加速計算混合平臺。平臺的規模越來越大,絕對能耗隨著硬件升級逐年增高,系統架構愈加復雜,應用軟件越來越豐富、版本迭代更加頻繁。計算平臺價值高、生命周期短、能耗大,如何確保每一臺設備投入都能在學科建設中發揮最大效用,如何客觀評估平臺的使用效益、解決應用運行中產生的各種瓶頸等,都是高校建設算力平臺面臨的挑戰。
劉浩
算力無法滿足數據增長需求
對華中農業大學作物遺傳改良全國重點實驗室來說,算力平臺主要的作用是服務于科研任務。計算平臺助力實驗室完成生物學研究的重要手段基因組測序,并對測序的數據進行存儲分析。
我們需要非常大的存儲和計算來分析些數據,因此,算力增長跟不上數據的增長,是實驗室算力平臺面臨的難題?;蚪M測序的成本下降速度往往比IT領域硬件的摩爾定律還要快很多,導致我們的算力硬件投入往往跟不上數據產出。尤其是近幾年,數據由10年前的幾百T,擴展到十幾PB,相應的計算能力雖然在同步增長,但遠遠跟不上數據產出的速度。
除了對存儲容量要求大,存儲性能也非常重要,否則算力服務的效率就會下降很多。平臺在購買硬件設備時要格外重視存儲性能,才能更好地為用戶服務。
樊春
創新的土壤“浪費”是必要的
從高性能計算的發展趨勢來看,高校算力平臺建設面臨著以下挑戰:
一是算力大眾化(HPC/AI for Everyone)帶來使用挑戰。當前,算力正變得越來越廉價,越來越多的用戶開始使用算力。這表明算力走向大眾化,大量傳統學科紛紛開始在研究中使用算力。以北京大學為例,很多文科生也開始使用高性能計算平臺。在此情況下,傳統的HPC軟件接入就顯得過于復雜,使用門檻過高,需要一種更簡單便捷的HPC算力使用方式。
在這方面,北京大學自主研制的開源算力中心門戶和管理平臺SCOW(Super Computing On Web)通過簡化集群軟件部署流程、統一平臺管理模式、提供圖形化操作界面、降低用戶使用門檻,實現算力中心資源易管理、易使用的目標,提高算力資源使用效率。
二是算力資源使用不均衡。我們看到,近一兩年來,國內高校迎來超算項目建設的浪潮。當高校開始紛紛建設算力平臺,就會出現算力資源使用不均衡的問題,有的學校算力不足,有的卻使用不飽和,這就需要“削峰填谷”,實現算力資源利用效率最大化。
三是面臨“雙碳”目標的挑戰。實現碳達峰和碳中和,實現綠色發展,是中國對國際社會作出的莊嚴承諾。而算力設備能源消耗巨大,在實現“雙碳”目標時面臨諸多挑戰。面對該挑戰,如果在能夠產生綠色電能的地方建立數據中心,是一個最合理的方向,通過光纖直達等技術“消除”數據中心和用戶之間的距離。但在這一點上,我們還面臨著決策和決心不足的問題。
四是算力融合的挑戰。當前,各地紛紛建立超算中心、智算中心,但在很多情況下,這些超算和智算中心是分別建立的。而當前有很多科研項目既需要超算算力,又需要智算算力,從應用的需求上看就需要將這兩種算力融合。這就要求我們進一步研究相關技術,保證超算中心和智算中心更好地融合成為計算中心(算力中心),達到1+1>2的效果。
五是技術更新的挑戰。RoCE(RDMA over Converged Ethernet,基于以太網的RDMA技術;RDMA,遠程直接數據存?。┚W絡替代傳統的IB(InfiniBand,無限帶寬)是一種趨勢。但其推廣可能存在一定困難,因為人們往往習慣舊有的方式而不愿意改變。
六是打造創新土壤面臨挑戰。創新的土壤,“浪費”是必要的。在日前舉辦的ChatGPT研討會上,中國工程院院士趙沁平指出:“ChatGPT的出現和火爆使我們再次看到美國科技企業作為國家技術創新主體所具有的強大創新能力。創新型科技文化是創新型國家的靈魂因素。
基礎研究和科技創新是不能追求效率的,而我們對基礎研究采用的評價基本還是以效率為重的工程性評價方法?!边@給我們帶來的啟示是,在做研究時,科研人員需要充足的資源、良好的國際交流環境,能夠自由探索,并得到方向性的指引。這些都是算力發展的過程中需要突破的困境。
02
建設模式探索
劉浩
自建模式有效保障數據安全
對于華中農業大學來說,經過對比和權衡,我們覺得自建算力平臺、自己管理/運營平臺的模式對學校來說更合適。主要基于兩方面的考量。
一是成本問題。對老師們來說,使用實驗室自建的平臺,收費大概只有外部商業服務的10%~20%。二是安全問題。我們實驗室的數據量非常大,使用自建平臺,可以有效保障數據傳輸和數據安全。
張武生
科研和服務相結合
清華大學的科研計算平臺是校內惠及學科門類最多、支撐用戶最廣的科研平臺之一。計算平臺由實驗室與設備處指導建設和運行,計算機科學與技術系負責技術保障,按照大型儀器進行管理,其建設得到了學校持續支持。
與大多數大型科研儀器的管理類似,采取科研和服務相結合的建設運行模式,一方面是與各研究課題組合作,開展應用研究,同時也依托和支撐高性能計算和系統結構學科的研究。
來自應用領域的算法問題往往是高性能計算的研究熱點,反過來高性能計算所開發的移植、優化、并行化技術又可促進各學科領域應用軟件性能和效率的提升。我們與材料、地學、生命科學等學科深入合作,共同開發并行算法和軟件,同時也承擔高性能計算和系統結構方面研究課題。
樊春
推動算力市場發展
高校算力服務大概有以下幾種模式,一種是自建算力平臺,一種是使用云平臺算力,一種是使用超算專業服務公司提供的計算服務。
另外還有一種模式是算力市場。當前的算力市場是把應用作為一個市場,其算力組成還是算力服務商自建的算力。未來,算力服務商本身也應該市場化,也就是不僅在算力服務商平臺上有多種軟件的市場化,還有一個平臺能夠容納各種算力服務商來提供算力服務。這種形式是目前市面上比較缺乏的。我們在建設算力網絡時,可以在這方面做一些突破性的研究。
張紫徽
建設眾籌式混合云
高校超算的運營模式跟學校的規模、算力發展的階段息息相關。第一種是自建模式,能夠滿足學校的一些教學科研和治理服務基本需求。第二種是混合模式,有自建平臺,也有和企業合作的公有云平臺,其中自有機房可以承載核心應用和私密應用,其他應用則可以用云平臺實現。
除了基本的算力需求,還可以滿足突發的場景和需求變化。第三種模式,與學校其他部門的資源大戶合作,用信息中心的操作系統去調度其超算設備。實際上,第三種模式需要學校規模足夠大,對機房規模、電力的要求很高,建設周期也特別長,實現起來有一定難度。
以浙大為例,浙大算力平臺的建設分為三個階段。第一階段,自建算力服務,專有云平臺;第二階段,將專有云和公有云打通,形成混合模式;第三階段,學校信息技術中心與CAD&CG國家重點實驗室聯合打造了“浙大云—圖形計算平臺”。平臺作為校內首個眾籌式混合云,具有更完善、可擴展和更節省的特點以及低成本、靈活性和超高集成優勢。
未來,我們希望可以將此眾籌式模式從“1+1”拓展到“1+N”,進一步服務校內師生日益增長的科研需求。更進一步,可以將學校之間的算力平臺連接起來,形成眾籌的生態圈。學校之間的算力“眾籌”有很多好處,規模小的學校其算力資源可能用不掉,而規模大的學校,算力又可能遠遠不夠,將不同學校的算力打通,可以更好地統籌利用算力資源。
當然,除了算力合作,未來我們希望能更進一步做跨校間的科研合作,打造科研協作的大平臺。比如國際大科學計劃(DDE計劃),就是國內外眾多高校和學者共同參與的項目??梢灶A見,未來這種跨越千山萬水,由不同國家/地區、不同學校的學者共同參與的、基于算力協同的大科研方式,能夠讓人們合作參與大規??蒲?,隨時匯集科研成果,了解科研進度。這就是算力驅動科研范式變革的典范。
蔡哲
發揮教科專網作用助力教學科研
強大的超算能力可以更好地支撐科研成果的產出。我國高校非常重視算力建設,整體需求旺盛,亟需高質量的算力服務。對于研究型大學而言尤為明顯。但總體來看,目前我國大多數高校的算力建設僅集中在學科、學院或項目層面,擁有校級算力平臺的高校還是少數,對于算力資源的整合能力有待提升。
站在企業的角度看,高校算力服務大概分為兩類,一類是智能AI算力GPU,還有一類是超算CPU,兩者特性不同,能夠完成的任務也不同。學校會根據需求不同,選擇不同的算力服務。
賽爾目前正在致力于算力建設服務,在服務高校算力方面的最終服務目標是發揮教科專網作用,助力教學科研。
以階段劃分來看,整體建設規劃為“三步走”:
第一階段,為學校提供算力設備及安裝調試,這也是賽爾正在做的工作;
第二階段,規劃是要推進算力調優服務和算力資源引進,包括引進CPU、GPU的原廠資源,賽爾是AMD在中國教育行業的獨家合作伙伴,還在申請英偉達NPN的服務資質,并也在與英特爾逐漸建立聯系,這一階段整體是通過對廠商芯片的調優來服務學校的算力;
第三階段,未來要發揮教科專網作用,建立教育科研行業的算力專網以及資源平臺,做到算網融合,為學校提供算力異地同步,在學校突發算力需求時,能夠通過算力專網引入外部資源。
03
人才團隊建設
樊春
團隊建設受限于制度和管理
當超算平臺所屬單位為信息中心/網絡中心時,其人員往往是計算機相關專業出身,具備較強的IT背景,但對于數學、物理、能源、力學、材料等應用背景卻很難介入。而當超算平臺所屬單位為應用院系時,其人員具備比較好的專業應用背景,但計算機素養卻有所不足。
但人才隊伍建設是一個比較復雜的問題,面臨著制度、管理等諸多方面的限制。比如在招聘員工時,人事部門對人才的學歷和專業都會有詳細要求,這就可能把合適的人才拒之門外;此外,與互聯網公司相比,高校的待遇普遍偏低,網絡中心與院系相比又很難給出相應的編制,導致很難招到高水平的人才。這些都是人才隊伍建設中面臨的具體困難。
在現實中,因為軟硬件技術發展得很快,一些新的軟件能夠一定程度上減少集群管理工作的壓力。另外,如果能把高性能計算集群云化部署,或采用購買服務的方式,也能減緩人才隊伍缺失的壓力。
張紫徽
打通人才隊伍鏈條
高校超算人才隊伍,需要各個類型的人才。
一是專家團隊。在超算平臺建設初期,由顧問型的專家團隊來指導如何建設機房、配置設備、分配電力、容災設計、消防安全管理,等等。
二是運維團隊。在超算平臺建成后,日常運維工作可以采用與企業合作的方式,將相關職能外包給企業。
三是科研服務團隊??蒲蟹請F隊應了解教師用戶的具體需求,做好溝通,在算力配置、經費管理、軟硬件選擇等方面提供優質的解決方案。
四是學科人才團隊。學科人才應該充分了解學科,讓不同學科的老師們形成學科交叉、科研交叉,打造學科融合的大項目。
五是宣傳隊伍。宣傳隊伍能夠將學校算力建設的實踐經驗總結提煉,形成案例,再向更多的老師們推薦。
由此,各個人才隊伍將學校超算平臺從開始建設,到日常運維,到未來推廣的整個鏈條打通,形成環路,自然會有更多的教師用戶選擇使用平臺。
劉浩
重視專業背景和開發能力
高校超算團隊的建設,有以下幾方面值得考量。
第一,除了計算機之外,需要對行業領域比較熟悉的人才。比如我們實驗室,需要由基因組測序相關專業背景的人來協助管理和運營,在跟用戶溝通時就會比較順暢。為了打造有專業背景的人才隊伍,建議學校超算中心多跟相關學院或專業合作,打造相關的項目或比賽,在這個過程中發現人才、留住人才。
第二,高校超算中心對應用的開發能力還比較欠缺,往往只能提供基礎的算力資源和服務,對用戶應用的開發和優化還有很多不足,因此,具備開發能力的人才也是高校超算中心所急需的。
第三,無論是資源、技術、還是管理方面,各高校都有自己的特色和可借鑒的經驗,高校超算平臺之間應該加強各方面的交流,取長補短。交流體現在很多方面,其中在人才培養上,超算中心很多時候依賴傳統的傳幫帶,缺乏專業的交流培訓機制,這一點有很多加強空間。另外,面對人才編制等方面的限制和要求,高??梢赞D變觀念,與科研單位、企業更多地合作交流,把部分管理、運營的工作交給專業的公司去做。
04
未來發展思路
張武生
東數西算為高校打開新思路
人們常說超算是國之重器,計算平臺對高校來說也是重要的大型科研設備。從外部條件來說,高校建設算力平臺普遍面臨能耗、空間等條件限制。就內部機制而言,還是要讓建好的平臺充分發揮效用。在硬件建設過程中,應結合學校的學科特點充分論證,先落實具體的用戶和應用特征,再結合計算設備的硬件結構妥善規劃,淡化對硬指標的追求,強化應用成果方面的評價,確保以應用成果為導向實現投資效益最大化。
東數西算政策、算力網絡技術為計算平臺建設提供了一個新的思路。國外高校也有這種建設模式,比如波士頓大學、哈佛大學、MIT、東北大學、馬薩諸塞系統大學等幾所高校聯合在Holyoke這個地方建設了一個以消耗清潔能源為主的馬薩諸塞綠色高性能計算中心(MGHPCC),目前已具備服務兩萬多師生及研究人員的科研計算需求的能力。
國內高校,也可考慮借助國家東數西算政策探索類似的平臺建設思路,國家的信息基礎設施已經提供了相當好的條件,高校平臺參與東數西算在技術上沒有難度,可能需要一些具體的頂層政策設計。
算力網絡的內涵不僅限于科研計算平臺的互聯互通,應該是可以作為促進實體產業發展的更高水平的基礎設施。特別是隨著大數據和統計學習技術與產業深度融合,一場生產力平臺的變革正在發生。
算力網絡的基礎是網絡,核心是應用,推動高校算力服務和算力網絡建設,還是得立足于各校學科特色,加強跨學科交叉合作和應用能力方面的研發,建設高速低延遲網絡,促進互聯互通和數據共享,以持續投入支持自主開發應用軟件,形成活躍的科研應用社區。以人工智能技術為驅動的新一代生產力平臺、聯邦學習、隱私計算等應用對算力基礎設施的需求沒有上限,這方面算力網絡相關的技術研發和設施建設也大有可為。
高校算力平臺建設和服務關鍵得看成效,要重視從需求論證到規劃設計建設全過程,盡量避免為建而建、先建后用的思維。平臺的硬件成本和運行成本都比較大,我們強調平臺的使用效益,用得好不好跟建得合不合適有很大關系。所謂細節決定成敗,比如,冷卻、互聯網絡、存儲系統這三個子系統在算力平臺建設中,我們往往不會把它當作核心設備,但每一個子系統設計規劃不到位都會影響整個計算平臺有效運行。因此建設算力平臺之前有必要仔細規劃和論證好每個技術方案細節。
樊春
善用現有的工作基礎
高校算力服務的前景非常廣闊。下一步,對于沒有高性能計算算力的學校來說,需要做好規劃,建設高性能計算平臺或購置高性能計算的算力服務,同時在人事和管理制度上也要做好相應的規劃;對于已有高性能算力平臺的學校來說,則要考慮如何進一步用好平臺,站在整個學校的高度和視角,探索出最優的平臺管理運行制度。
近來,ChatGPT等人工智能應用的火熱,表明人工智能到了一個新的發展階段,從傳統的只能解決機器視覺和語言處理等個別領域問題,到現在解決跨模態的問題。在這樣的背景下,更多的學校老師會投入到人工智能領域,作為學校的支撐部門,要順應時代潮流,為學校的人工智能發展提供相應的支撐服務,包括經費、人員、制度等在必要的情況下都可以向AI領域傾斜。
如果一個高校同時維持人工智能平臺和算力平臺,一般需要配置兩套班子、兩套設備,對大部分高校是非常昂貴的投入。因此,高??梢钥紤]建立人工智能和超算的融合平臺,建立統一的管理制度,包括資源分配制度、財務制度、收費制度、費用支出制度等,可以方便同時處理高性能計算任務和人工智能算力任務,還可以由同一個團隊把兩個平臺一起管好用好。
此外,高校算力服務還應該善用我們現有的一些工作基礎。比如,賽爾網絡和教科網在各個高校之間建立了很好的帶寬連接,包括IPv6連接;而北京大學和賽爾網絡共同打造的CARSI體系,是非常重要的基礎性認證軟件平臺。
剛才提到,高校之前需要“削峰填谷”,實現算力資源利用效率最大化,這就需要我們充分利用這些已有的基礎性硬件網絡設施和認證平臺,再結合專門的算力資源管理工具,將學校之間的算力打通,為國內高校算力服務做好基礎的儲備。除了高校之間的交流打通,高校與社會化算力之間也要加強交流,綜合評估各種社會算力資源,共同納入學校的算力生態體系中來。
張紫徽
讓算力建設成為變革源泉
未來,在高校算力服務發展上,有以下幾個方面要多加關注:
一是加強軟件建設。在算力支撐科研上,要更多關注老師們的科研環境,提供更加精準的科研環境和軟件,從而對算力進行更好的調度和更高效的使用。
二是構建數據中心。在滿足教師的算力任務后,要想辦法把沉淀的數據存儲并利用起來。由此,基于數據的協同和驅動,可能也會引起很多科研范式的變化。
三是形成算力社區。我們在建設算力時,不能只局限于算力本身,也要想辦法構建它的上層應用,如數據中心、模型中心,甚至再上層的開發者社區。
對于算力建設,學校領導的重視和支持非常重要;在軟件配置、優先支持等方面也要允許小范圍的試錯,最終達到百花齊放的狀態;此外,持續的投入也很關鍵。
未來的一流大學,除了學科科研之外,誰對數字能力的把握更好,誰就能夠脫穎而出。我們需要用更大的格局、更高的戰略眼光來看待算力服務,它不是一個部門自己關起門來建機房的事,而是未來整個大學變革的巨大源泉。
蔡哲
提供優質算力實現算網融合
未來高校算力服務的前景非常廣闊,中國教育和科研計算機網作為教育領域的專網,應該發揮自身優勢,聚焦服務教育科研。為高校提供優質的算力服務,是教科網和賽爾網絡的使命和責任。賽爾網絡也會持續加大投入力度,并在以下三個方面發力:
一是整體按照“三步走”規劃推動算力建設,從簡單的設備供貨及安裝調試,向算力服務優化演進,最終發揮教科專網的作用,實現算網融合。目前賽爾正在做的是算力資源共享平臺建設,目標就是為高校提供優質的算力資源服務。
二是推動算力服務性能力的輸出,依據學校特定需求,有針對性地做好網絡層面的服務。以第三代互聯網FITI為載體,未來還會根據高校學科分類來做細分專網,促進資源共享共建,進一步推動科研成果融合。
三是賽爾內部會不斷加強算力隊伍建設,培養專業團隊,為高校做好算力服務和維護。
整理:項陽、陳榮
責編:項陽