當前,高性能計算(簡稱“高算”)與大數據、人工智能等新興技術融合加深,應用場景不斷豐富,不再限于專業計算領域,還延伸至商業領域及日常生活,影響日益深遠。
作為科學研究和人才培養重地,高校對高算的需求尤為迫切。2021年,工業和信息化部印發的《新型數據中心發展三年行動計劃(2021—2023年)》,明確提出要加快高性能、智能計算中心部署,推動新型數據中心算力供應多元化。
在此背景下,高校投資建設校級高算平臺的趨勢愈發明顯。然而,高算所需技術與高校信息化部門已有技能儲備存在較大差異,團隊上手參與建設存在一定門檻。
校級高算平臺的定位和目標是讓科研工作與高算平臺建設相輔相成,讓科研團隊專注于科研創新,讓算力服務充分支撐教學和科研,支持學科交叉,支持大團隊、大項目產出大成果,滿足各學科領域對于大規模數據處理和大規??茖W計算的需求。
中國農業大學校級高算平臺經過大半年時間的建設摸索及試運行,于2022年6月正式上線,目前已初步達成預期建設效果,資源利用率介于70%~95%,部分大課題組已將全部計算轉至校內平臺,師生總體滿意度高。
校級高性能計算平臺運行成果
滿足師生科研計算需求
助力成果產出
圍繞“創建高價值、實現低成本、提供優服務”的建設理念,中國農業大學校級高算平臺一期總建設經費為400萬,規模很小,但在架構設計、設備組合選型、軟件功能設計和作業調度管理等方面成效明顯。
如圖1-2所示,截至目前,平臺已累計為15所學院、141個賬號提供服務,完成327679項作業、7990369CPU核時、179138GPU卡時的計算任務。平臺CPU資源在工作日的平均利用率超過70%,高峰期高達95%,高算成為校內最繁忙的科研公共服務平臺。
圖1 高算賬號分布情況
圖2 高算平臺計算量
高算平臺成為師生科研工作的重要支撐。據不完全數據統計,自平臺上線以來,依托平臺已產出《自然》《細胞》《科學》子刊論文4篇,SCI論文11篇(不完全統計),數十個國家級科研項目正在其上運行計算任務。
平臺采用先進設計理念
具備一定優勢
目前,農大校級高算平臺是國內最先采用Intel Ice Lake CPU構建的平臺,一期共計部署35臺計算節點,總算力每秒251TFlops(萬億次浮點數運算),在運算速度、網絡速度、橫向縱向擴展能力、統一調度節能等方面具備一定優勢。同時,平臺還支持人工智能算力,采用AI人工深度學習算法框架,使計算模型不受傳統架構局限,能夠應對眾多來自人工智能的復雜挑戰。
平臺自上線以來,一直處于供不應求狀態。為解決算力不足問題,平臺正在進行二期建設(圖3-4),預計在2023年下半年建設完成,計算能力有望提升至1178TFlops,整體增長3.5倍,能夠服務師生更大范圍的科研工作。
圖3 校級高算平臺發展時間軸
圖4 校級高算平臺算力規模
校級高性能計算平臺建設經驗
建設前期充分調研
在建設前期,項目組調研校內師生高算需求、兄弟高校高算建設,并與高算、存儲、GPU等廠家積極進行技術交流,在此基礎上分析歸納學校高性能計算平臺總體建設思路。此外,考慮到信息技術發展較快,項目組對關鍵設備系統選型進行充分調研,確保建設方案具備一定的先進性和兼容性。
校內調研。首次建設校級高算平臺,應對校內高算需求有較為充分的了解。調研側重包括:校內主要有哪些課題組需要用到算力,其所需支撐軟件、所屬計算領域、算力和存儲需求量是多少;CPU計算、GPU計算、胖節點需求情況;課題組解決計算的途徑及每年大概的計算費用;院系和課題組已自建高算集群情況摸查,等等。
調研可通過網絡問卷,或定向發郵件、打電話、學院走訪交談等多種方式組合開展并匯總數據,這些數據對于后期規劃、應用安裝和定向精細化服務均有較大幫助。
校外高校調研。向先進高校借鑒其成功的建設和管理經驗通常會事半功倍,可在招標機構網站上搜索并下載校級高算平臺的招標技術需求,或直接打電話請教相關老師。
基于如上兩種方式,項目組在2021年先后獲取到了來自北京大學、清華大學、復旦大學、中國科學技術大學、北京航空航天大學、北京交通大學、香港中文大學(深圳)等高校的高算項目需求文檔。通過通讀、理解多份文檔,迅速和較為深入地了解并把握了高算平臺架構、核心技術、各模塊類別、彼此關聯、相關主流廠家等關鍵信息。
廠家調研。分別與主流的高算服務器廠商、CPU和GPU廠商、存儲廠商、高速網絡廠商、軟件廠商等進行技術溝通交流,再結合產品官網介紹,橫向比較同類產品、分析案例和優劣勢后,形成自己的知識體系,擇優選擇適合學校應用場景的產品。例如,在CPU通用芯片選型調研中,Intel和AMD尤為關鍵,調研主要確定生態環境、使用場景,適合高算的芯片型號、芯片性能、芯片價格,等等。
高速網絡設計
數據傳輸是高性能計算場景中的重要環節。為解決高性能計算場景中高帶寬、高并發、低時延的數據傳輸要求,項目組專門采購RDMA技術(遠程直接內存訪問),而非TCP/IP以太網技術來構建計算和存儲網絡,主要目的是以此釋放CPU去執行運行程序和處理數據的工作。
在高算領域,大致有兩類RDMA網絡,分別是Infiniband(簡稱IB)、RoCE。IB是從硬件級別保證RDMA的可靠傳輸,技術先進但成本貴。RoCE是在以太網上封裝的RDMA技術,穩定性稍弱于IB,配置和管理相對復雜,但具備一定的價格優勢。目前采用IB專用網絡的集群比重大,但也有部分高校集群開始采用RoCE網絡,可根據自身情況選擇IB或RoCE。
存儲架構設計
磁盤讀寫速度遠落后于CPU、GPU的運算速度,故文件儲存系統的性能是影響整個高算集群性能的重要因素,如下幾點是農大采購存儲的相關思考:
存儲架構通用。盡量選擇普適性的存儲系統,架構能夠支持多廠家硬件平臺,確保后續擴容不局限于一個廠家。在規劃中明確計算節點訪問存儲采用基于RDMA網絡的POSIX通訊協議,而非效率較低的NFS通訊協議。
存儲系統容量按需采購。電子產品有壽命期,最穩定的運行周期是3~5年,存儲系統規劃的總容量以應用場景和用戶數據增長的歷史數據作為依據。并行存儲都具備很強的橫向擴展能力,建議根據階段性的性能和容量的預估,分批次購買,無縫橫向擴容。
明確存儲性能要求。存儲系統中,須定義其數據容錯方式、可用容量(客戶端df-h可見容量),以及定義整套存儲系統單線程讀/寫帶寬、多客戶端實測聚合讀/寫帶寬。以上三項數據能夠最終決定存儲容量和性能參數,也與最終的實際價格密切相關。同時,存儲系統也應該明確裸容量的配套最小元數據數量和元數據檢索的性能(例如每秒文件最大創建數量、每秒文件定位數量等)。
明確采購SAS硬盤。SAS硬盤比SATA有著更高的穩定性、可靠性,絕大多數存儲廠商提供的高性能存儲系統均采用企業級SAS硬盤。
國產化思考
目前,信創平臺能夠適用于部分教學場景和特定精度的計算場景??茖W計算和研究有時效性要求,通用的計算能力仍是目前校級高算公共平臺的首位需求,大部分學生會選擇高效的通用計算平臺,適配性和生態問題是阻礙國產系統大面積使用的另一主要原因。
師生在通用平臺上適用的程序如果移植到國產平臺,就需要花費額外時間和精力重新編譯,且對部分閉源的專業商業計算軟件仍無法適用。所以,首次建設校級高性能計算平臺時建議以通用架構為主,在有經費支持的情況下也建議分批次搭配采購一定比例的國產產品。
實用方案設計
關系到高算平臺是否實用、好用的幾點參考:
CPU和GPU比例。不同學校的HPC和AI計算有較大差異,前期需在調研數據基礎上設計合適比例。例如:北航既有基礎學科的HPC計算,也有大量的計算機和航空類AI智算,或許1:1做設計是合理的;北郵和傳媒的需求比較集中,例如AI計算和動漫專業的圖形渲染,故基本上偏向于GPU需求;而農大生命科學、化學等學科的CPU計算遠高于計算機學科的GPU計算需求,故按照4:1來設計會較為合理。
軟件易用性。除了以傳統命令提交作業的模式外,還應考慮以互聯網思維、站在用戶視角梳理并優化使用體驗,最終實現圖形化的任務提交和自動化的性能監測,降低普通師生的使用難度,實現高算平臺的快速推廣并提高作業效率。
高算平臺架構具備先進性。在同一平臺對異構的HPC和AI進行作業的統一調度和資源分配,管理調度更為高效。方案設計應能實現CPU、GPU、并行存儲、高速網絡之間的全線速轉發,這是影響平臺高效運行的先決條件。
機房設施部署
根據方案的算力規模估算高算集群的總功率,結合現有機房條件判斷是否需要配套改建機房環境。每個學校的機房條件不同,所采購的機器形態也就不盡相同。液冷模式的機房能效水平高于風冷機房,但其前期投入成本,后期維護成本也相對要高,故適用于規模大的機房;風冷機房適用于規模較小的機房或不便于部署水冷設施的機房。液冷機房單個機柜的功率可達到65KW,風冷機房則可設計單機柜25~35KW。
對于行級空調制冷量,要結合回風溫度進行綜合考量,確保人員進行維護調試的舒適度。此外,用電量、UPS后備時間、消防滅火系統、配線間安全、機房環控、電池安全均需要綜合考量設計,一般來說,學校機房可按照B級標準進行相關設計。
管理體系搭建
高算平臺上線前,學校要結合自身實際配套制定校級高性能計算平臺運行管理辦法,以加強平臺規范管理,明確職責分工,保持可持續運行與發展,確保其對教學、科研的支撐和公用性的發揮。
管理辦法一般應包括組織機構及職責分工、資源分配和使用、培訓交流、獎勵與懲罰、收費細則等。農大出臺校級高算平臺的管理辦法、收費政策、獎勵政策初稿后,第一時間邀請高算用戶代表討論,在充分聽取修訂意見的基礎上,再提交校長辦公會審議。
充分免費試用
為方便師生熟悉高性能計算平臺,建議高校將新建好的高算集群對校內師生免費試用。免費試用有幾點好處,一是讓師生盡快熟悉平臺的使用,并根據師生的使用情況和反饋問題有針對性地提供使用培訓、改善系統功能;二是可以挖掘潛在的重點用戶,為其提供精細服務的同時,也借助其口頭宣傳提升平臺的知名度;三是為平臺正式上線提供好的宣傳素材,并獲得師生的支持。
上線宣傳培訓
農大高算在歷經4個月的充分免費試運行后再正式上線。平臺老師親自制作了一個“凝心聚力,智算賦能,服務雙一流建設”的5分鐘宣傳小視頻,分為建設歷程、高算資源、高算試運行代表成果、用戶代表寄語等內容,宣傳達到預期效果。
此外,管理員通過騰訊視頻會議精心開展了多期專題培訓,并于培訓前發布公告及圖文并茂的微信推文;建立校級高性能計算微信服務群,第一時間發布各類通知公告;通過服務到學院活動,在學院進行高算宣傳。通過以上多種方式,較為快速地發展了一批高算用戶。
團隊管理心得
高算任務的運行是一項復雜的調度工程。高算需要專業的團隊,不僅需要懂網絡、懂安全、懂機房、懂系統、懂腳本的計算機相關專業背景管理員,還需要計算科學專業背景的人才來充當應用學科與計算機學科之間的“翻譯官”。
對于普通高校而言,最好是設置專門崗位,并給予管理員相關培訓機會。對于農大而言,目前仍有網絡技術中心的老師兼職管理,為了讓老師能盡快獨立解決問題,會邀請廠商開展管理培訓。此外,農大通過“走出去”“請進來”等方式學習兄弟高校超算中心的先進管理經驗,借鑒成功經驗和幫助文檔,提升自身管理能力。
作者:勞鳳丹(中國農業大學網絡技術中心)
責編:陳榮