隨著研究領域的日趨擴展,海量數據成為學術研究中的底層支柱,提供更優化的算力服務也成為高校的關鍵任務。與此同時,不同高校具有不同特性,對于算力服務的需求也呈多元特征,推進算力服務的方法也應因需而變、因校而變。從校企合作到借助國家力量,從集中式設施到分布式部署,在不同客觀條件下,國外高校也都因地制宜、因勢利導,呈現出算力服務建設的多樣圖譜。
校企資源互融共建AI超級計算機
出于資金或技術上的需求,國外高校往往選擇與企業合作進行超算建設,分擔建設成本。例如,人工智能超級計算機HiPerGator便由美國佛羅里達大學與英偉達公司合作建設。
HiPerGator超級計算機機房設置
該超級計算機共有1120個A100 GPU和2.5 PB全閃存高性能存儲系統,共有70000個核心,其中30000個核心各具備4GB內存,而最新的40000個則有8GB內存。測試高性能計算集群系統浮點性能的基準程序HPL結果顯示,HiPerGator的英特爾和AMD核心共提供約2 Petaflops(1 Petaflop等于每秒鐘進行1千萬億次的數學運算)的計算速度??偟膩碚f,HiPerGator人工智能系統的HPL評級超過16 Petaflops,而理論上,人工智能性能的峰值為700 Petaflops。
一切都起源于佛羅里達大學與英偉達公司的合作計劃。2020年7月21日,雙方表示將合作打造全球學術界速度最快的AI超級計算機。該計劃得到了英偉達公司5000萬美元的資金援助,其中畢業于佛羅里達大學的英偉達聯合創始人克里斯·馬拉喬夫斯基個人捐贈了2500萬美元,公司則提供了價值2500萬美元的硬件、軟件、培訓和其他服務。佛羅里達大學則投入2000萬美元,創建一個以AI為核心的超級計算和數據中心。
馬拉喬夫斯基在一次由佛羅里達大學和公司高層共同參加的活動中表示:“為造福所有人,我們創立了一個強大的、具有借鑒意義的公私合作模式?!?/div>
更重要的是,這項合作并不僅限于創造一臺擅于計算的機器。
英偉達公司還計劃持續為佛羅里達大學貢獻其AI專業知識,并達成以下合作:
第一,英偉達深度學習學院將與佛羅里達大學合作,為學生開發新的課程,包括調整項目滿足年輕人和青少年的需求,激發他們對理工類課程和AI的興趣,為未來的教育和就業做更充分的準備;第二,佛羅里達大學將成為最新的英偉達AI技術中心基地,佛羅里達大學研究生院和英偉達員工將共同推動AI的發展;第三,英偉達方案架構師和產品工程師將與佛羅里達大學合作,在校園內安裝、運行和優化包括最新AI軟件應用在內的英偉達超級計算資源。
技術合作創造可持續計算集群
除資金、資源與人員合作外,校企間的創新性技術合作也為更高效、可持續的高性能計算集群創造了可能。例如,聯想公司的水冷和“熱通道”定向通風技術使紐約大學高性能計算集群Greene不僅成為高等教育領域中最強大的十大超級計算機之一,也使其成為世界上最綠色的100臺超級計算機之一。
Greene超級計算機機房設置
紐約大學Greene高性能計算集群由665臺服務器和32000個CPU核心組成,它配備了332個GPU卡。該集群的總內存為145TB,并配有9 PetaBytes的GPFS數據存儲。該計算集群性能優越,經HPL基準測試后,Greene的整體性能超過了4 Petaflops,意味著它每秒可以進行四千萬億次(4x1015)計算——比其前身高性能計算Prince集群強大十倍,比紐約大學2005年的超級計算機快1000倍。
與此同時,Greene是一個高效的、環保的HPC集群,它既滿足了對下一代計算和存儲能力的需求,又減少了對化石燃料的依賴?;谝韵聞撔?,Greene將消耗更少的電力,產生更低的使用成本,并更加環??沙掷m。
首先,Greene的電力使用效率(簡稱PUE,是評價數據中心能源效率的指標,等于數據中心消耗的所有能源與IT設備使用的能源之比,PUE基準為2,越接近1表明能效水平越好)為1.35或更低。其次,Greene采用了聯想的Neptune溫水冷卻技術對CPU節點進行水冷,使部分計算機的PUE達到1.08。對于30000個CPU核心,水將去除95%的熱量且不需要任何空調。第三,Greene具有更有效的數據中心設備安排,白色機架將減少15%~20%的熱量消耗,“熱通道”(計算機背靠背排列)將進行更有效的熱捕獲并通過屋頂通風。因此,高電力使用效率和低能耗的結合將有效降低Greene的計算成本。
紐約大學校長安德魯·漢密爾頓表示:“高性能計算、大數據和人工智能在整個高等教育的許多研究領域都是至關重要的,特別是在紐約大學。最重要的是,我們要繼續為各學科領域的研究人員提供他們所需的資源,以拓展知識邊界,超越我們可能還無法想象的東西。但是,為了我們的地球,我們也必須想方設法在保持計算速度的同時擺脫對化石燃料的依賴。Greene是一個很好的例子,說明我們可以同時實現這兩個目標?!?/div>
首席數字官兼研究技術副校長大衛·阿克曼則表示:“紐約大學與聯想公司和EYP設計公司在Greene的設計和安裝方面進行了非常密切的合作,各方面的成果都非常出色,我們擁有全國最強大的、由大學投資建設的超級計算機,運行成本只有其前身的三分之一。像水冷和‘熱通道’定向通風這樣的創新技術,確保我們可以在不斷提升研究能力的同時實現更宏大的目標,即在2050年達到碳中和?!?/div>
國家級超算中心滿足科研需求
不管是技術合作還是資源合作,都為高校最終建成自身所有的超算中心所服務,然而,并非所有高校有能力或有必要建設專屬超算中心,因此,對于中小型高校來說,借助國家機構力量進行超算研究便成為最佳選擇。
例如,在今年2月28日舉行的亞洲超級計算大會上,新加坡國家超級計算中心(NSCC)、新加坡工藝教育學院、新加坡共和理工學院、新加坡理工學院、新加坡科技學院、AI新加坡和新加坡工程師學會簽署諒解備忘錄(memorandum of understanding,用于雙方或多方之間達成一致的重要事項),希望探索新的培訓方法、課程設置和教學大綱,充分利用超級計算機的力量。
諒解備忘錄以“通過AI與HPC賦能新加坡的教育和人才發展”為主題。新加坡國家超級計算中心與各新加坡高校以及新加坡工程師學會將建立合作關系,并在高性能計算、AI、數據科學和分析及高級仿真和建模等領域創辦新的培訓課程、研討會和學生競賽,共同培養高性能計算人才。
為了支持新的合作,新加坡國家超級計算中心還宣布,該國的下一代國家超級計算機——用于千萬億次量級創新研究的超級計算機ASPIRE 2A將提供給新加坡學界使用。
ASPIRE 2A具體配置
ASPIRE 2A也利用了溫水冷卻技術,將提供總計高達10 Petaflops的計算能力,比目前的ASPIRE 1超級計算機強大七倍。第一代ASPIRE 1超級計算機于2016年投入使用,長時間近乎滿負荷運行。ASPIRE 2A的第一次正式項目征集已于今年第二季度啟動,此次征集邀請新加坡研究人員申請新機器上的計算資源。ASPIRE 2A將支持大學、研究機構、政府機構或企業在氣候變化、生物醫學和智能國家活動等一系列科學領域內的研究。
國家超級計算中心指導委員會主席Quek Gim Pew表示:“ASPIRE 2A系統是新加坡長期投資戰略的一部分,以確保新加坡的研究人員能夠熟練掌握必要的HPC資源,從而快速推進研究。我們設想,新的超級計算資源將幫助科學家在氣候變化、基因組學、醫療保健、人工智能和機器學習及先進制造業等研究領域進一步發展?!?/div>
分布式部署的二級計算系統
與新加坡高校借助國家力量相似,英國高校的高性能計算集群也由政府部門出資建設,然而,與前者集中式的國家級超算中心相比,英國高校具備更小型的、分布式部署的高性能計算集群——二級超級計算服務,其設施遍布各大高校,不同集群也往往承擔著不同主題的研究。
二級超級計算服務指一組中小規模的分布式超級計算機系統,位于國家一級系統(如英國國家級超算中心ARCHER)和校園三級系統之間,用于填補這兩個級別之間的能力差距。此類二級超算服務將對英國工程與自然科學研究理事會(以下簡稱EPSRC)社群內的所有研究人員開放,提供便利的本地訪問,同時與整個英國的超算生態系統相結合,縱向深入一級和三級系統,橫向則整合其他二級中心。英國國內的二級超算項目主要有Isambard、Kelvin-2、JADE、Cirrus、NICE、CSD3、Baskerville等。
二級超算服務具有以下特征:
1.中型規模:二級超級計算機的算力規模介于小型工作站和大型超級計算機之間,通常峰值運算能力在每秒幾十萬億次到幾百萬億次之間。
2.分布式部署:二級超級計算機部署在英國多所高校、研究機構和超級計算中心,其分布在不同的地理位置。
3.針對中小規模計算需求:相比大型超級計算機,二級超級計算機主要滿足中小規模的科研計算需求,適合于個人研究者和小組使用。
4.提供存儲和輔助服務:除CPU計算資源外,二級超級計算機還提供相關的數據存儲、網絡傳輸、可視化、軟件環境等服務。
5.資源共享:不同部署地點的二級超級計算資源可以通過高速網絡連接,實現資源的協同和共享,用戶可以訪問多個位置的計算資源。
6.支持大數據分析:二級超級計算機具有強大的存儲和網絡能力,可支持大規??蒲袛祿拇鎯?、管理和分析計算。
在二級系統中,有部分超算中心由英國高校領導,如伯明翰大學領導的Baskerville中心、倫敦大學學院領導的MMM中心和由貝爾法斯特女王大學和阿爾斯特大學共同管理的NI-HPC中心。
Baskerville是EPSRC的二級高性能計算中心,由伯明翰大學、羅莎琳·富蘭克林研究所、艾倫·圖靈研究所和英國國家同步輻射器基地合作建立。Baskerville項目在官網提供了使用指南Baskerville Basics,借此,無論用戶來自于哪一學科、是否使用過超算服務,都可以快速了解Baskerville的能力,學習有效使用其資源。
材料理論和模擬是現代科學研究中最繁榮和最有活力的領域之一。MMM中心(材料和分子模擬中心)正是為材料和分子建模領域所設計的二級超級計算設施,供英國各地的用戶使用。MMM中心由倫敦大學學院代表其余八個合作者領導,合作者包括帝國理工大學、倫敦國王學院、倫敦瑪麗女王大學、牛津大學、南安普敦大學、肯特大學、貝爾法斯特大學和劍橋大學。
NI-HPC中心是英國二級國家高性能計算設施之一,由EPSRC資助,并由貝爾法斯特女王大學和阿爾斯特大學共同管理。其特點是將高性能計算模型引入神經技術和計算神經科學、創新藥物輸送、精準醫學、代謝組學及氫安全等方向。
來源:HPC wire、佛羅里達大學官網、紐約大學官網、hpc-uk等網站
責編:項陽

特別聲明:本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出于非商業性的教育和科研之目的,并不意味著贊同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯系。
一起關注互聯網發展、互聯網技術、互聯網體系結構……
在教育部科技司領導下,中央電化教育館組織實施了教育信息化教學應用實踐共同體項目...