日前,一場以高校高性能計算建設為主題的會議召開。會上,各高校專家圍繞高校算力中心如何可持續發展這一問題展開討論。
用好算力中心是長遠發展的關鍵
在算力需求逐漸攀升,高性能計算越發受到重視的當下,高校獲得第一桶金建設自有的超算中心已不再成為難題。然而,在第一桶金后,第二桶金、第三桶金是否還能繼續跟進?超算中心能否可持續、高質量、始終如一地發展下去?依舊是擺在超算中心工作人員眼前的難題。
上海交通大學原高性能計算中心主任顧一眾表示,高校超算中心如何可持續發展是他們十幾年來一直在考慮的問題。在高校對算力需求持續走高的形勢下,第一桶金的獲取難度并不大,算力中心的創建只是技術上的問題,而不是資金上的問題。但建成后,如何使中心發展得更美好,這就需要一種可持續的機制。而如何把算力中心用好,可能是決定其能否可持續發展的核心,也是他們努力的主要目標。
他強調,使機器用滿不難,但如何高效使用機器卻并不容易。如何把資源放大,使算力中心的效率提升到最高,使高?;蛘耐度脒_到最佳收益,這是大家應當關注的焦點。比如有些用戶開發運行的軟件效率不高,浪費了大量的計算資源,而這就需要超算中心的工作人員去幫助用戶優化軟件和運行環境,提高計算效率。通過自身努力讓本來只能支撐10個用戶的算力,去支撐20個甚至更多的用戶。
同時,除資金之外,人才也是中心可持續發展的核心要素。顧一眾表示,上海交通大學校領導充分重視計算人才隊伍建設,給予超算中心有力支持,使中心有人力和能力為各學科用戶提供貼身細致的服務,提升用戶的使用體驗。
此外,他表示超算中心的可持續發展,離不開校領導的支持和用戶對服務的認可。對于交大及同類型高校來說,有了這兩個方面,資金就不會成為明顯的阻礙。因此,長期投入的問題就轉變為如何通過中心努力,助力學校多出高水平成果,培養更多高質量人才。從而以自身作為讓學校滿意,更有力地支持超算中心的可持續發展。
想清定位才能避免存在危機
華東師范大學計算中心主任鄭駿認為,定位準確對高校算力中心十分重要。他表示,作為算力中心,一定要考慮自身是定位于用戶服務,還是定位于科研。對于中小型高校的算力中心來說,如果定位于用戶服務,而欠缺強勢的專業能力,那么隨著未來網速、帶寬的增加,隨著國家超算中心的增加,隨著通信技術的發展,其自身存在可能受到明顯威脅,中小型高校算力中心的生存空間也可能會受到擠壓。
以上海超級計算中心為例,如果公共超算平臺能完全滿足校內的算力需要,那么中小型高校算力中心的存在是否還有必要?為了預防這一問題,他建議中小型高校的超算中心一定要對超算領域技術進行研究,有拿得出手的成果,有自己寫出的高水平期刊論文并嘗試對超算領域做出貢獻。
雖然用戶服務的重要性無可厚非,但中心人員的個人能力如何繼續提升也是重要問題。所以他認為,在國家一次性投入如此巨大的狀態下,算力中心可以考慮深耕科研,在用戶服務之外,鉆研超算領域的技術,培養一支科研能力、服務能力俱佳的人才隊伍。
上海超級計算中心主任李根國表示,高校算力中心需要有自己的研究方向,也可與自身的優勢學科相結合,提升中心的科研能力。而上海超算中心作為政府支持的公共服務平臺,其特色和定位就是用戶服務,因此要在服務上不斷打磨,不斷自我超越。
據他介紹,上海超算中心共有兩個重要團隊,一個是機器選型的團隊,一個是代碼撰寫的團隊。機器選型的團隊需要在機器方面進行深入研究,調查哪種類型的機器最適合中心運行,最適合不同類型的學科和應用,這樣在機器選型的過程中,中心就有一定的發言權和選擇權。
而代碼撰寫的團隊則要結合用戶需求和實際應用,幫助用戶撰寫代碼。當下,大部分用戶都在使用開源代碼,但是,如果國內70%到80%的用戶都能具備自己撰寫程序代碼的能力,那就說明學科發展和超算發展都達到了蒸蒸日上的狀態。他表示,希望上海超算中心能擔負起這個重任,幫助用戶一同撰寫代碼,這是中心應當追求的境界。
參與科研才能收獲更多關注
清華大學高性能計算研究所高級工程師張武生表示,超算平臺是否可以長遠發展,根本上取決于能否得到校領導的長期支持。雖然各高校具體情況不同,但總體架構應當類似,有校領導主管超算中心,也有相應的資產部門。在超算中心起步時,必須面對來自校領導的提問:中心到底能幫助學校解決多少問題?這一問題就是一切的關鍵。由于算力中心建設成本、運維成本都十分高昂,如果沒有顯著成果支撐,校領導對于后續投入的意愿也不會十分強烈。
因此,清華大學算力中心的重要任務之一就是想方設法幫助師生解決問題,幫助他們快速、高質量地產出科研成果,使科研過程更為順利。而在論文發表時,也要爭取讓師生在論文最后列上中心的名字。通過這些努力,疊加上一段時間的積累與正反饋的迭代,學校會逐步認識到中心的作用,認可中心的存在,中心在校內的頭銜、地位與級別也會逐漸提高,得到的支持也就更有保障。
同時,張武生進一步強調,超算中心人員,尤其是較為年輕的人員,一定要想辦法參與到課題組的科研中去,要有開發科研計算代碼的能力。一旦能幫助科研人員解決代碼方面的問題,那么雖然依舊不算科研崗位的人員,但其自身地位會非常穩固,績效評價也有所保障。
他舉例表示,2020年初,清華有一位教師進行了新冠病毒傳染途徑的研究,即通過分析某一國家的機場數據,預測人流量與傳染速度之間的關系,并自己建立了數學模型。雖然數據量并不是非常龐大,但計算運行一周后還是無法得出結果。于是中心人員查看了原始代碼,發現教師從純數學角度去寫程序,代碼的時間復雜度非常高,所需時間就會很長。
因此,中心重新調整、撰寫了程序,一天時間內就得出了多個結果,有效加快了論文發表的速度,也趕上了新冠疫情的論文熱點期。而這位教師也在很多場合宣傳了中心的工作,表揚中心人員所提供的幫助。所以,為了應對此類情況的出現,算力中心人員必須具備一定的代碼開發能力。
通過多種方式培養人才留住人才
中國科學技術大學超級計算中心副主任李會民表示,科大算力中心的定位是提供技術支撐服務,全心全意幫助師生用戶解決問題,幫助他們優化程序、構建算法,從而發表更多論文,而非自己單獨進行科學研究。也就是說,中心人員的使命是在維護好平臺的前提下,幫助校內師生用戶去發Nature、Science,而不是自己去發Nature、Science。
而高質量論文的產出離不開高水平人才,因此,他亦強調了留住人才、挖掘人才的重要性。
他表示,由于高??蒲袓彵燃夹g支撐崗待遇更為優越,而比起高校,IT人才在企業的薪資待遇也往往更高,所以算力中心的人才流失問題非常嚴峻,人才結構也有進一步優化的空間。
為了解決人才流失問題,加強人才隊伍建設,科大制定了相應的人才政策,出臺了技術支撐績效管理辦法。例如,中心到賬經費的30%都會被用來作為人才獎勵,希望借此激發中心技術支撐人員的積極性、主動性與創造性。他表示,一年投入50萬購入新設備,不如一年投入50萬去招攬新的人才,人才所帶來的收益將遠遠高于設備。因此,算力中心一定要想辦法建立合理的績效晉升體系,想辦法留住人才。
此外,為了提升中心的曝光率,形成良好的口碑效應,科大還設置了專門的超級計算專家組,這一組織由不同學科的重要計算用戶與計算機專家組成,作為超算與學科之間深度溝通的橋梁,為中心發展提供重大決策指導。他特別指出,如果中心能為專家提供優質服務,反過來,專家也會憑借自己的影響力宣傳中心工作,在涉及資源分配時,一些校內地位較高的專家也能幫助中心爭取一些資源。因此,高校算力中心也應與專家密切合作,提升中心的知名度與美譽度,為長遠發展奠定良好基礎。
撰文:王雅靜
責編:陳永杰