林新華 上海交通大學網絡信息中心副主任
在就高校算力服務建設話題接受本刊采訪時,上海交通大學網絡信息中心副主任林新華多次提到“學科融合”的重要性。計算機專業背景和計算科學專業背景的人才共同組成了交大計算團隊,通過學科融合,交大將計算能力的培養融入專業課教學中,并讓科研團隊專注于科研創新,讓算力服務充分支撐教學和科研。
關于高校算力服務的現狀和前景,林新華指出,當前高校算力建設正處于“爆發”的風口。但最重要的是要加強自主創新,未雨綢繆,讓算力建設“可持續發展”。
計算是AI最關鍵的技術
《中國教育網絡》:
近年來,我國算力服務建設取得了不少進展?!皷|數西算”工程啟動已逾一周年,正從系統布局進入全面建設階段。在您看來,當前我國算力行業發展呈現了哪些特點和趨勢?
林新華:
“東數西算”工程在2022年正式全面啟動,一年多來,“東數西算”工程做了很多事??偨Y來說主要呈現了兩個特點:一是連點成網,二是小網連大網。
連點成網。我們知道,“東數西算”工程計劃在京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏等8地建設國家算力樞紐節點,并規劃了10個國家數據中心集群。我們可以把這些樞紐節點和數據中心集群看成“點”。在工程前期,主要工作是對這些“點”的內部進行建設。而從今年開始,在對“點”布局建設的同時,在國家樞紐節點之間進一步打通網絡傳輸通道,慢慢將“點”連成“網”。
近日,科技部啟動國家超算互聯網部署工作,通過將國家級超算中心、區域性超算中心、高校超算中心等互相連接起來,打造國家算力底座,促進超算算力的一體化運營,就可以看作是“連點成網”的行動。
小網連大網。除了國家級超算互聯網外,實際上,各地也都在建設城市級的算力網。例如,上海市經濟和信息化委員會近日發布《推進算力資源統一調度指導意見》,提出逐步推進建設“算網布局不斷完善、算力資源供給充沛、算力結構持續優化、算效水平穩步提升、應用場景不斷豐富”的發展格局。
再如,武漢市計劃將集約型超算中心與分散型中小型算力站連接形成城市算力網,再通過CENI(未來網絡試驗設施)并入國家算力骨干網,作為中部樞紐節點與東西部形成算力互調。
從國家層面看,當前我國算力行業的發展布局,一方面將國家算力樞紐節點“連點成網”;另一方面將小的城市級算力網連到大的國家級算力網,打造支撐數字中國建設的“信息高速公路”。
《中國教育網絡》:
近來,ChatGPT等人工智能應用備受關注。您認為,ChatGPT的出現對算力行業將產生怎樣的影響?最近一兩年有哪些重大的技術突破推動著算力行業的發展?
林新華:
“計算是對人工智能最關鍵的技術?!蔽艺J為,中國工程院院士、阿里云創始人王堅的這句話最能概括對ChatGPT熱潮的思考。這意味著,人工智能有多“火”,計算就有多重要。
實際上,近一兩年來,推動算力發展的重大技術,沒有什么能和大模型(Large Language Model)的涌現相比。它極大地促進了大家對算力重要性的認知。猶如“舊時王謝堂前燕,飛入尋常百姓家”,人們意識到,大模型這個此前離普通人遙不可及的“高端”技術,似乎一夜之間開始涌入并改變我們的生活。
其中,GPT-4是大模型浪潮的引領者,引發了海量算力需求,讓大家看到了無限潛能。但與此同時,算力的現狀卻阻礙著基于Transformer(轉換器)架構的GPT-4等大模型的進一步發展。我們簡單估算一下,如果GPT-4模型是1萬塊GPU(顯卡)訓練而成(另一種說法是2.5萬塊GPU),根據GPT-3向GPT-4迭代的規律,GPT-5的訓練量可能需要60萬塊GPU,而當前的算力和電力根本無法滿足需求。接下來,GPT-4可能會有一些遞進性的技術進展,并在各個行業領域里慢慢落實,但由于算力所限,它無法迅速實現迭代升級。
總之,GPT-4的出現引爆了算力危機,但也引起大家對算力的關注,讓算力對人工智能的重要性成為一種共識。這也將推動算力基礎設施的進一步發展。
讓計算深度融入教學
《中國教育網絡》:
在高校,近幾年也掀起了一股算力建設熱潮。您認為,從發展時機上看,高校超算是否到了一個突破的風口?高校算力建設“爆發”背后的原因是什么?
林新華:
當前,高校超算的確到了突破的風口??偨Y起來有三方面原因。
第一,高校對算力的需求有了突破性增長。除了高校自身的科研、教學算力需求一直在穩步增長,如今又疊加了對大模型訓練的需求,使高校的算力需求變得非常旺盛。
第二,高校的算力需求在有些情況下無法通過國家級超算中心得到滿足,這促使高校開始建設和發展自己的超算中心。這是因為高校的教師用戶非常多,對算力的需求也都各不相同,很難通過國家級超算為每個用戶都定制開發適配性的軟件。
第三,去年9月,教育部出臺新政擴大教育投資提供貼息貸款,加速高校數字化進程。根據計劃,專項貼息貸款重點支持高校教學科研、實驗實訓等重大設備的購置和配套設施建設,包括校園網絡及信息管理系統提檔升級,高性能計算、信息中心建設,數據中心國產化替代等。如果說促使高校大規模發展算力的前兩個原因是長期的、漸進的,那么國家的政策和投入則讓高校算力真正迎來了爆發。
《中國教育網絡》:
2021年12月,中國高校最強算力基座“思源一號”在上海交通大學的啟用備受矚目?!八荚匆惶枴本邆淠男┘夹g特色?您認為,高校對算力服務的需求有哪些方面?上海交通大學擁有國內高校頂尖的算力中心。能否分享一下,交大在提供算力服務方面的思路和經驗?
林新華:
“思源一號”首先有強勁算力,總計算力達6PFlops(CPU+GPU雙精度),在中國高校HPC算力排名中位列第一。此外,“思源一號”還具有低碳減排的技術特色,是國內唯一采用了熱回收技術的超算,采用國際最先進的溫水冷卻技術,回收超算產生的熱量,為李政道研究所的大樓供暖。
高校對算力服務的需求主要體現在其三大功能教學、科研、管理上。廣義上的算力包含超算,也包含云計算。高校超算主要還是服務于科研,而云計算服務則基本可以覆蓋每一個師生。
上海交通大學(簡稱“交大”)的校級計算平臺“交我算”由網絡信息中心負責建設及管理,全面支撐學校的教學、科研和管理的計算需求。
其中,計算對教學的支撐主要體現在兩方面,一是普適的教學,二是特色化的定制教學。
疫情期間,高校普遍采用線上教學。交大的云服務教學系統由云平臺提供技術保障,使整個學校的教學過程可以統一管理,教學資源得到優化配置,支撐起教學資源上網、教學過程上網。疫情期間的“停課不停學”體現了計算服務對普適性教學的支持。
而將計算深度融入教學,是富有交大特色的定制教學模式。
隨著計算在各學科中變得越來越重要,如何讓非計算機專業的學生掌握所需的計算知識和能力?
一方面,交大組建了專職教輔團隊,與專業課老師共同改造計算相關課程,如“計算流體力學”“計算材料學”“飛行器設計”等,將計算能力培養深度融入相關專業課教學中。除了與專業課老師共同設計改造課程,計算服務團隊還走進課堂,為學生講解學科領域計算前沿,讓學生在專業課學習中就能掌握相關的計算知識。
另一方面,大家容易有一種思維定式,在提供計算服務上科研遠遠優先于教學,因此常常將淘汰下來的科研計算設備用于教學中。而交大打破了這種定式,在教學支撐中同樣使用最先進的計算平臺,免費向校內師生提供優質的計算服務。去年開始,“思源一號”也加入到“交我算”教學支撐的資源池中。優質的計算資源為課程升級賦能,讓學生的使用體驗、教師的教學成果都顯著提升。
先進的計算設備不僅大幅提升了學生的學習積極性,對于研究生來說,因為在學習課程時已經充分掌握了計算實踐的流程和方法,在上完課之后,就能夠更快地投入到科研工作中,實現教學和科研的“零成本遷移”。
團隊和機制保障
《中國教育網絡》:
您認為,高校要做好算力服務建設,需要具備哪些基礎條件?
林新華:
我認為,要做好算力服務建設,有兩點非常重要。
一是算力服務團隊??赡苡腥擞X得,超算無非就是大一點的電腦或手機。實際上,這完全是一種誤解。問題的難度往往會隨著規模的擴大而發生本質性變化,而人的作用在其中也越來越重要。超算的管理是非常專業的,需要專門的研究和管理團隊。超算中心能夠提供的服務往往受限于團隊的規模和能力。
當前,很多高校在超算的硬件設備投入上并不差,但超算管理團隊卻只有幾個人,因此只能受限于最基礎的模式,把超算當作服務器來管理,停留在管機器、開賬號的階段上,難以讓超算發揮應有的作用,提供更深層次的算力服務。而如果能把對硬件設備的投入中拿出一小部分來建設團隊,提供更多的增值服務,讓學科融合得更好,則會讓超算發揮的效用翻倍。
二是體制機制。高校建設超算,如果只是買機器、管設備是遠遠不夠的。體制機制這種“軟性”層面的東西往往是高校算力服務發展的重要保障。
體制機制問題體現在很多方面。
例如,學校建設了校級算力平臺之后,是否還應該允許院系建自己的平臺?實際上,院系分散建設有很多局限性,其計算資源難以共享,利用率低;運維人員往往沒有崗位編制,水平也參差不齊,如圖1所示。在學校已經建設了校級算力平臺的情況下,往往會造成很多資源浪費。
圖1 院系分散的局限性
在這方面,上海交大于2018年出臺相關政策,不允許院系自行購買服務器。如果院系想購買,需要雙一流建設辦公室、資產處、網絡信息中心等多個部門共同管理和把關,由此大大提升了校級計算平臺的利用率,避免了低水平的重復投資導致的計算資源浪費。
再如,當老師需要計算服務時,應該如何申請,如何繳費,如何使用,如何開具證明?高校用戶使用計算服務有著很復雜的流程,不是單個部門院系能夠完成的,往往需要學校層面的協調。這些都體現了在高校超算建設中,體制機制的設計非常重要。
《中國教育網絡》:
對于不同類型、不同規模的高校來說,算力水平與運營模式都有不少差距。您分析認為,當前高校算力服務主要有哪些模式或者類型?這些不同的模式各有哪些優點和缺點?對于自建算力平臺和校企合作建設來說,學校在選擇時有哪些考慮?
林新華:
高校算力服務的模式或類型可以從不同角度來看。
從校級算力平臺所屬單位的角度來看,一般有三種模式:一種是掛靠在院系/實驗室等;一種是建有獨立的高性能計算中心;還有一種是掛靠在網絡中心/信息中心。
第一種模式的優點很明顯,其所屬單位為院系,院系的老師和學生可以直接參與其中,有足夠的專業性支撐。但與此同時,這種模式的缺點也很明顯,首先在服務上,要考慮除了為本院系服務,如何能讓超算平臺更好地為其他院系服務?此外在經費結算上,雖然平臺是校級的,但在費用上如何由院系更好地管理?
第二種模式,校級算力平臺所屬的單位是獨立的,在服務和結算方面會避免不少麻煩。但這種模式也有不少缺點。獨立的單位需要配備專門的行政、財務、技術人員;與此同時,其員工的工作量可能是不飽和的,在學科的專業性方面也會受限。
第三種模式則介于兩者之間,把校級算力平臺放在網絡中心。與第一種院系模式相比,可以更加專注于服務,對各院系而言更中立更公正。在對員工業務考核時,也以算力服務的質量為準。
與第二種獨立模式相比,網絡中心已經有行政、財務等人員配置,可以對超算平臺進行更好的統籌;在技術人員方面,超算平臺需要懂機房、懂網絡、懂安全的人才,而這些與網絡中心的人才需求也是相通的。將校級算力平臺放在網絡中心,能在人員管理方面達到最優。
當然,每個高校面對的具體問題和環境都不盡相同,在選擇適合自己的建設模式時也會有不同的考量。以上海交大的經驗來看,在對比權衡之下,我認為第三種將校級算力平臺放在網絡中心的模式是最優解。
從自建/合作的角度來看,大部分高校會選擇自建算力平臺。高校自建算力平臺不僅包括將超算建設在學校內,也可能因為節能、環保和空間的原因將超算建設在外地;而校企合作多采取租用公有云的方式。學校在選擇合適的模式時,不僅會考慮技術因素,更有很多非技術方面的考量,如對固定資產、數據安全等方面的考慮。
發揮學科融合優勢
《中國教育網絡》:
剛才提到,團隊建設是高校算力服務的重要基礎和保障。您認為,高校超算中心在人才隊伍建設方面面臨哪些挑戰?在人才團隊建設方面,上海交大有哪些經驗可以分享?
林新華:
高校算力中心在團隊建設方面的最大挑戰是人才外流。尤其是人工智能的發展熱潮進一步拉動了算力人才的需求。相比高校,企業的薪資待遇等往往更有優勢,這使得高校要招聘和留住人才,面臨不少挑戰。
在團隊建設方面,交大打造了國內高校最大的計算服務團隊——交我算團隊,目前團隊有34人,在系統管理、用戶應用、學科融合、性能優化、教學支撐等各方面都發揮了重要作用。
“學科融合”是交我算團隊的一大優勢。團隊里有約一半人是計算機相關專業(computer science)背景,另一半則是計算科學(computational science)專業背景(生物/材料/環境/航天航空等)。交大通過學科融合的服務模式讓科研團隊專注科研創新,把研究中遇到的計算問題交給計算團隊。
不同應用學科背景的成員,在計算服務中充當了應用學科與計算機學科之間的“翻譯官”,有效降低了溝通成本,提升了服務品質。
其中,交大醫學院及12個附屬醫院是科研大戶。團隊里擁有生物信息學背景的成員,為附屬醫院瑞金、仁濟、九院等,提供了很多專業的算力服務。
例如,聽力篩查是診斷新生兒聽力出生缺陷的重要手段。九院致力于新生兒聽力篩查技術的研究及應用,而交大“交我算”團隊將研究所需的數據按要求處理,充分發揮學科融合計算服務模式的優勢,為九院的研究提供了良好的算力服務支持。
《中國教育網絡》:
在您看來,未來高校算力服務前景如何?下一步高校算力服務建設應該從哪方面發力?
林新華:
未來高校算力服務的前景取決于能否做到“可持續發展”。在大規模的投入建設浪潮之后,高校面臨著能否出成果和能否持續投入的壓力。
因此,我認為如何讓超算建設“可持續發展”,是未來高校的發力方向和關注重點。要未雨綢繆,緊跟國際形勢和國家戰略布局,更多地探索、發展國產計算技術。在這方面,擁有技術實力的頭部高校應該做出表率,在自主創新上更多“探路”,營造良好的創新生態,讓創新成為高校算力持續發展的動能。
編撰:項陽
特別聲明:本站注明稿件來源為其他媒體的文/圖等稿件均為轉載稿,本站轉載出于非商業性的教育和科研之目的,并不意味著贊同其觀點或證實其內容的真實性。如轉載稿涉及版權等問題,請作者在兩周內速來電或來函聯系。