當(dāng)前位置:首頁(yè) >  IDC >  云計(jì)算 >  正文

濟(jì)南超算×青云科技:多元異構(gòu)算力平臺(tái)建設(shè)與運(yùn)營(yíng)實(shí)踐

 2023-10-20 17:59  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

青云科技(qingcloud.com) AI 算力發(fā)布會(huì)上,國(guó)家超級(jí)計(jì)算濟(jì)南中心(下文簡(jiǎn)稱:濟(jì)南超算)總工程師王繼彬博士圍繞算力平臺(tái)建設(shè)與運(yùn)營(yíng)主題做了精彩分享。

以下為演講全文,經(jīng)整理:

濟(jì)南超算

發(fā)展概況&建立歷程

濟(jì)南超算由國(guó)家科技部批準(zhǔn)成立,創(chuàng)建于 2011 年 10 月,同時(shí)落地國(guó)內(nèi)第一臺(tái)采用完全自主處理器的超級(jí)計(jì)算機(jī)。

其發(fā)展歷程主要包括五個(gè)階段:

2011 年:濟(jì)南超算成立并落地“神威·藍(lán)光”超級(jí)計(jì)算機(jī)。

2018 年:研制“神威 E 級(jí)原型機(jī)”讓整體算力實(shí)現(xiàn) 3 倍提升。

2019 年:在省市支持下成立了首個(gè)以超算為主題的科技園區(qū),主要布局超算應(yīng)用生態(tài)做相關(guān)產(chǎn)業(yè)升級(jí)。

2021 年:上線山河超級(jí)計(jì)算機(jī),主要圍繞通用超算的應(yīng)用場(chǎng)景構(gòu)建。

2022 年:發(fā)布新一代“神威·藍(lán)光 Ⅱ”超級(jí)計(jì)算機(jī),實(shí)現(xiàn)核心部件完全國(guó)產(chǎn)化,整體算力達(dá)到 14PFlops。

 

在組織架構(gòu)上,濟(jì)南超算有學(xué)術(shù)委員會(huì)和主任委員會(huì),同時(shí)下設(shè)三個(gè)部門:業(yè)務(wù)支撐部門、科研團(tuán)隊(duì),另落地兩個(gè)相關(guān)科研平臺(tái)。

圍繞成果轉(zhuǎn)化濟(jì)南超算孵化了一系列相關(guān)企業(yè),譬如與青云科技聯(lián)合成立了泉云智慧公司,主打算力服務(wù)及其相關(guān)產(chǎn)品。在科創(chuàng)平臺(tái)建設(shè)上基于實(shí)驗(yàn)室、技術(shù)中心、創(chuàng)新平臺(tái)擁有豐富的資源支撐,主要圍繞云計(jì)算、大數(shù)據(jù)、人工智能、高性能計(jì)算四個(gè)方向展開(kāi)。同時(shí)濟(jì)南超算多次獲得省級(jí)科技進(jìn)步獎(jiǎng),斬獲 Top500、國(guó)內(nèi) HPC Top100、國(guó)際人工智能算力 AIPerf500 等多項(xiàng)榮譽(yù)。

算力資源建設(shè)

融合發(fā)展&科學(xué)運(yùn)營(yíng)

濟(jì)南超算資源平臺(tái)建設(shè)規(guī)劃主要圍繞五個(gè)平臺(tái):高性能計(jì)算、人工智能計(jì)算、云計(jì)算、工業(yè)仿真計(jì)算、數(shù)據(jù)存儲(chǔ)與災(zāi)備平臺(tái)。

以多計(jì)算集群融合發(fā)展的思路,濟(jì)南超算目前人工智能計(jì)算集群達(dá) 1000 PFlops,超 2500 個(gè)節(jié)點(diǎn),其中人工智能和云計(jì)算集群都按照混合異構(gòu)方式構(gòu)建。具體來(lái)看,超級(jí)計(jì)算集群不僅在 2022 年落地了“神威·藍(lán)光Ⅱ”超級(jí)計(jì)算機(jī),整體算力約 14PFlops,這是采用新一代國(guó)產(chǎn)自主處理器構(gòu)建千萬(wàn)億次的國(guó)產(chǎn)超級(jí)計(jì)算機(jī)。還落地了面向通用應(yīng)用場(chǎng)景的山河超級(jí)計(jì)算集群,整體集群算力達(dá)到 60PFlops,存儲(chǔ)容量達(dá)到 17PFlops,數(shù)據(jù)傳輸帶寬達(dá)到 1TB。

山河超級(jí)計(jì)算集群

計(jì)算資源:山河超級(jí)計(jì)算集群高性能計(jì)算資源超 50 萬(wàn)物理核心,為適應(yīng)特殊行業(yè)領(lǐng)域計(jì)算規(guī)劃建設(shè)了大內(nèi)存節(jié)點(diǎn),單節(jié)點(diǎn)內(nèi)存可達(dá) 1.5TB,云計(jì)算集群實(shí)現(xiàn)從 IaaS、PaaS 到 SaaS 全方位覆蓋,提供超 60 種云服務(wù)。

云服務(wù):山河超級(jí)計(jì)算集群與青云聯(lián)合打造,主要圍繞超算使用場(chǎng)景和人工智能場(chǎng)景進(jìn)行規(guī)劃,整個(gè)人工智能集群超過(guò) 850PFlops。

網(wǎng)絡(luò)建設(shè)資源:山河超級(jí)計(jì)算集群與青云合作打造基于 SD-WAN 網(wǎng)絡(luò)接入的方式,對(duì)外互聯(lián)網(wǎng)出口網(wǎng)絡(luò)帶寬超 15Gbps,同時(shí)在構(gòu)建山東省 16 地市網(wǎng)絡(luò)算力方面做了大量工作。

存儲(chǔ)資源:目前總存儲(chǔ)資源超 245PB,其中 17PB 是用于山河超級(jí)計(jì)算機(jī)配套使用的全閃并行文件存儲(chǔ),支持傳統(tǒng)文件存儲(chǔ)、對(duì)象存儲(chǔ)和云計(jì)算里的塊存儲(chǔ)以及大數(shù)據(jù)存儲(chǔ)。

高性能計(jì)算節(jié)點(diǎn):山河超級(jí)計(jì)算主要圍繞科學(xué)計(jì)算集群、工程計(jì)算集群和數(shù)據(jù)計(jì)算集群三個(gè)集群打造,加上“神威·藍(lán)光Ⅱ”超級(jí)計(jì)算機(jī)共有四個(gè)集群。

通過(guò)與青云合作建設(shè) AI 計(jì)算節(jié)點(diǎn),濟(jì)南超算針對(duì)已有四款集群做了融合和調(diào)度,與青云基于數(shù)據(jù)中心的物聯(lián)網(wǎng)平臺(tái)聯(lián)合打造了邊緣推理。目前,山河超級(jí)計(jì)算的云計(jì)算節(jié)點(diǎn)超 2500 個(gè),整體提供的業(yè)務(wù)規(guī)模超 4 萬(wàn)臺(tái),得益于青云提供的相關(guān)支持還配套了超 5000 臺(tái)云桌面。同時(shí)山河超級(jí)計(jì)算平臺(tái)連續(xù)兩年參加 IO 500 榜單相關(guān)的測(cè)試打榜工作,并取得全球第一的成績(jī),印證了其硬件配置高,配套軟件彈性伸縮、調(diào)度能力優(yōu)秀。

  濟(jì)南超算科技園區(qū)

2019 年在省市的支持下,濟(jì)南超算建設(shè)了國(guó)家超級(jí)計(jì)算濟(jì)南中心科技園區(qū),地處齊魯科創(chuàng)大走廊和山東自由貿(mào)易區(qū)交叉區(qū)域,可以非常便捷地服務(wù)周邊企業(yè)及科研院所,滿足其算力資源需求。濟(jì)南超算數(shù)據(jù)中心建筑面積達(dá) 4 萬(wàn)平米,共建設(shè)了 21 個(gè)機(jī)房(包含 5 個(gè) A 類機(jī)房、16 個(gè) B 類機(jī)房),規(guī)劃了 2700 個(gè)機(jī)柜數(shù)。針對(duì) AI 算力對(duì)單機(jī)柜功率的高要求,濟(jì)南超算機(jī)柜過(guò)半比例為高功率,主要分為 20 千瓦、35 千瓦和 50 千瓦三檔(傳統(tǒng) IDC 一般為 7 千瓦、3.5 千瓦和 5 千瓦),因此濟(jì)南超算數(shù)據(jù)中心在承載 AI 算力、高性能算力上具有非常大的優(yōu)勢(shì)。

同時(shí)濟(jì)南超算科技園區(qū)建設(shè)了大量公共空間和相關(guān)辦公環(huán)境,超 12 個(gè)培訓(xùn)教室、大中型報(bào)告廳、休閑區(qū)域,非常適合做聯(lián)合科研創(chuàng)新、研發(fā)工作的企業(yè)。

算力網(wǎng)絡(luò)建設(shè)

多方攜手&逐步構(gòu)建

  算力網(wǎng)絡(luò)建設(shè)發(fā)展歷程

濟(jì)南超算在算力網(wǎng)絡(luò)方面起步較早,整體圍繞六個(gè)方向規(guī)劃:算網(wǎng)基礎(chǔ)設(shè)施方面、算網(wǎng)操作系統(tǒng)方面(與青云聯(lián)合研發(fā)工作)、算網(wǎng)應(yīng)用方面(青云參與輔助支撐)、算力安全、算力網(wǎng)絡(luò)安全、算網(wǎng)標(biāo)準(zhǔn)規(guī)范。

整個(gè)濟(jì)南超算的算力網(wǎng)絡(luò)建設(shè)內(nèi)部命名為“山東超算互聯(lián)網(wǎng)建設(shè)”,發(fā)展歷程大致如下:

2017 年:在全國(guó)超算中心 CEO 聯(lián)席會(huì)議上提出,想構(gòu)建一個(gè)全國(guó)性的超算互聯(lián)網(wǎng)絡(luò)。

2018 年:開(kāi)始實(shí)施規(guī)劃并與青島海洋科學(xué)實(shí)驗(yàn)室合作項(xiàng)目。

2019 年:立項(xiàng)重點(diǎn)支持超算互聯(lián)網(wǎng)建設(shè)。

2021 年:項(xiàng)目驗(yàn)收并圍繞超算互聯(lián)網(wǎng)的關(guān)鍵技術(shù)做相關(guān)研發(fā)工作。

2022 年:第二期超算互聯(lián)網(wǎng)建設(shè)立項(xiàng),同時(shí)山東省基于整個(gè)超算互聯(lián)網(wǎng)絡(luò)專門給濟(jì)南超算立項(xiàng),支持山東超算互聯(lián)網(wǎng)的關(guān)鍵技術(shù)專項(xiàng)。

總體來(lái)說(shuō),濟(jì)南超算在整個(gè)算力網(wǎng)絡(luò)建設(shè)上積累了豐富經(jīng)驗(yàn)與成果。

 

  山東超算互聯(lián)網(wǎng)從 2019 年規(guī)劃,分三期建設(shè):第一期:與青島海洋實(shí)驗(yàn)室合作驗(yàn)證性網(wǎng)絡(luò)建立了"同城兩地三中心"架構(gòu),實(shí)現(xiàn)濟(jì)南超算濟(jì)南市運(yùn)營(yíng)的兩個(gè)數(shù)據(jù)中心互聯(lián),并與青島海洋實(shí)驗(yàn)室遠(yuǎn)距互聯(lián),在此之上構(gòu)筑算力應(yīng)用并做驗(yàn)證。第二期:構(gòu)建山東 16 地市的“山東算網(wǎng)”2022 — 2023 年底計(jì)劃在科研、教育、工業(yè)、民生等領(lǐng)域的算力應(yīng)用開(kāi)展落地、實(shí)施和驗(yàn)證工作。第三期:構(gòu)筑 5ms 算力圈到 2025 年主要基于濟(jì)南超算目前 16 地市的建設(shè)經(jīng)驗(yàn)打造面向黃河流域算力平臺(tái)構(gòu)筑 5ms 算力圈。

  算力網(wǎng)絡(luò)建設(shè)發(fā)展現(xiàn)狀

基于整個(gè)山東超算互聯(lián)網(wǎng)建設(shè)歷程,濟(jì)南超算針對(duì)原有算力網(wǎng)絡(luò)標(biāo)準(zhǔn)體系,根據(jù)自身理解做了定義,認(rèn)為整個(gè)算力節(jié)點(diǎn)分為三種:一、傳統(tǒng)算力節(jié)點(diǎn):主要提供算力服務(wù)。二、存力節(jié)點(diǎn):主要提供多元存儲(chǔ)服務(wù)。三、網(wǎng)絡(luò)結(jié)點(diǎn):主要提供網(wǎng)絡(luò)服務(wù),如網(wǎng)絡(luò)加速、網(wǎng)絡(luò)接入、VPN、高速直連通道、邊緣應(yīng)用加速。

  另外針濟(jì)南超算對(duì)整個(gè)算力節(jié)點(diǎn)做了“算網(wǎng)定義”,即在算力網(wǎng)絡(luò)上存在四張網(wǎng):生產(chǎn)網(wǎng)、傳輸網(wǎng)、配給網(wǎng)、終端網(wǎng),并按照三類節(jié)點(diǎn)構(gòu)建(核心、骨干和邊緣)來(lái)承載這四張網(wǎng),其中核心節(jié)點(diǎn)是濟(jì)南、青島和棗莊,骨干上覆蓋了剩下的 13 個(gè)地市以及涉及地市的邊緣節(jié)點(diǎn),整體組網(wǎng)拓?fù)洳捎昧?ldquo;星型”組網(wǎng)的建設(shè)方式。目前核心節(jié)點(diǎn)濟(jì)南和青島已經(jīng)建設(shè)完成,采用 100Gbps 網(wǎng)絡(luò)建設(shè),剩下 14 個(gè)地市大多按照骨干節(jié)點(diǎn)、10Gbps 全光互聯(lián)的方式建設(shè),還有一些邊緣節(jié)點(diǎn)有 1Gbps 和幾百兆的帶寬。具體實(shí)施上,濟(jì)南超算采用全光的 OTN 的方式構(gòu)建,可靈活調(diào)整帶寬,實(shí)現(xiàn)極低延遲。

  算力網(wǎng)絡(luò)建設(shè)未來(lái)構(gòu)想

由于建設(shè)項(xiàng)目的要求,目前實(shí)施仍按照“星型”模式,預(yù)計(jì) 2023 年底能調(diào)成環(huán)網(wǎng),因?yàn)榫W(wǎng)狀的結(jié)構(gòu)相對(duì)更靈活,延遲更低。同時(shí)在建設(shè)時(shí)為濟(jì)南和棗莊預(yù)留了算力網(wǎng)絡(luò)接入?yún)^(qū),方便未來(lái)濟(jì)南往北對(duì)接京津冀算力圈,棗莊對(duì)接長(zhǎng)三角的算力集群。

未來(lái)濟(jì)南超算也將繼續(xù)積極參與各類算網(wǎng)項(xiàng)目,目前已作為成員單位參與科技部牽頭的中國(guó)超算互聯(lián)網(wǎng),并在“東數(shù)西算”網(wǎng)絡(luò)方面成立了黃河流域算力聯(lián)盟,未來(lái)還將逐步構(gòu)建連接黃河流域的國(guó)家級(jí)“東數(shù)西算”樞紐。

全算力服務(wù)

支持諸多科研&商業(yè)場(chǎng)景

濟(jì)南超算作為公共服務(wù)平臺(tái),圍繞山東省產(chǎn)業(yè)和山東規(guī)劃建設(shè)的大科學(xué)計(jì)劃、大科學(xué)工程展開(kāi)算力服務(wù)。

  傳統(tǒng)超算涉及的新能源、仿真、石油、高端農(nóng)機(jī)裝備、新材料、海洋、藥物、化工、天文觀測(cè)、衛(wèi)星遙感等領(lǐng)域生態(tài)建設(shè)已較成熟,濟(jì)南超算自 2011 年開(kāi)始圍繞國(guó)產(chǎn)超算平臺(tái)構(gòu)建自主可控的超算應(yīng)用生態(tài),2022 年上線自主可控的超算軟件生態(tài)平臺(tái),主要為電池、材料、海洋、醫(yī)療、核能、環(huán)保、生態(tài)保護(hù)、石油勘探等行業(yè)提供基礎(chǔ)庫(kù)與軟件平臺(tái)。

生態(tài)環(huán)境方面

濟(jì)南超算運(yùn)營(yíng)國(guó)家生態(tài)環(huán)境大數(shù)據(jù)超算云中心開(kāi)展很多國(guó)家生態(tài)環(huán)保、特別是空氣質(zhì)量預(yù)測(cè)預(yù)報(bào)工作,支撐了部分國(guó)家重大活動(dòng),譬如服務(wù)山東本地空氣質(zhì)量業(yè)務(wù)平臺(tái)。超算云中心得益于青云科技提供的許多支撐,自 2021 年底上線運(yùn)行至今都相當(dāng)穩(wěn)定。

工業(yè)互聯(lián)網(wǎng)方面

濟(jì)南超算在高鐵氣動(dòng)仿真平臺(tái)上做得相對(duì)較早,也是自身比較擅長(zhǎng)的領(lǐng)域。目前圍繞超算互聯(lián)網(wǎng)山東算網(wǎng)工程與省內(nèi)工業(yè)企業(yè)合作,今年在鋼鐵行業(yè)做了相關(guān)計(jì)算工作。圍繞“黃河戰(zhàn)略”的場(chǎng)景涉及大量數(shù)據(jù)和模型相關(guān)的融合場(chǎng)景,智慧黃河模擬器內(nèi)部還在研發(fā),作為底層基礎(chǔ)設(shè)施平臺(tái)青云調(diào)度能力在整個(gè)數(shù)據(jù)采集、數(shù)據(jù)流轉(zhuǎn)方面發(fā)揮了作用。

智慧政務(wù)業(yè)務(wù)方面

濟(jì)南超算為山東數(shù)字政府提供云計(jì)算服務(wù),資源調(diào)度方面與青云科技合作,針對(duì)目前政務(wù)云的云計(jì)算資源池,與高性能計(jì)算、人工智能計(jì)算的集群之間實(shí)現(xiàn)了算力資源的彈性擴(kuò)展。在山東省生態(tài)環(huán)保業(yè)務(wù)平臺(tái)時(shí),其需要高性能計(jì)算算力,但政務(wù)云的傳統(tǒng)云計(jì)算平臺(tái)里很少規(guī)劃高性能計(jì)算,得益于濟(jì)南超算有獨(dú)立的高性能計(jì)算池因此實(shí)現(xiàn)了政務(wù)云資源池和山河高性能計(jì)算資源池之間的彈性資源擴(kuò)展,可以支持山東環(huán)保業(yè)務(wù)平臺(tái)需要高性能計(jì)算業(yè)務(wù)時(shí)自動(dòng)彈到高性能計(jì)算池,相反如果沒(méi)有需求時(shí)可自動(dòng)收縮。

智慧醫(yī)療方面

濟(jì)南超算按照“云、邊、端”形式,與國(guó)家醫(yī)療大數(shù)據(jù)北方中心、省千佛山醫(yī)院等單位合作,研發(fā)了在線遠(yuǎn)程標(biāo)注、推理等相關(guān)場(chǎng)景。

對(duì)地觀測(cè)方面

濟(jì)南超算與空天院深度合作,建設(shè)濟(jì)南到北京的遙感專線,用于匯聚遙感數(shù)據(jù)。同時(shí)計(jì)算集群支撐針對(duì)遙感數(shù)據(jù)的分析處理,與青云合作數(shù)據(jù)流轉(zhuǎn)平臺(tái)用于數(shù)據(jù)無(wú)縫流轉(zhuǎn),特別是處理后的數(shù)據(jù)。

智慧教育方面

基于青云的底層平臺(tái),濟(jì)南超算做了像教學(xué)實(shí)訓(xùn)類業(yè)務(wù),并從已經(jīng)服務(wù)的 7、8 所大學(xué)向全國(guó)推廣,可以提供虛擬機(jī)、容器集中服務(wù),基于青云提供的底座有效支撐了整個(gè)業(yè)務(wù)應(yīng)用需求,在疫情期間在線教學(xué)上發(fā)揮了很大作用。

人工智能平臺(tái)建設(shè)方面

濟(jì)南超算依托青云以及其他合作伙伴共同推進(jìn)自然語(yǔ)言巨量模型訓(xùn)練的相關(guān)工作,去年在國(guó)家高考語(yǔ)文閱讀理解、作文上可以看到平臺(tái)訓(xùn)練出來(lái)的模型整體效果優(yōu)秀,青云科技平臺(tái)就其中涉及的存儲(chǔ)數(shù)據(jù)流轉(zhuǎn)、AI 算力調(diào)度提供了強(qiáng)有力的支撐保障。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦