助攻AI大模型,騰訊云星脈高性能計算網(wǎng)絡(luò)首次完整披露|環(huán)球今亮點
智東西
(資料圖片僅供參考)
編譯 | Glu
編輯 | 李水青
智東西6月27日消息,昨天下午,騰訊云在北京舉辦了一場面向AI大模型的高性能網(wǎng)絡(luò)溝通會,在現(xiàn)場首次完整披露了其自研的星脈高性能計算網(wǎng)絡(luò)。據(jù)稱,星脈網(wǎng)絡(luò)具備業(yè)界最高互聯(lián)帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,還讓AI大模型通信性能提升10倍。
同時,基于騰訊云新一代算力集群HCC,星脈網(wǎng)絡(luò)可支持10萬卡的超大計算規(guī)模。
AI新時代,大模型成為AI領(lǐng)域最火熱的話題,各大科技公司紛紛入局,騰訊公司也不例外,繼6月19日公布其行業(yè)大模型研發(fā)進展后,騰訊云副總裁王亞晨、騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔于今日與智東西等媒體官宣了“星脈網(wǎng)絡(luò)”實現(xiàn)全新升級,并分享了騰訊云網(wǎng)絡(luò)研究的發(fā)展歷程。
王亞晨稱:“星脈網(wǎng)絡(luò)是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò)服務(wù),將助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業(yè)大模型的訓(xùn)練效率,在云上加速大模型技術(shù)的迭代升級和落地應(yīng)用?!?
演講嘉賓:騰訊云副總裁王亞晨
演講嘉賓:騰訊云數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔
一、AI大模型3大網(wǎng)絡(luò)需求:大帶寬、高利用率、無損網(wǎng)絡(luò)
目前,AI大模型的訓(xùn)練參數(shù)已飆升至萬億級別,如此龐大的訓(xùn)練任務(wù)無法由單個服務(wù)器完成,而需要大量GPU服務(wù)器組成算力集群,相互協(xié)作完成任務(wù)。
這些服務(wù)器通過機間網(wǎng)絡(luò)相連接,不斷交換數(shù)據(jù)。因此,高性能網(wǎng)絡(luò)具有至關(guān)重要的地位,它有利于讓算力集群更加快速、準(zhǔn)確地完成大規(guī)模的訓(xùn)練任務(wù)。
大集群不等于大算力,相反,GPU集群規(guī)模的擴大還會引發(fā)額外的通信開銷。因為傳統(tǒng)網(wǎng)絡(luò)架構(gòu)下,數(shù)據(jù)傳輸時會通過多層協(xié)議棧,需要反復(fù)停下來檢查、分揀、打包,導(dǎo)致通信效率低下。
也就是說,網(wǎng)絡(luò)層級越多,致GPU集群通信性能將越低?,F(xiàn)在爆火的生成式AI大模型需要運用千億、萬億參數(shù)規(guī)模進行訓(xùn)練,這個訓(xùn)練過程中通信占比最大可達50%,而傳統(tǒng)低速網(wǎng)絡(luò)的帶寬無法支撐。
在這個問題的解決上,業(yè)界通常會引入RDMA技術(shù)(GPU之間直接通信),這是一種高性能、低延遲的網(wǎng)絡(luò)通信技術(shù),能夠允許計算節(jié)點之間直接進行數(shù)據(jù)傳輸,減少中間環(huán)節(jié)。
但光靠RDMA技術(shù)還遠遠不夠,傳統(tǒng)網(wǎng)絡(luò)協(xié)議也將制約GPU集群的運行效率。傳統(tǒng)網(wǎng)絡(luò)協(xié)議也很容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包,而僅%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費。
王亞晨幽默地將傳統(tǒng)網(wǎng)絡(luò)協(xié)議喻為“交通管理系統(tǒng)”:“這讓所有人都在一條大馬路上行走,自然會導(dǎo)致交通堵塞。”
二、帶寬,支持10萬卡集群組網(wǎng)
基于以上問題,騰訊云在交換機、通信協(xié)議、通信庫以及運營系統(tǒng)等軟硬件方面進行升級,推出了自研的大模型專屬高性能網(wǎng)絡(luò)“星脈”。
“帶寬”決定了能夠同時傳輸?shù)臄?shù)據(jù),“拓?fù)洹笔枪?jié)點設(shè)備間的連接方式,決定了組網(wǎng)規(guī)模的大小。在這兩項硬指標(biāo)上,騰訊云稱星脈皆達到了業(yè)界最高水平。
在硬件方面,星脈網(wǎng)絡(luò)自研白盒交換機,這是一種軟硬件解耦的開放網(wǎng)絡(luò)設(shè)備,采用四層解耦體系,包括接入、轉(zhuǎn)發(fā)、路由、管控系統(tǒng);騰訊云還自研了網(wǎng)絡(luò)操作系統(tǒng),包括網(wǎng)絡(luò)OS與網(wǎng)管平臺,構(gòu)建了互聯(lián)底座,實現(xiàn)自動化部署和配置。
在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞,TiTa網(wǎng)絡(luò)協(xié)議能夠提升40%的帶寬負(fù)載,還能提供低延時無損網(wǎng)絡(luò),實現(xiàn)高負(fù)載下的0丟包,使集群通信效率達90%以上。
王亞晨將其與傳統(tǒng)網(wǎng)絡(luò)協(xié)議對比,稱:“這是讓有不同需求的人走不同的路,就不會導(dǎo)致堵塞了。”
此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實現(xiàn)了微秒級感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動態(tài)調(diào)度機制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時延降低40%。
王亞晨將其比喻為“導(dǎo)航系統(tǒng)”,優(yōu)化后的集合通信就像有了導(dǎo)航一樣,可以快速找到最優(yōu)路徑。
為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研端到端全棧網(wǎng)絡(luò)運營系統(tǒng)。它可以讓大模型訓(xùn)練系統(tǒng)的整體部署時間從19天縮減至天,保證基礎(chǔ)配置100%準(zhǔn)確;通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),它可以進行離線故障診斷、在線故障實時告警,讓整體故障的排查時間由天級降低至分鐘級;此外,它具有秒級的故障自愈能力,端側(cè)會主動發(fā)起路徑選擇,能夠極速恢復(fù)網(wǎng)絡(luò)故障。
三、3代演進,17年耕耘,網(wǎng)絡(luò)硬軟件全自研
根據(jù)騰訊云官方數(shù)據(jù),目前,騰訊云在全球26個地理區(qū)域運營70個可用區(qū),同時在70多個國家和地區(qū)部署了超過2800個CDN加速節(jié)點,全網(wǎng)帶寬資源儲備超過200T。
而在星脈網(wǎng)絡(luò)技術(shù)升級的背后,是騰訊數(shù)據(jù)中心網(wǎng)絡(luò)歷經(jīng)3代技術(shù)演進、17年耕耘的成果。
第一代是互聯(lián)網(wǎng)驅(qū)動時期。數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。這一階段主要使用了商用網(wǎng)絡(luò)設(shè)備,搭建標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),支撐QQ在線人數(shù)增長超過1億,服務(wù)器規(guī)模增長超10萬。
第二代是云服務(wù)驅(qū)動時期。隨著大數(shù)據(jù)和云計算的興起,服務(wù)器之間的東西向流量逐漸增多,云租戶對網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求。數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)逐漸演變?yōu)橥瑫r承載南北向和東西向流量的云網(wǎng)絡(luò)架構(gòu),騰訊云構(gòu)建了全自研網(wǎng)絡(luò)設(shè)備與管理系統(tǒng),打造超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò),服務(wù)器規(guī)模近200萬臺。
第三代是大規(guī)模算力驅(qū)動時期。隨著AI大模型的出現(xiàn),騰訊云在國內(nèi)率先推出高性能計算網(wǎng)絡(luò),采用東西向、南北向流量的分離架構(gòu)。構(gòu)建了獨立的超大帶寬、符合AI訓(xùn)練流量特征的網(wǎng)絡(luò)架構(gòu),并配合自研軟硬件設(shè)施,實現(xiàn)整套系統(tǒng)的自主可控,滿足超強算力對網(wǎng)絡(luò)性能的新需求。
日前,騰訊云發(fā)布的新一代HCC高性能計算集群,正是基于星脈高性能網(wǎng)絡(luò)打造,可以實現(xiàn)超高互聯(lián)帶寬,算力性能較前代提升3倍,為AI大模型訓(xùn)練構(gòu)筑可靠的高性能網(wǎng)絡(luò)底座。
結(jié)語:面向AI大模型,騰訊星脈網(wǎng)絡(luò)打助攻
參數(shù)達到千億、萬億級別的AI大模型尤其看重網(wǎng)絡(luò)性能,它需要大帶寬、高利用率、無損的網(wǎng)絡(luò)來幫助它高效地完成訓(xùn)練任務(wù)。以此為契機,騰訊云基于過往17年的網(wǎng)絡(luò)布局經(jīng)驗與技術(shù)成果,研發(fā)了助攻AI大模型的星脈網(wǎng)絡(luò)。星脈網(wǎng)絡(luò)具備帶寬,可支持10萬卡集群組網(wǎng),能讓AI大模型通信性提升10倍。
自O(shè)penAI于去年推出ChatGPT后,各方勢力紛紛入局AI大模型,千模大戰(zhàn)一觸即發(fā)。騰訊公司上周了公布其行業(yè)大模型的研究進度,騰訊云不“卷”參數(shù),而聚焦到具體產(chǎn)業(yè)端,關(guān)注AI大模型的落地。此外,他們積極構(gòu)建高性能網(wǎng)絡(luò)以助攻AI大模型。此次溝通會中,王亞晨還透露騰訊云正在積極探索下一代高性能網(wǎng)絡(luò),致力于構(gòu)建更強算力的計算集群。
關(guān)鍵詞: