來源:芝能智芯
發(fā)布時(shí)間:2024-12-20
閱讀量:8
在 AI 與高性能計(jì)算(HPC)需求急劇攀升的背景下,數(shù)據(jù)中心互連技術(shù)的重要性愈發(fā)凸顯。
新思科技(Synopsys)在AI計(jì)算領(lǐng)域再度發(fā)力,于美國(guó)加州當(dāng)?shù)貢r(shí)間12月11日發(fā)布了Ultra Ethernet和UALink IP解決方案。
此舉旨在對(duì)標(biāo)英偉達(dá)的InfiniBand與NVLink技術(shù),提出了更為開放的AI加速器互聯(lián)方案,得到了微軟、Meta、AMD、英特爾等行業(yè)巨頭的支持。
這兩大方案的推出不僅標(biāo)志著新一代高性能計(jì)算(HPC)和人工智能(AI)基礎(chǔ)設(shè)施的嶄新生態(tài),還預(yù)示著開放協(xié)議逐漸取代封閉協(xié)議的行業(yè)趨勢(shì)。
本文將深入分析Ultra Ethernet和UALink IP方案的創(chuàng)新意義及其對(duì)AI計(jì)算和互聯(lián)技術(shù)的深遠(yuǎn)影響。
Ultra Ethernet 和 UALink IP 方案的創(chuàng)新與趨勢(shì)分析
● 什么是Ultra Ethernet和UALink IP?
Ultra Ethernet與UALink分別針對(duì)AI加速器集群的Scale Out(橫向擴(kuò)展)和Scale Up(縱向擴(kuò)展)互聯(lián)需求。
前者致力于通過以太網(wǎng)協(xié)議實(shí)現(xiàn)萬(wàn)級(jí)以上服務(wù)器間的高速連接,支持高達(dá)100萬(wàn)個(gè)端點(diǎn),單端口帶寬達(dá)1.6Tbps。后者則針對(duì)POD單元內(nèi)的超節(jié)點(diǎn)連接,每個(gè)通道支持200Gbps,最多支持1024個(gè)AI加速器。
兩者均采用開放標(biāo)準(zhǔn),通過包含控制器、PHY和驗(yàn)證IP的整體解決方案提供高帶寬、低延遲的性能。
◎ Ultra Ethernet IP 解決方案:支持橫向擴(kuò)展至 100 萬(wàn)個(gè)端點(diǎn),帶寬可達(dá) 1.6 Tbps,包含經(jīng)過芯片驗(yàn)證的 224G 以太網(wǎng) PHY。
其在傳輸層有顯著改變,如引入 LLR(Link Level Retry)協(xié)議實(shí)現(xiàn)無(wú)損傳輸;物理層支持更高速率并可選支持物理層性能指標(biāo)統(tǒng)計(jì)功能;網(wǎng)絡(luò)層依然基于 IP 協(xié)議;軟件 API 層提供 UEC 擴(kuò)展的 Libfabrics 2.0。
這些創(chuàng)新使得它在大規(guī)模集群互連時(shí)能有效處理網(wǎng)絡(luò)尾延遲問題,通過允許亂序數(shù)據(jù)包傳輸與低層智能重傳機(jī)制結(jié)合,減少 AI 處理器停頓,提升資源利用率與效率。
◎ UALink IP 解決方案:專為數(shù)據(jù)密集型 AI 工作負(fù)載設(shè)計(jì),每個(gè)通道均可支持到 200Gbps,可實(shí)現(xiàn)多達(dá) 1024 個(gè) AI 加速器的 POD 系統(tǒng)內(nèi)部連接。
它定義了創(chuàng)新的 I/O 架構(gòu),具備高性能內(nèi)存語(yǔ)義訪問原生支持,可實(shí)現(xiàn)顯存共享、支持 Switch 組網(wǎng)模式以及超高帶寬和超低時(shí)延能力,在性能和 GPU 互連規(guī)模上超越 Nvidia NVLink 技術(shù),且在加速器、交換芯片、Retimer 等互連技術(shù)上保持中立。
與英偉達(dá)的 InfiniBand 和 NVLink 私有協(xié)議不同,Ultra Ethernet 和 UALink 屬于開放標(biāo)準(zhǔn)協(xié)議。
這一特性吸引了微軟、Meta、AMD、英特爾等眾多重要企業(yè)支持,眾多國(guó)內(nèi)企業(yè)如阿里云、百度等也紛紛加入相關(guān)聯(lián)盟。
開放協(xié)議的優(yōu)勢(shì)在于能包容更多玩家,促進(jìn)方案的靈活性與多樣性,隨著更多參與者加入,互連技術(shù)的進(jìn)化速度將加快,協(xié)議標(biāo)準(zhǔn)也會(huì)趨于統(tǒng)一。
● 變化驅(qū)動(dòng):為何需要更開放的互聯(lián)方案?
隨著 AI 模型規(guī)模不斷增大,如模型大小每四到六個(gè)月就翻一番,對(duì)計(jì)算資源和數(shù)據(jù)傳輸?shù)囊笠搽S之急劇增加。
傳統(tǒng)的互連技術(shù)在帶寬、延遲和可擴(kuò)展性方面逐漸難以滿足需求。
Ultra Ethernet 和 UALink IP 解決方案旨在提供更高的帶寬、更低的延遲以及更強(qiáng)的擴(kuò)展性,以適應(yīng)大規(guī)模 AI 加速器集群的高效互聯(lián),從而提升整個(gè) AI 計(jì)算基礎(chǔ)設(shè)施的性能,滿足如運(yùn)行大型語(yǔ)言模型(如 Llama 3 及其后續(xù)產(chǎn)品)時(shí)在 AI 集群內(nèi)外移動(dòng)大量數(shù)據(jù)的互連需求。
◎ 市場(chǎng)需求的爆炸式增長(zhǎng):生成式AI和大模型(如ChatGPT)掀起了AI訓(xùn)練需求的浪潮,對(duì)算力和互聯(lián)技術(shù)提出了前所未有的高要求。傳統(tǒng)封閉式協(xié)議如英偉達(dá)的InfiniBand和NVLink盡管性能卓越,卻因技術(shù)封閉和客戶鎖定問題受到限制。
◎ 開放協(xié)議的行業(yè)趨勢(shì):UEC(Ultra Ethernet Consortium)和UALink聯(lián)盟的相繼成立,反映出行業(yè)對(duì)開放生態(tài)系統(tǒng)的強(qiáng)烈訴求。這不僅能夠引入更多玩家參與技術(shù)演進(jìn),還能打破技術(shù)壟斷,增強(qiáng)產(chǎn)業(yè)鏈韌性。
◎ 技術(shù)復(fù)雜度的提升:AI加速器集群的擴(kuò)展已從傳統(tǒng)的業(yè)務(wù)網(wǎng)絡(luò)互聯(lián)(業(yè)務(wù)邏輯)轉(zhuǎn)向?qū)cale Out和Scale Up網(wǎng)絡(luò)性能的全面優(yōu)化。
Ultra Ethernet通過引入LLR協(xié)議和改進(jìn)傳輸層,解決了以太網(wǎng)尾延遲問題。而UALink則通過更高的帶寬和低延遲,超越NVLink的性能極限,滿足下一代AI服務(wù)器的需求。
打破英偉達(dá)在互連技術(shù)領(lǐng)域的封閉格局,構(gòu)建一個(gè)開放、互操作的生態(tài)系統(tǒng)。
在這個(gè)生態(tài)系統(tǒng)中,不同的硬件廠商、軟件開發(fā)商、云服務(wù)提供商等可以更加自由地進(jìn)行技術(shù)創(chuàng)新與合作,避免因單一廠商壟斷而帶來的技術(shù)演進(jìn)受限和產(chǎn)業(yè)鏈韌性降低的問題。
例如,UALink 聯(lián)盟的成立使得 Broadcom 等公司可以制作 UALink 交換機(jī),在多家公司的加速器中使用,促進(jìn)了整個(gè)行業(yè)的技術(shù)共享與協(xié)同發(fā)展。
● 核心要素總結(jié)
◎ 開放性:支持廣泛的硬件和軟件互操作性,避免廠商鎖定。
◎ 高性能:低至10微秒的延遲、1.6Tbps的帶寬及200Gbps/通道的傳輸能力。
◎ 擴(kuò)展性:支持大規(guī)模端點(diǎn)互聯(lián),適配未來超大規(guī)模AI計(jì)算架構(gòu)。
◎ 靈活性:通過開放標(biāo)準(zhǔn)和聯(lián)盟推進(jìn),形成適應(yīng)多樣化應(yīng)用場(chǎng)景的生態(tài)系統(tǒng)。
技術(shù)與市場(chǎng)拓展:開放協(xié)議的未來潛力
行業(yè)從封閉的專有互連協(xié)議逐漸走向開放標(biāo)準(zhǔn)協(xié)議。
◎ 以往英偉達(dá)的 InfiniBand 和 NVLink 雖性能強(qiáng)勁,但因其封閉性限制了技術(shù)的廣泛應(yīng)用與持續(xù)優(yōu)化,且將客戶 “套牢” 在其生態(tài)中。
◎ 而 Ultra Ethernet 和 UALink 開放標(biāo)準(zhǔn)協(xié)議的出現(xiàn),獲得眾多企業(yè)支持,反映出行業(yè)對(duì)開放生態(tài)的渴望與需求,未來數(shù)據(jù)中心互連技術(shù)將更傾向于開放合作,以實(shí)現(xiàn)資源共享與技術(shù)創(chuàng)新的最大化。
在技術(shù)層面呈現(xiàn)融合趨勢(shì)。
◎ 例如超以太網(wǎng)(Ultra Ethernet)在傳統(tǒng)以太網(wǎng)基礎(chǔ)上進(jìn)行多層面改進(jìn),融合了新的傳輸層協(xié)議、鏈路層技術(shù)等,以滿足大規(guī)模 AI 和 HPC 對(duì)網(wǎng)絡(luò)的特殊需求;
◎ UALink 則融合了高性能內(nèi)存訪問、低延遲傳輸、多加速器互連等多種功能于一體,為 AI 服務(wù)器 Scale UP 互連提供一站式解決方案。
這種融合趨勢(shì)將推動(dòng)數(shù)據(jù)中心互連技術(shù)朝著更高效、更智能的方向發(fā)展,以適應(yīng)復(fù)雜多變的 AI 和 HPC 應(yīng)用場(chǎng)景。
Synopsys推出這兩大解決方案的核心目標(biāo)是推動(dòng)開放協(xié)議在AI互聯(lián)領(lǐng)域的普及。這一舉措不僅有助于其在互聯(lián)IP市場(chǎng)中搶占更多份額,還通過開放標(biāo)準(zhǔn)吸引行業(yè)廣泛支持,從而加速技術(shù)和市場(chǎng)的雙向演進(jìn)。
Ultra Ethernet和UALink的開放性使其可以吸引更多參與者,如芯片廠商、云計(jì)算企業(yè)和AI開發(fā)者,共同構(gòu)建開放的技術(shù)生態(tài)。隨著標(biāo)準(zhǔn)化的推進(jìn),更多硬件和軟件廠商可以圍繞該協(xié)議開發(fā)產(chǎn)品,加速整個(gè)產(chǎn)業(yè)鏈的發(fā)展。
英偉達(dá)通過InfiniBand和NVLink占據(jù)了現(xiàn)有AI集群互聯(lián)市場(chǎng)的主導(dǎo)地位,但其封閉特性和較高成本為競(jìng)爭(zhēng)對(duì)手提供了機(jī)會(huì)。Synopsys方案的開放性和性能優(yōu)勢(shì),有望成為其客戶擺脫單一供應(yīng)商依賴的有效替代方案。
對(duì)中國(guó)企業(yè)而言,開放協(xié)議的推廣意味著更大的自主發(fā)展空間。通過參與UEC和UALink聯(lián)盟,中國(guó)廠商有機(jī)會(huì)在AI集群互聯(lián)領(lǐng)域縮小與國(guó)際技術(shù)水平的差距,同時(shí)增強(qiáng)本地產(chǎn)業(yè)鏈的獨(dú)立性。
隨著 Ultra Ethernet 和 UALink 技術(shù)的發(fā)展以及相關(guān)標(biāo)準(zhǔn)的不斷完善,未來數(shù)據(jù)中心互連技術(shù)將持續(xù)演進(jìn)。
◎ 在帶寬方面,可能會(huì)進(jìn)一步提升,以滿足不斷增長(zhǎng)的 AI 數(shù)據(jù)傳輸需求;
◎ 在延遲方面,將繼續(xù)優(yōu)化,以提高 AI 計(jì)算的實(shí)時(shí)性;
◎ 在可擴(kuò)展性方面,將支持更大規(guī)模的 AI 加速器集群互聯(lián),適應(yīng)未來超大規(guī)模 AI 數(shù)據(jù)中心的建設(shè)需求。
基于 Ultra Ethernet 和 UALink 的開放生態(tài)系統(tǒng)將日益繁榮。更多的企業(yè)將在這個(gè)生態(tài)系統(tǒng)中進(jìn)行技術(shù)創(chuàng)新、產(chǎn)品研發(fā)和市場(chǎng)推廣。
◎ 例如,芯片制造商將開發(fā)出更多兼容 Ultra Ethernet 和 UALink 的芯片產(chǎn)品;系統(tǒng)集成商將構(gòu)建出更高效、更靈活的 AI 計(jì)算系統(tǒng);
◎ 軟件開發(fā)商將針對(duì)這些互連技術(shù)開發(fā)出更優(yōu)化的軟件應(yīng)用,從而形成一個(gè)完整的、充滿活力的產(chǎn)業(yè)鏈生態(tài),推動(dòng)整個(gè) AI 和 HPC 行業(yè)的快速發(fā)展。
小結(jié)
Ultra Ethernet和UALink IP解決方案,代表著AI集群互聯(lián)領(lǐng)域邁向開放和高效的新階段,在開放協(xié)議逐漸成為主流的背景下,一個(gè)更加多元化、互操作性更強(qiáng)的AI計(jì)算生態(tài)在慢慢形成。
對(duì)于英偉達(dá)而言,這也是一個(gè)重新審視其封閉策略的契機(jī)。而在這場(chǎng)競(jìng)爭(zhēng)與合作交織的技術(shù)變革中,創(chuàng)新和開發(fā)會(huì)是主旋律。
微信掃碼分享