?老黃連續(xù)三年都提,這DPU是什么風(fēng)口之物?

閱讀 ?·? 發(fā)布日期 2022-04-07 15:39 ?·? admin

有心的朋友可能都注意到,連續(xù)三年黃仁勛在NVIDIA的GTC等發(fā)布活動(dòng)上,都提出了發(fā)展DPU以促進(jìn)邊緣計(jì)算等發(fā)展的言論。今年最新的NVIDIA發(fā)布會(huì),除了3090Ti外,就是新的DPU發(fā)展計(jì)劃。自CPU、GPU后,DPU再次登臺(tái)而且成為了新的“風(fēng)口”。那么,它究竟是什么,吸引了從Intel到NVIDIA等傳統(tǒng)巨頭都紛紛投入?

 

圖片

 

整合舊的處理單元,專注處理數(shù)據(jù)

 
 

 

相信很多人對于CPU(中央處理器)已經(jīng)非常熟悉了。靈活、響應(yīng)迅速的CPU多年來一直是大多數(shù)計(jì)算機(jī)中唯一的可編程元件。

 

近年來,GPU(圖形處理單元)逐漸成為了計(jì)算的中心。最初GPU是用來做功能強(qiáng)大的實(shí)時(shí)圖形處理,現(xiàn)在憑借其優(yōu)秀的并行處理能力,已經(jīng)成為各種加速計(jì)算任務(wù)的理想選擇。

 

這使GPU成為了人工智能、深度學(xué)習(xí)和大數(shù)據(jù)分析應(yīng)用的關(guān)鍵。

 

過去十年中,計(jì)算已經(jīng)不僅僅局限在個(gè)人電腦和服務(wù)器內(nèi),CPU和GPU已經(jīng)被廣泛地用于各個(gè)新型超大規(guī)模數(shù)據(jù)中心。

 

這些數(shù)據(jù)中心通過功能強(qiáng)大的新型處理器連接在一起,DPU( Data Processing Unit ,數(shù)據(jù)處理器)已經(jīng)成為了以數(shù)據(jù)為中心的加速計(jì)算模型的第三個(gè)計(jì)算單元。NVIDIA首席執(zhí)行官黃仁勛在一次演講中表示:“它將成為未來計(jì)算的三大支柱之一。”

 

“CPU用于通用計(jì)算,GPU用于加速計(jì)算,而數(shù)據(jù)中心中傳輸數(shù)據(jù)的DPU則進(jìn)行數(shù)據(jù)處理。”

 

DPU是一種基于行業(yè)標(biāo)準(zhǔn),高性能及軟件可編程的多核CPU,核心是具有高性能網(wǎng)絡(luò)接口、靈活、可編程的加速引擎,滿足特定場景的計(jì)算需求。

 

圖片

 

DPU出現(xiàn),因?yàn)镃PU和GPU接近極限

 
 

 

從x86 CPU,到移動(dòng)互聯(lián)網(wǎng)時(shí)代的ARM CPU,構(gòu)成了傳統(tǒng)IT的硬件設(shè)備核心。隨著區(qū)塊鏈和3D、AI人工智能技術(shù)的發(fā)展,GPU又成為了計(jì)算能力的新規(guī)。然而到了萬物互聯(lián)的元宇宙時(shí)代,人們突然發(fā)現(xiàn)一個(gè)重要的問題:

 

無論是CPU還是GPU,它們的性能快不夠用了。

 

圖片

1990年到2020年,萬物互聯(lián)(網(wǎng)絡(luò))速度核CPU速度增長的對比

 

CPU幾乎快要觸及半導(dǎo)體原料的物理效應(yīng)極限,人類沖擊2nm以下的工藝制程困難重重。GPU雖然憑借可接受的更大芯片體積以及并行化處理,還能通過堆疊的方式繼續(xù)沖擊性能,但是功耗已經(jīng)大大提高到和節(jié)能環(huán)保背離,40系顯卡需要千瓦級(jí)電源就是最好的個(gè)案。

 

傳統(tǒng)提升CPU和GPU算力的主要途徑,就是堆料,說白了就是不斷增加內(nèi)核的數(shù)量。CPU從最初的單核、到雙核、四核,再到現(xiàn)在夸張的128核,這種簡單粗暴的堆料方法已經(jīng)走到了盡頭:功耗的限制讓傳統(tǒng)制程和架構(gòu)的提高有了極限。

 

芯片上的內(nèi)核就像大樓的房間,當(dāng)大樓總表的電力有限的時(shí)候,這些房間的電器不能同時(shí)開啟,因此即便房間很多,能用起來的并不多,這就是12代酷睿為何發(fā)展出P、E核,ARM為啥從六七代開始就有了大小核之分的原因。

 

單個(gè)芯片的功耗并不能無限制增加,所以即便堆了很多內(nèi)核,它們也無法同時(shí)高效工作,這就造成了CPU的性能瓶頸。

 

DPU領(lǐng)跑“領(lǐng)域架構(gòu)”

 
 

 

領(lǐng)域?qū)S眉軜?gòu)(Domain Specific Architecture),也稱作DSA。DPU就是其中的代表,其核心思想,是針對特定領(lǐng)域做芯片架構(gòu)的優(yōu)化,從而實(shí)現(xiàn)性能和功效的雙重提升。

 

DPU正是通過架構(gòu)優(yōu)化、場景優(yōu)化、軟件優(yōu)化,完成了在數(shù)據(jù)中心場景里,傳統(tǒng)CPU已經(jīng)無力估計(jì)的眾多方面。

 

DPU本身是一種SOC(System On Chip,片上系統(tǒng))芯片,它結(jié)合了:

 

行業(yè)標(biāo)準(zhǔn)的、高性能及軟件可編程的多核CPU

通?;谝褢?yīng)用廣泛的Arm架構(gòu),與其的SOC組件密切配合。例如NVIDIA的BlueField-3里有16個(gè)ARM A78內(nèi)核,8MB L2、16MB L3 Cache。它還支持可編程的數(shù)據(jù)通路,包含16個(gè)內(nèi)核、256線程。

 

高性能網(wǎng)絡(luò)接口,能以線速或網(wǎng)絡(luò)中的可用速度解析、處理數(shù)據(jù),并高效地將數(shù)據(jù)傳輸?shù)紾PU和CPU。

以NVIDIA的DPU為例,從BlueField-2的200Gbps以太網(wǎng)或InfiniBand、PCIe Gen4x16支持,到BlueField-3的400Gbps以太網(wǎng)、PCIe Gen5x32支持,核心都是幾何級(jí)提高芯片的網(wǎng)絡(luò)核數(shù)據(jù)總線速度,提高數(shù)據(jù)處理效率。

 

各種靈活和可編程的加速引擎,可以卸載AI、機(jī)器學(xué)習(xí)、安全、電信和存儲(chǔ)等應(yīng)用,并提升性能。

DPU在芯片架構(gòu)上進(jìn)行了領(lǐng)域?qū)S脙?yōu)化,比如BlueField里就集成了很多專用的硬件加速器,比如對Virtio、NVMe、IPSec等等數(shù)據(jù)中心常見協(xié)議的硬件模塊。原本這些協(xié)議都是使用CPU執(zhí)行開發(fā)者代碼實(shí)現(xiàn),現(xiàn)在直接通過DPU就可以用硬件實(shí)現(xiàn)了,就像硬件解碼一樣,效率大大提升。

所有這些DPU功能對于實(shí)現(xiàn)安全的、裸性能的、原生云計(jì)算的下一代云上大規(guī)模計(jì)算至關(guān)重要。

 

是網(wǎng)卡,更是DPU

 
 

 

來看看一個(gè)簡單的DPU單元,所謂的smartNIC。

 

圖片

 

DPU可以用作獨(dú)立的嵌入式處理器,但通常是被集成到SmartNIC(一種作為下一代服務(wù)器中關(guān)鍵組件的網(wǎng)卡)中。上圖就是一張采用NVIDIA的BludField-2 DPU的SmartNIC。

 

為什么DPU采用SmartNIC的形態(tài)呢?

 

如果想通過蠻力在性能上擊敗傳統(tǒng)的x86 核ARM架構(gòu)的CPU,結(jié)果注定會(huì)失敗,這樣做既沒有競爭力,也無法擴(kuò)展。如果說一個(gè)傳統(tǒng) CPU尚且無法以每秒100 Gb的速度處理數(shù)據(jù)包,如何能期望一個(gè)嵌入式CPU做到?

 

圖片

某DPU系統(tǒng)通過內(nèi)建的高速數(shù)據(jù)總線核模塊,同時(shí)處理多路NVME SSD數(shù)據(jù),實(shí)現(xiàn)高達(dá)1500萬IOPS的4K讀取性能

 

但換個(gè)思路,如果網(wǎng)卡足夠強(qiáng)大和靈活,可以處理所有網(wǎng)絡(luò)中的數(shù)據(jù),而嵌入式CPU則被用來做控制路徑的初始化和異常情況處理,一切就都解決了。

 

圖片

DPU如果專注處理海量特定數(shù)據(jù),那么CPU方面就可以專注實(shí)用虛擬機(jī)等技術(shù)給用戶提供更好體驗(yàn)

 

這就是DSA領(lǐng)域?qū)S眉軜?gòu)帶來的DPU思想的精髓。根據(jù)具體的應(yīng)用領(lǐng)域進(jìn)行優(yōu)化,幫傳統(tǒng)CPU減負(fù),任何可以不需要在CPU上運(yùn)行的任務(wù),都放在DPU上執(zhí)行。

 

DPU興起,就是因?yàn)樗鉀Q了現(xiàn)代數(shù)據(jù)中心里CPU解決不了的一系列難題,實(shí)現(xiàn)了架構(gòu)優(yōu)化、場景優(yōu)化、軟件優(yōu)化。

為您推薦