PCIe 6.0借AI開啟商用,7.0即將登場
大部分人連 PCIe 4.0 都未普及,即使是 PCIe 5.0 的產(chǎn)品也只是少量推出,不過廠商們才不管這些,甚至開始推出 PCIe 6.0 的產(chǎn)品了。例如著名的主控廠商慧榮就已經(jīng)開始為 PCIe 6.0 準備新的主控芯片,最高速度或許可以突破 30GB/s。PCIe 6.0 的標準已經(jīng)推出三年,如今商業(yè)化落地的曙光已現(xiàn)。
本文引用地址:http://www.2s4d.com/article/202502/467069.htmPCIe 的起源和發(fā)展
在計算機技術不斷演進的歷程中,數(shù)據(jù)傳輸?shù)男适冀K是制約系統(tǒng)性能提升的關鍵因素。早期,傳統(tǒng)總線技術如 PCI(Peripheral Component Interconnect)在計算機硬件連接中占據(jù)主導地位。然而,隨著計算機硬件性能的飛速發(fā)展,尤其是 CPU 性能的大幅提升以及各種高速外部設備的涌現(xiàn),傳統(tǒng)總線技術逐漸暴露出諸多瓶頸。例如,PCI 總線的帶寬有限,難以滿足高速顯卡、大容量存儲設備等對數(shù)據(jù)傳輸速率的需求,成為了系統(tǒng)性能進一步提升的阻礙。
為了解決這些問題,PCI Express(PCIe)應運而生。PCIe 采用了全新的串行連接方式,取代了傳統(tǒng) PCI 的并行連接,極大地提高了數(shù)據(jù)傳輸?shù)男屎头€(wěn)定性。
PCIe 1.0 版本于 2003 年正式發(fā)布,它的出現(xiàn)標志著計算機總線技術的一次重大變革。PCIe 1.0 的每個通道單向傳輸速率可達 2.5Gbps,雙向就是 5Gbps,每個通道的最大傳輸速率為 250 MB/s。相比傳統(tǒng) PCI 總線,PCIe 1.0 在傳輸速率上有了質的飛躍,能夠更好地支持當時逐漸興起的高速顯卡等設備,使得計算機在圖形處理能力上得到顯著提升。在實際應用中,PCIe 1.0 接口的顯卡能夠更流暢地運行大型 3D 游戲,為玩家?guī)砹烁玫囊曈X體驗。
隨后,PCIe 2.0 版本在 2007 年推出。該版本將每個通道的傳輸速率提升到了 5Gbps,雙向 10Gbps,帶寬相比 PCIe 1.0 翻倍,每個通道的最大傳輸速率為 500 MB/s。這一提升使得 PCIe 2.0 能夠更好地適應數(shù)據(jù)量不斷增大的存儲設備和網(wǎng)絡設備。例如,企業(yè)級的磁盤陣列系統(tǒng)采用 PCIe 2.0 接口后,數(shù)據(jù)讀寫速度大幅提高,提升了企業(yè)數(shù)據(jù)存儲和處理的效率。
2010 年發(fā)布的 PCIe 3.0 版本再次將每個通道的傳輸速率提高到 8Gbps,雙向 16Gbps。PCIe 3.0 在保持與前兩代產(chǎn)品兼容性的同時,進一步優(yōu)化了協(xié)議,降低了延遲,提高了數(shù)據(jù)傳輸?shù)男?,每個通道的最大傳輸速率為 1 GB/s。在計算機硬件領域,PCIe 3.0 廣泛應用于高端服務器、工作站等設備中,為多核心 CPU 與高速存儲設備、網(wǎng)絡設備之間的數(shù)據(jù)交互提供了高效的通道,推動了企業(yè)級數(shù)據(jù)處理能力的提升。
PCIe 4.0 版本于 2017 年發(fā)布,它是 PCIe 技術發(fā)展歷程中的又一個重要里程碑。PCIe 4.0 將每個通道的傳輸速率提升到了 16Gbps,雙向 32Gbps,帶寬相比 PCIe 3.0 再次翻倍,每個通道的最大傳輸速率為 2 GB/s。這一巨大的帶寬提升為數(shù)據(jù)中心和高端顯卡等領域帶來了革命性的變化。
在數(shù)據(jù)中心領域,隨著云計算、大數(shù)據(jù)分析等應用的快速發(fā)展,數(shù)據(jù)中心對數(shù)據(jù)傳輸速度和存儲性能的要求越來越高。PCIe 4.0 的出現(xiàn)使得服務器能夠更快地讀取和存儲海量數(shù)據(jù),大大提高了數(shù)據(jù)處理的效率。例如,采用 PCIe 4.0 接口的固態(tài)硬盤(SSD),其順序讀取速度可以達到 7000MB/s 以上,順序寫入速度也能達到 5000MB/s 以上,相比 PCIe 3.0 接口的 SSD 有了大幅提升,能夠滿足數(shù)據(jù)中心對高速存儲的需求。
在高端顯卡領域,PCIe 4.0 也發(fā)揮了重要作用。隨著游戲畫面越來越精細,對顯卡的性能要求也越來越高。PCIe 4.0 為顯卡提供了更高速的數(shù)據(jù)傳輸通道,使得顯卡能夠更快地從內(nèi)存中讀取數(shù)據(jù),從而提升了游戲的幀率和畫面質量。例如,在運行 4K 分辨率的大型 3D 游戲時,采用 PCIe 4.0 接口的顯卡能夠更流暢地渲染畫面,減少卡頓現(xiàn)象,為玩家?guī)砀两降挠螒蝮w驗。
2019 年發(fā)布的 PCIe 5.0 版本繼續(xù)延續(xù)了 PCIe 技術的高速發(fā)展趨勢。PCIe 5.0 將每個通道的傳輸速率提升到了 32Gbps,雙向 64Gbps,帶寬相比 PCIe 4.0 再次翻倍,每個通道的最大傳輸速率為 4 GB/s。PCIe 5.0 不僅在帶寬上有了巨大提升,還在信號完整性、電源管理等方面進行了優(yōu)化,進一步提高了系統(tǒng)的性能和穩(wěn)定性。
在數(shù)據(jù)中心,PCIe 5.0 的應用使得服務器能夠更好地支持大規(guī)模的虛擬化和云計算應用。通過 PCIe 5.0 接口,服務器可以同時連接更多的高速設備,如高速網(wǎng)卡、高性能 GPU 等,實現(xiàn)更高效的數(shù)據(jù)處理和傳輸。在人工智能領域,PCIe 5.0 也為 GPU 之間的高速通信提供了支持,加速了 AI 模型的訓練和推理過程。例如,在一些大型 AI 訓練項目中,采用 PCIe 5.0 連接的多塊 GPU 能夠更快地交換數(shù)據(jù),提高了訓練效率,縮短了訓練時間。
PCIe 6.0 開始商業(yè)化落地,國產(chǎn)廠商開始布局
2022 年 1 月,PCI-SIG 組織正式發(fā)布了 PCIe 6.0 標準規(guī)范,也是該技術誕生以來變化最大的一次,不僅帶寬繼續(xù)提升,底層腳骨和功能特性也發(fā)生了翻天覆地的變化。2022 年 1 月 27 日,Rambus 全球首個發(fā)布了完全符合 PCIe 6.0 的控制器,支持全部新特性,主要面向高性能計算、數(shù)據(jù)中心、人工智能與機器學習、汽車、物聯(lián)網(wǎng)、國防、航空等高精尖領域。該控制器支持 PCIe 6.0 64GT/s 傳輸數(shù)據(jù)率,x1 通道即可帶來 8GB/s 的單向物理帶寬 (相當于 PCIe 4.0 x4),x16 則高達 128GB/s,雙向就是 256GB/s。目前,PCIe 6.0 已經(jīng)開始在全球范圍內(nèi)商業(yè)化落地,眾多企業(yè)正在推出基于 PCIe 6.0 技術的產(chǎn)品。
美光去年 8 月發(fā)布了行業(yè)首款 PCIe 6.0 固態(tài)硬盤(SSD)。這些 SSD 利用 PCIe 6.0 的高速帶寬,實現(xiàn)了更高的讀寫速度。美光表示這款性能爆炸的 SSD 將會屬于旗下美光 9550 NVMe SSD 系列,官方并沒有公布所采用的內(nèi)存顆粒和主控,只是表示將會采用 PCIe 6.0 進行傳輸,并且主要為數(shù)據(jù)中心而不是消費級打造。美光同時也公布了這款 SSD 的具體速度,表示順序讀取速度最高可以達到 26GB/s,而現(xiàn)在消費級 PCIe 5.0 SSD 速度大約為 14GB/s,快了 85.7% 以上,不過這個速度距離 PCIe 6.0 的極限還有一段距離,正常來說 PCIe 6.0 SSD 的極限速度應該在 32GB/s 左右,很顯然這款 SSD 還屬于比較早期的產(chǎn)品。
2024 年 11 月,英特爾發(fā)布了至強 Diamond Rapids 處理器,將支持 PCIe 6.0。同月,AMD 宣布推出第二代 Versal Premium 系列自適應 SoC 芯片,為各種工作負載提供最高水平的系統(tǒng)加速,這也是 FPGA 行業(yè)內(nèi)首款在硬 IP 中支持 CXL 3.1 協(xié)議、PCIe 6.0 總線、LPDDR5 內(nèi)存的器件。
隨著 PCIe 6.0 的商業(yè)化落地開啟,國產(chǎn)廠商也積極在這一領域進行布局。
存儲解決方案提供商慧榮宣布,正在積極研發(fā)采用 4nm 先進制程技術的 PCIe 6.0 固態(tài)硬盤主控芯片,型號為 SM8466。據(jù)悉,該主控芯片定位于企業(yè)級市場,旨在滿足日益增長的高性能存儲需求。SM8466 主控將全面兼容 PCIe 6.0 x4 通道,其理論帶寬高達 30.25 GB/s,相比 PCIe 5.0 標準實現(xiàn)了顯著的帶寬提升。
瀾起科技宣布推出其最新研發(fā)的 PCIe 6.x/ CXL 3.x Retimer 芯片,并已向客戶成功送樣,目前正在進行 PCIe 7.0 Retimer 芯片的研發(fā)。官方資料顯示,瀾起科技的 PCIe 6.x/ CXL 3.x Retimer 芯片支持 16 通道,其最高數(shù)據(jù)傳輸速率可達 64GT/s,相較 PCIe 5.0 提升一倍。
此外,高頻高速線纜公司金信諾表示,已基本開發(fā)完成匹配英特爾下一代平臺 Oak Stream(PCIe 6.0)的相關產(chǎn)品,為國內(nèi)廠商的技術第一梯隊。廣合科技表示,已完成下一代 PCIe6.0 產(chǎn)品的 Oak 平臺和 Venice 平臺 NPI 樣品試制。
然而,國產(chǎn)廠商在 PCIe 6.0 領域的發(fā)展也面臨著一些挑戰(zhàn)。一方面,與國際知名企業(yè)相比,國產(chǎn)廠商在技術積累和研發(fā)投入上還有一定的差距,需要進一步加大研發(fā)力度,提高技術水平。另一方面,PCIe 6.0 技術的生態(tài)系統(tǒng)還在不斷完善中,國產(chǎn)廠商需要積極參與到生態(tài)系統(tǒng)的建設中,加強與上下游企業(yè)的合作,共同推動 PCIe 6.0 技術的發(fā)展和應用。
PCIe 6.0 還沒用上,PCIe 7.0 又來了
值得注意的是,新一代 PCIe 7.0 已經(jīng)徐徐走來,首次引入光學通信連接。
PCIe 6.0 被認為是 PCIe 問世近 20 年以來變化最大的一次,但是到了這里,傳統(tǒng)思路已經(jīng)基本走到了盡頭,想繼續(xù)提升極為困難。PCIG-SIG DevCon 2024 開發(fā)者大會上,Cadence 全球首次展示了 PCIe 7.0 的全新方向,加入自己獨有的光學連接方案,在一個真實、低延遲、無需重定時、線性光學連接的系統(tǒng)中,跑出了 128GT/s 的收發(fā)速率。這就意味著,它的 x16 雙向帶寬可達 512GB/s,繼續(xù)翻番。
傳統(tǒng)的電氣層已經(jīng)舉步維艱了。隨著數(shù)據(jù)傳輸速率的不斷提高,傳統(tǒng)的電氣信號傳輸面臨著信號衰減、干擾等問題,難以滿足高速數(shù)據(jù)傳輸?shù)男枨蟆6庑盘柧哂袀鬏斔俣瓤?、損耗低、抗干擾能力強等優(yōu)點,因此將光學技術引入 PCIe 7.0 成為了解決高速數(shù)據(jù)傳輸問題的關鍵。
PCIe 7.0 規(guī)范有以下特點:
提供高達 128GT/s 的原始比特率,通過 x16 配置可實現(xiàn)雙向最高可達 512GB/s 的數(shù)據(jù)傳輸速率。
采用 PAM4(四電平脈沖幅度調制)信號,通過在信號上編碼四個不同的振幅級別,提高單位時間內(nèi)傳輸?shù)男畔⒚芏取?/p>
優(yōu)化信道參數(shù)與傳輸距離,優(yōu)化信道設計參數(shù),確保在更長的物理距離下仍能保持高數(shù)據(jù)傳輸速率和穩(wěn)定性。
繼續(xù)改善低延遲性能,并強化系統(tǒng)的魯棒性和數(shù)據(jù)傳輸?shù)臏蚀_性,以適應對實時性和數(shù)據(jù)完整性要求極高的應用場景。
在提高性能的同時注重節(jié)能,致力于降低每比特數(shù)據(jù)傳輸?shù)哪芎摹?/p>
良好的兼容性,保持與所有前幾代 PCIe 技術的向后兼容性,確保新規(guī)范與先前 PCIe 版本的硬件設備無縫對接。
新增光學互連,除了傳統(tǒng)的銅互連,PCIe 7.0 還將提供光學互連選項,能傳輸信號更遠且延遲更低。
PCIe 7.0 技術不會首先應用于任何消費級產(chǎn)品。它主要首先會應用于各種商用企業(yè)級產(chǎn)品領域,比如數(shù)據(jù)中心,人工智能機器學習、高性能計算和網(wǎng)絡通信等方面。具體在目標應用場景上,PCIe 7.0 將滿足未來 800G 以太網(wǎng)、人工智能/機器學習、超大規(guī)模數(shù)據(jù)中心、HPC、量子計算和公有云的高帶寬需求。據(jù)了解,PCIe 7.0 的完整規(guī)范將于 2025 年發(fā)布。而這意味著受支持的設備可能要到 2026 年才會上市,而到 2028-29 年,我們才可能會看到廣泛的產(chǎn)品在企業(yè)級市場問世。
PCIe 技術將成為 AI 基礎設施市場的重要組成部分
不難看出,從 PCIe 6.0 開始,廠商將不再主要針對消費級市場,而是專注于數(shù)據(jù)中心、AI 基礎設施等商用企業(yè)級產(chǎn)品領域。
隨著人工智能技術的快速發(fā)展,AI 應用對數(shù)據(jù)傳輸速度和帶寬的要求越來越高。在 AI 模型的訓練過程中,需要處理海量的數(shù)據(jù),這些數(shù)據(jù)需要在 CPU、GPU、存儲設備等之間高速傳輸。例如,在訓練一個大型的語言模型時,需要將大量的文本數(shù)據(jù)從存儲設備讀取到 GPU 中進行計算,同時還需要將計算結果傳輸回存儲設備。如果數(shù)據(jù)傳輸速度過慢,將會大大延長模型的訓練時間,降低 AI 應用的效率。
傳統(tǒng)的數(shù)據(jù)傳輸技術在面對 AI 應用的高要求時,逐漸顯露出局限性。例如,傳統(tǒng)的以太網(wǎng)技術雖然在網(wǎng)絡連接中廣泛應用,但其帶寬有限,難以滿足 AI 應用對高速數(shù)據(jù)傳輸?shù)男枨蟆T?AI 訓練場景中,大量的數(shù)據(jù)需要在短時間內(nèi)傳輸,傳統(tǒng)以太網(wǎng)的帶寬瓶頸會導致數(shù)據(jù)傳輸延遲,影響 AI 模型的訓練效果。
英偉達的 NVLink 技術便是一種專為 GPU 之間高速通信設計的技術。它提供了極高的帶寬和極低的延遲,能夠實現(xiàn)多塊 GPU 之間的高速互聯(lián)。例如,在英偉達的 DGX 系列超級計算機中,采用 NVLink 技術連接多塊 GPU,實現(xiàn)了 GPU 之間的高速數(shù)據(jù)傳輸,大大提高了 AI 模型的訓練效率。
雖然如今,各大芯片公司開始研發(fā)各自的互聯(lián)技術,例如 NVIDIA 的 NVLink、AMD 的 Infinity Fabric 以及以太網(wǎng)互聯(lián),但是截至目前,PCIe 仍然是服務器機架中的首選接口,它們通過銅纜或背板將資源連接在一起。隨著 PCIe 6.0 以上的部署以及 PCIe 7.0 規(guī)范即將獲得批準,PCIe 將繼續(xù)成為高速互連的關鍵參與者。
評論