AI將高端移動設備從 SoC 推向多晶粒
先進封裝正在成為高端手機市場的關鍵差異化因素,與片上系統(tǒng)相比,它實現了更高的性能、更大的靈活性和更快的上市時間。
單片 SoC 可能仍將是低端和中端移動設備的首選技術,因為它們的外形尺寸、經過驗證的記錄和較低的成本。但多晶片組件提供了更大的靈活性,這對于 AI 推理和跟上 AI 模型和通信標準的快速變化至關重要。最終,OEM 和芯片制造商必須決定適應設計周期變化的最佳方式,以及瞄準哪些細分市場。
Synopsys 移動、汽車和消費類 IP 產品管理執(zhí)行董事兼 MIPI 聯盟主席 Hezi Saar 表示:“不依賴于手機制造商的 SoC 供應商必須通過 AI 來追求物聯網 SoC 的低端功能,而這無疑是單體的?!叭绻麄冃枰非笠苿拥闹卸耸袌?,那是比 IoT 更高的功能。它也可能是一個單片 [SoC],并有可能選擇通過多晶粒添加它。當你走向高端時,很明顯你不能只做整體式的。你需要能夠進行多晶粒測試,以適應將要發(fā)生的變化并加快上市時間,因為這確實是他們賺到最多錢的地方。
換句話說,目標市場決定了架構。Ansys產品營銷總監(jiān)Marc Swinnen表示:“我們看到了多晶粒3D的大趨勢,移動設備正在采用這一趨勢,但其速度比NVIDIA或AMD的HPC芯片要慢得多,而這些芯片在3D和2.5D系統(tǒng)上已經完全發(fā)展了12顆巨大的芯片?!暗投艘苿釉O備無法做到這一點。這在很大程度上是一個成本問題。他們必須真正專注于將盡可能多的內容集成到單個芯片中,具有低功耗和高速度。
單片 SoC 包含在單片硅片上運行系統(tǒng)所需的所有組件,并且可能包括具有一個或多個處理器內核的嵌入式微控制器;內存系統(tǒng),例如 RAM 或 ROM;外部接口,如電纜端口(USB、HDMI);無線通信(WiFi、藍牙);圖形處理單元 (GPU);以及其他組件,例如模擬/數字轉換器、穩(wěn)壓器和內部接口總線。
盡管單片 SoC 尺寸緊湊,而且通常正因為如此,它們的效率非常高,而且在每個處理器上的性能通常優(yōu)于更復雜的系統(tǒng)。信號需要傳播的距離很短,驅動這些信號所需的功率較低,并且可以通過簡單的散熱器去除熱量。許多 IoT SoC 供應商都采用整體式策略,因為它可以為客戶節(jié)省打包和集成成本。
“將東西放在單個芯片上總是更好,盡管我們很難做到,”Synaptics 低功耗邊緣 AI 高級產品經理 Ananda Roy 說?!八刮覀兲幱诟偁巸?yōu)勢,因為我們的一些物聯網競爭對手將兩個晶片放在一個封裝中,將它們堆疊起來,或者并排放置,并稱之為單芯片解決方案。但實際上,這些只是一個封裝中的兩個不同的芯片。我們有意識地嘗試向單晶片解決方案邁進,因為從客戶的角度來看,它更容易集成,也更容易設計到他們的硬件系統(tǒng)中。我們基本上在單個芯片上構建了多種技術。
圖 1:嵌入式 IoT SoC。 資料來源:Synaptics
在高端移動市場,情況就不同了。在那里,多個小芯片被用來提高性能,更多的互連被用來降低電阻和電容?!霸谶@種情況下,計算引擎通過高性能水平 die-to-die 接口和先進的封裝技術進行'鏡像'和連接,以擴展計算處理能力,”Cadence 計算解決方案集團高級產品組總監(jiān) Mick Posner 說?!皬募夹g上講,這可以擴展到 3D-IC 堆棧中垂直擴展晶粒的處理,從而實現更高的互連帶寬。”
多晶片組件還允許計算元件的更大多樣性,其中可以包括 CPU 和 GPU 的組合,以及高度專業(yè)化的加速器?!?D 堆疊不僅限于相同的處理單元,”Posner 說?!癆I 或內存加速器單元可以成為堆棧的一部分,創(chuàng)建高效的、特定于領域的應用程序引擎。利用先進的 3.5D 封裝將使另一個晶粒能夠水平連接,也可以使用更傳統(tǒng)的晶粒間互連,例如 UCIe。其他晶粒不需要與處理節(jié)點位于同一技術節(jié)點中。集成各種節(jié)點可以在性能和成本之間進行權衡,同時選擇最適合應用程序功能或供應鏈彈性的節(jié)點。
在千禧年的頭幾十年里,移動市場推動了許多前沿技術的發(fā)展。但是,隨著 finFET 時代平面擴展優(yōu)勢的減少,無法擴展 SRAM,以及云中對大規(guī)模計算能力的需求不斷增長,系統(tǒng)公司從單片 SoC 轉向 2.5D 系統(tǒng),通過中介層連接多個芯片。雖然移動市場仍處于工藝擴展的前沿,但移動市場的高端已經擴展到多芯片組件——盡管目前尚不清楚移動設備是否會采用 3D-IC,因為它們需要某種類型的先進冷卻系統(tǒng),這在當今的移動設備中是不切實際的。
“2.5D 非??焖?、非常有效、超短距離,因此非常高效的功率,”Synopsys 的 Saar 說?!癧模具可以] 采用不同的工藝制造。這個可以是 2nm(基礎芯片),而 AI 加速器可以是其他東西。他們有靈活性。
圖 2:單片 SoC 與多晶片 來源:Synopsys
高端移動設備正在推動全能柵極 (GAA) 2nm 制造工藝以實現高性能,但價格昂貴且生產時間長?!癎AA 需要 X 個月才能從晶圓廠恢復過來,”Saar 說?!澳阈枰獕嚎s所有這些,這是最大的挑戰(zhàn)。你正在錄制一些過去值得制作的東西。這一次,您知道您至少需要再旋轉一次,也許在您旋轉它時,規(guī)格會再次演變。我以為我需要 70 億個參數?,F在我需要 140 億個參數,因為手機中的用例已經發(fā)生了變化。在未來,我不知道會是什么,但他們在推出這些功能時需要考慮到這一點。這就是為什么多晶粒似乎是市場方面必須采取的靈活性、不確定性和規(guī)格的持續(xù)演變以及風險緩解的正確答案。
Saar 指出,每個手機供應商都可以根據它想要占領的市場數量來決定如何實施 AI。“你可以在片上有一個 AI 加速器。它可以在單獨的芯片中。它可以是專用的。它可以是幾個專用的 AI 加速器。這取決于你想要的馬力。假設我想要一個用于功能手機的基礎芯片。我正在添加一個 AI 加速器芯片,這是兩者之間的 3D 連接?,F在,我又增加了一個 I/O 擴展,因為我想進入多媒體市場?,F在我需要更多的顯示功能。我需要 EDP(電子數據處理)。SoC 供應商可以將基礎芯片(獨立、單片)銷售給該功能手機市場。他們可以添加加速器?,F在它是一個智能手機配置,他們可以在側面添加另一個。然后它變成了消費類設備、超級機器人或 PC,他們可以玩轉所有這些配置,這樣他們就可以攻擊不同的市場。
圖 3:用于數據中心(或未來高端移動設備)的 3D-IC,頂部有 AI 加速器。來源:Synopsys
通過將 AI 加速器放在第二個芯片上,供應商可以獲得更好的性能,因為它在使用相同的基礎的同時進行了優(yōu)化?!艾F在,它不是一次又一次地花費數億美元旋轉硅,而是更加穩(wěn)定,”Saar 說。
采用多晶粒的另一個原因是考慮模擬和數字信號。例如,Synaptics 用于可折疊移動 OLED 顯示器的觸摸控制器可以區(qū)分僅握持設備、袖珍撥號、水滴或汗水?!拔覀兊男酒幸粋€模擬芯片和一個數字芯片,模擬芯片直接連接到傳感器,數字芯片處理所有這些信息,”Synaptics 產品營銷總監(jiān) Sam Toba 說?!霸谶@個數字芯片中,我們有一個 MCU 內核,以前我們有一個內部定制的 MCU 內核,它確實有很多優(yōu)勢。但是一旦你接觸到這些可折疊設備,需要處理的信息量就會變得非常非常高,為此我們決定使用 RISC-V。Si-Five 的 E7 是一個非常強大的 MCU 內核,非常適合高水平的處理,而我們的矢量協(xié)處理器就在它之外。
然后,AI/ML 算法可以確定環(huán)境并檢測真實的手指觸摸。“我們的芯片連接到觸摸傳感器,查看所有信號,將模擬信號放入模擬芯片,然后在數字芯片上進行處理,”Toba 說。“該數字芯片包括 E7、Hydra、所有算法和內存。一旦芯片確定觸摸是有意義的、有意的,那么它就會向主機 SoC 報告。
內存和通信復雜性
與 AI 一樣,內存也在發(fā)生變化,并且可能因不同的市場而異。Saar 說,如果 SoC 供應商瞄準所有市場,他們有幾種方法可以做到這一點?!八麄兛梢宰稣w式的。但是,它們將如何適應硅的多次旋轉?他們現在有 LPDDR 6,這已經被定義過了,但它會繼續(xù)發(fā)展。UFS 5.0 現在已經定義,但它將繼續(xù)發(fā)展。那么他們會再旋轉一個 2nm 硅嗎?或者他們會將其限制在其他方面?
此外,還需要考慮多種網絡。手機芯片需要足夠靈活,以支持新的 5G/6G 協(xié)議,同時繼續(xù)支持舊技術?!霸趩蝹€系統(tǒng)中支持額外的帶寬會增加數據處理的復雜性,并意味著大量的功耗,因此您必須非常有效地實施它,”Fraunhofer IIS/EAS 高效電子部門負責人 Andy Heinig 說?!胺駝t,一方面,移動設備的電池將在很短的時間內耗盡。而且你還必須去除另一側的熱量。您有這些多物理場要求,并且需要非常高效的加速器、非常高效的 DSP 實現、數據處理等。這就是為什么每個人都越來越多地談論特定應用的處理器的原因。
在前沿設計中,這在很大程度上涉及小芯片和異構集成。在智能手機的模擬/混合信號領域,這有助于抵消多晶片組件的一些額外成本。根據 Cadence 的一份白皮書,這種方法允許“靈活地為 IP 選擇最佳工藝節(jié)點,尤其是對于不需要位于'核心'工藝節(jié)點上的 SerDes I/O、RF 和模擬 IP”。
圖 4:分解的 SoC。來源:Cadence
電源、電池和散熱考慮因素
在高端移動市場,供應商正爭先恐后地啟用 AI?!癷Phone 15 和 16 的 AI 硬件已添加到板載處理中,許多智能和硬件都在硅級別被放入這些芯片中,”Siemens Digital Industries Software 解決方案網絡專家 Ron Squiers 說?!癗VIDIA 等其他公司正在構建 GPU。Arm 正在構建 Zen 5 [CPU],它充當平臺上 AI 硬件的編排器。Amazon 正在開發(fā)他們的 Trainium 訓練和推理芯片,因此超大規(guī)模公司和移動開發(fā)人員都在做這件事。
雖然移動設備始終需要 GPU 進行圖形處理,但最新版本同樣可以很好地處理 AI 工作負載。例如,在其 E 系列 GPU 中,Imagination Technologies 極大地改變了它在 ALU 管道中調度和執(zhí)行工作負載的方式(見下面的圖 5)。
“它曾經有一個非常復雜和非常深的管道,有許多管道階段,并且管道延遲很長,”Imagination 技術洞察副總裁 Kristof Beets 說。“我們始終從非常大的寄存器存儲中提供數據,在這些 GPU 中,這是一個非常大的 SRAM,大小為 0.5 MB,因此需要非常大量的非常緊密耦合的大內存。問題是,如果你在每個周期不斷地從中獲取大量數據,然后將其推入這個管道,并在每個周期中寫出結果,那會消耗很多電量。
圖 5:Burst 處理器減少了 GPU 內的數據移動。來源:Imagination
新設計使用了一個更輕量級的管道,只有兩個管道階段,并且它在本地重用了更多的數據?!芭c其不斷訪問真正的大型 SRAM,不如嘗試重用我們附近已有的數據。這可以是以前的結果,也可以是我們旁邊的管道中的數據,因為如果你看很多 AI 案例,你經常會通過一系列處理作對數據進行洗牌和漣漪,從鄰近的管道中獲取數據。
由此產生的每瓦每秒幀數效率提升可以轉化為手機電池壽命的延長。Beets 說:“這可能會影響運營成本,但我們在移動領域可以做的其他有趣的事情之一是將節(jié)省的額外功耗轉化為更高的時鐘頻率和更高的性能,因為我們可以保持在相同的功耗和散熱預算內。
無論設計人員如何實現更好的性能,功耗仍然是一個關鍵問題。Ansys的Swinnen表示:“如今,每個人都對電源感興趣,甚至包括數據中心人員,但移動設備的傳統(tǒng)業(yè)務要長得多,而且它們由電池供電,因此它們更傾向于低功耗。
除了每天的電池壽命外,手機制造商還必須考慮電池壽命。手機的方方面面都會產生影響,包括 SIM 卡。為此,英飛凌開發(fā)了一款微型 28nm eSIM,其能耗比傳統(tǒng) SIM 卡低得多。eSIMS 允許用戶在不同服務提供商之間輕松切換,而制造商可以在設計中更加靈活,因為不需要物理訪問。
結論
手機供應商根據他們所針對的價格層以及他們現在或將來想要實現的 AI 功能和通信標準,采用不同的芯片設計方法。
Synopsys 的 Saar 指出,設計決策通常歸結為業(yè)務原因?!斑@就像你問為什么一個特定的標準會流行起來,而不是一個可能在技術上更優(yōu)越的標準。原因有很多,現在是這個還是那個并不重要。如果一家供應商控制著整個垂直鏈,他們就不必使用標準的現成虛擬制作 (VP) 攝像機接口或任何存儲接口。他們可以創(chuàng)建自己的,即使它是劣質的。在他們看來,他們正在獲得任何級別的好處,也許是在更高級別的集成和卓越運營中。
與此同時,許多市場新進入者正在這個競爭激烈的細分市場中開辟自己的道路。“他們以前只做手機?,F在他們也在做 SoC,“Saar 說?!皩λ麄儊碚f,這是一個不同的故事。他們可以以不同的方式對其進行優(yōu)化。他們不必走得更遠,因為他們只關心他們的手機。他們只關心他們的用例。他們中的一些人在整個市場中擁有 AI 地位,而不僅僅是移動市場。我們正在進入絕對超越硬件的公司戰(zhàn)略或世界戰(zhàn)略。也許混合動力對他們來說確實有意義,因為我希望手機連接到我在云端的 AI 引擎,因為現在我有了差異化。您購買了我的手機,您連接到我的云,您連接到我的電子郵件。一般的 SoC 沒有這個。他們在賣硬件。
評論