MPF 2008: 混合架構(gòu)主宰消費類領(lǐng)域

作者：Max Baron 時間：2008-11-11 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　同構(gòu)架構(gòu)已經(jīng)兌現(xiàn)了其承諾：有效的低功耗、靈活性以及準備好應(yīng)對任何新的工作負荷，加上在互聯(lián)網(wǎng)上升級消費電子系統(tǒng)的好處。然而，在日本舉行的2008年微處理器論壇(MPF)上，為期兩天的日程上填滿了24個演講，其中，兩個是主題演講，除了軟件工具之外，只有一個演講可能聲稱描述同構(gòu)架構(gòu)設(shè)計。

本文引用地址：http://www.2s4d.com/article/89405.htm

　　各個公司提交的異構(gòu)（heterogeneous）設(shè)計存在差異，但是，它們有一點是共同點：它們并不是由節(jié)省功率而展示的高度并行的同構(gòu)架構(gòu)。更為精確地說，把在一顆芯片上的四顆處理器視為構(gòu)成一種高度并行同構(gòu)架構(gòu)是不公平的。然而，即使一顆芯片寬大地把它們包含在一類中，在2008年日本MPF上，所展示的大多數(shù)四引擎同核實現(xiàn)均采用與硬線連接的加速器接口掛鉤來實現(xiàn)的，而不是增加更多的相同的ISA核，以便不需要特殊目的引擎就完成任務(wù)。

　　豐富的配置

　　根據(jù)處理通用目的控制工作負載所采用的配置以及所實現(xiàn)的針對特定應(yīng)用的加速方法，在2008日本MPF上所展示的架構(gòu)可以分為幾類。

　　在混合架構(gòu)設(shè)計中，控制引擎由作為一個多核處理器工作的若干通用目的內(nèi)核實現(xiàn)或僅僅由一個內(nèi)核實現(xiàn)。引擎可接受的功耗取決于執(zhí)行通用目的應(yīng)用以及控制不同的音視頻編解碼器所需要的性能。一般來說，處理器必須有效率，但是，所需要的效率范圍進一步依賴于功率的可用性。在起居室中的多媒體應(yīng)用的要求可能更為寬松，而安裝在汽車中的系統(tǒng)將期待更佳的效率。蜂窩電話和其它電池供電的手持設(shè)備將被設(shè)計為消耗最低的功率。

　　加速器的設(shè)計可以采用幾類實現(xiàn)方案，從采用定制指令集架構(gòu)(ISA)的內(nèi)核、參數(shù)受控的靈活狀態(tài)機到固定程序硬件連線的實現(xiàn)。根據(jù)在控制處理器以及加速器之間是否需要去掉存儲器訪問，可能要或不要提供本地存儲器。

　　架構(gòu)設(shè)計的分配

　　架構(gòu)配置的分配結(jié)果是不言而喻的(表1)。在表1中，“Text Reference”一列指的是對表中列出的有限陳述的簡短描述；這些陳述由描述每一個陳述的加括弧的數(shù)字來識別。

　　表1：對于在器件的實現(xiàn)中所采用的架構(gòu)類別來說，通過表中的各欄可以識別在2008日本MPF上展示的最佳匹配的處理器/SoC/IP。處理器的標題為縮寫。參考數(shù)字可以被用來查找陳述的簡短描述。軟件已經(jīng)被包含以實現(xiàn)完備性，但是并不總是顯示硬件的存在。

　　為了公平起見，我們已經(jīng)省略了兩個可能顯示異構(gòu)芯片的主題演講，但是，并不是如此明確。會議的背景集中在娛樂之處，并且暗指需要不同的架構(gòu)配置，這些配置由英特爾公司的副總裁、數(shù)字娛樂組的Ton Steenman以及KDDI Labs公司的執(zhí)行總監(jiān)Hiroki Horiuchi做了適當?shù)脑O(shè)置。他們的演講在描述不久將受到歡迎的連接固定和移動設(shè)備(Ton Steenman) [1]的世界上相互補充，而網(wǎng)絡(luò)和無線電意味著[2]保持它們的工作(Hiroki Horiuchi)。我們還省略了四個重點放在軟件的演講；我們發(fā)現(xiàn)在18個新的設(shè)計中，17個不是同構(gòu)設(shè)計。我們還發(fā)現(xiàn)，所介紹的大多數(shù)軟件工具重點放在基準上，并提供對同構(gòu)架構(gòu)的并行支持。

　　從統(tǒng)計上看，采用24個演講作為樣本就得出關(guān)于一個覆蓋全球人口的平均數(shù)的結(jié)論是不準確的，除非已知這個樣本代表可靠的覆蓋率?？紤]那些已經(jīng)在2008日本MPF上做演講的公司，我們能夠假設(shè)它們大部分代表了IP、處理器以及復(fù)雜SoC設(shè)計的領(lǐng)導(dǎo)者。如上所述，這一統(tǒng)計數(shù)字說明，我們試圖解釋的狀況出自如此高度偏向有利于異構(gòu)架構(gòu)的樣本。

　　在大批量銷售的消費娛樂芯片中，有三個較之于其它應(yīng)用更為重要的參數(shù)：(1) 流片投資；(2) 在并行化編譯器上缺乏突破；(3) 進展緩慢的音視頻標準。

　　根據(jù)作者的感覺，表2示出了對實現(xiàn)技術(shù)的、總是有幫助但可能引起爭議的定性比較。數(shù)字代表分析師的定性估計而不是精確的數(shù)據(jù)。數(shù)字越小則越好。

　　表2：該表格根據(jù)作者的感覺對各種實現(xiàn)技術(shù)進行了定性比較。數(shù)字越小越好。在價格敏感的應(yīng)用中，并行同構(gòu)架構(gòu)表現(xiàn)不那么好。異構(gòu)架構(gòu)將需要重新說明，只要新的編解碼器看起來不能由控制加強的內(nèi)核執(zhí)行的話。然而，這些將在每幾代出現(xiàn)一次，并且大多數(shù)的硬連線或定制ISA單元仍將是可重用的。

　　并行同構(gòu)實現(xiàn)根據(jù)整個比較參數(shù)被給予一個平均打分，因為這些實現(xiàn)在靈活性、降低開發(fā)風(fēng)險、遠程診斷或升級上較之于異構(gòu)架構(gòu)更好。然而，它們在流片投資以及—更為重要的是—軟件工具上落后于其它架構(gòu)。

　　最佳打分仍然看起來屬于單核或四核、“高頻”實現(xiàn)。這個配置將繼續(xù)被使用，只要運行應(yīng)用所需要的性能能夠允許芯片的功耗被保持在控制之中。

　　對于批量銷售來說，兩個異構(gòu)是最佳的。流片投資低，使得裸片價格在消費應(yīng)用中有競爭力。開發(fā)風(fēng)險高，因為它意味著要采用ASIC設(shè)計且所得到的芯片具有較低的編程靈活性，然而，如果它導(dǎo)致非常高的營業(yè)收入就非常值得投資。附加的優(yōu)勢是在定制ISA和硬線編解碼器上：標準進化緩慢。設(shè)計工程師能夠重用定制ISA以及在許多芯片中的硬線加速器。

　　芯片和內(nèi)核被隨意連接至加速器

　　相當多的演講提供了具有或不具有加速器的、采用一個小型MP群的選擇權(quán)。由ARM公司高級編程經(jīng)理John Goodacre講述的四核MP配置采用了該公司最新的Cortex-A9，它可能被認為是一種混合架構(gòu)，因為它通過其NEON協(xié)處理器提供DSP處理。然而，ARM還實現(xiàn)了一種連接，通過它多個處理器群能夠與定制設(shè)計的加速器配合工作。MIPS技術(shù)公司的高級工程師Tom Berg介紹了在多線程處理器中的IO一致性，解決了一種類似的MP配置。它能夠在SoC中采用該公司的1~4MP核，從而把通用目的處理與調(diào)諧器、解碼器以及圖形加速器一起集成進混合架構(gòu)的實現(xiàn)之中。

　　Fujitsu Laboratories的演講由Processing LSI Development Group總監(jiān)Atsuhiro Suga提供。Atsuhiro Suga在2007年日本MPF上就因他的軟件演講而知名。在那時候，他介紹了一種被用于在多個處理器之間分配任務(wù)的異步遠程程序調(diào)用(ARPC)的應(yīng)用，它與那些不必在相同的ISA上實現(xiàn)的引擎集合起來(見MPR 8/13/07-01, “Fujitsu Calls Asynchronously”一文)。Suga的新演講[5]描述了增加的一種硬件狀態(tài)機，以替代可能相同的處理器之一，迄今為止，這項任務(wù)利用有待狀態(tài)機處理的工作負荷的線程進行調(diào)度。

　　英特爾公司的首席架構(gòu)師Belli Kuttanna介紹了它的Atom芯片，不久前，該公司宣布它已經(jīng)進入復(fù)雜的采用多種設(shè)計的SoC市場，其中一些是基于雙線程Atom架構(gòu)。一個這樣的SoC設(shè)計把計算復(fù)雜體與媒體加速器結(jié)合起來，實現(xiàn)圖形、音視頻以及顯示器引擎，還允許第三方知識產(chǎn)權(quán)被連接起來。Atom芯片連接可以隨意接上加速器的處理器組，它們是完全或部分可編程的。

　　IBM公司的顧問研發(fā)工程師Masahiro Murakami講述了IBM的PowerPC4xx SoC平臺[7]，描述了允許把用戶定制邏輯連接至PowerPC內(nèi)核以創(chuàng)造多核異構(gòu)設(shè)計的接口裝置。這種至PowerPC內(nèi)核的連接性是通過把連接內(nèi)核的本地總線橋接至AHB總線來實現(xiàn)的。在以前的單一或異構(gòu)配置的PowerPC設(shè)計中，如Cell BE，可以成為高度集成的SoC的控制器。

　　異構(gòu)架構(gòu)

　　東芝負責(zé)蜂窩項目的項目帶頭人Yoshio Masubuchi演講了該公司的SpursEngine [8]，并且是該公司領(lǐng)導(dǎo)該芯片開發(fā)的邏輯選擇。 SpursEngine的設(shè)計結(jié)合了來自8-SPE Cell BE的四個增效處理器單元(SPE)，加上支持不同視頻編解碼器的硬件加速器。

　　Trango Japan公司的領(lǐng)導(dǎo)Tom Kobayashi講述了面向DRM的安全執(zhí)行環(huán)境的實現(xiàn)。Kobayashi描述了Trango的系統(tǒng)管理程序的安全軟件域的應(yīng)用。Trango的系統(tǒng)管理程序在一個或多個操作系統(tǒng)以及基礎(chǔ)硬件之間形成一種抽象層。它能夠把一個或多個處理器分為獨立安全和針對應(yīng)用執(zhí)行的域。處理器本身可以是相同的或者可以作為混合架構(gòu)被實現(xiàn)。

　　DxO Labs的首席運營官Bruno Liege講述了一種可配置、可編程、面向像素的、高質(zhì)量、高性能、可授權(quán)的IP架構(gòu)[10]，它被設(shè)計為一種把窄數(shù)據(jù)路徑、12-bit標量引擎級與寬向量處理級相結(jié)合的加速器。多個ALU結(jié)構(gòu)由采用ARM的AHB總線的內(nèi)核中的標量邏輯進行控制。

　　CEVA公司的核心架構(gòu)總監(jiān)Michael Boukaya的演講與在消費娛樂中缺乏成功的高度并行引擎的許多其它實現(xiàn)相比，更為讓人大開眼界。CEVA的32-bit DSP單一引擎所獲得的性能是通過在DSP內(nèi)核上采用高頻，加上用于專用函數(shù)如FFT和維特比的加速器來實現(xiàn)的。

　　德州儀器(TI)的超低功耗MSP430F5xx MCU家族[12]由MSP430 MCU首席架構(gòu)師Horst Diewald講述，它利用在性能上的提升進一步提供超低功耗控制。Horst描述了通過硬件和軟件相結(jié)合來管理處理器，以實現(xiàn)諸如遠程抄表、對用于安全目的的氣體泄漏的檢測、個人醫(yī)療以及能量收集等功能所要求的低功耗數(shù)字。新家族的芯片增加了一體化外設(shè)，如射頻、加密以及至MSP430平臺的LCD接口。

　　東芝的首席專家Takashi Miyamori介紹的Venezia架構(gòu)[13]能夠利用由用戶選擇的主CPU—如ARM或MIPS—實現(xiàn)一種控制資源，加上由不同的處理器—如控制和線程的分派所需要的—實現(xiàn)的加速Venezia引擎，一個調(diào)度器，以及一些媒體處理引擎。

　　ARM公司的研發(fā)組咨詢工程師Nigel Paver描述了移動互聯(lián)網(wǎng)設(shè)備(MID)[14]可配備內(nèi)部處理資源的途徑。根據(jù)Paver的介紹，高性能的MID能夠利用由高端攝像機圖像處理器、三維圖形引擎、高清視頻編解碼加速器、TrustZone安全性以及包含GPS基帶功能的、支持的Cortex Aclass內(nèi)核來實現(xiàn)的異構(gòu)架構(gòu)。稍廉價的較低性能MID還可以由TrustZone實現(xiàn)加密。MID可以由ARM11內(nèi)核控制。它可以配合較低性能的攝像機、非高清視頻編解碼器、不太先進的三維圖形以及一體化的無線基帶。

　　此外，ARM公司的高級產(chǎn)品經(jīng)理Chris Porthouse講述了Mali400 MP GPU架構(gòu)[15]，其用途是與ARM CPU內(nèi)核在同一芯片上工作。Mali-400 Vertex處理器以及多達四個片段處理器被通過本地互連連接至MaliMMU。MaliMMU被連接至一個L2高速緩沖存儲器，它本身接至AXI總線。ARM公司的一部APB外設(shè)總線被用于把數(shù)據(jù)傳輸至Vertex和片段處理器以及至MaliMMU和L2高速緩沖存儲器。

　　TI公司的圖形軟件工程師Clay D. Montgomery講述了由OMAP3家族之一的OMAP35x應(yīng)用處理器所采用的圖形內(nèi)核[16]。TI在OMAP3530高集成度處理器中正采用由Imagination Technologies提供的異構(gòu)PowerVR SGX圖形內(nèi)核。該芯片還集成了一種TMS320C64x+ DSP內(nèi)核，加上圖形外設(shè)以及加速器。異構(gòu)OMAP35x平臺以Cortex-A8內(nèi)核為基礎(chǔ)。

　　ADI日本公司微機電技術(shù)組總監(jiān)Yutaka Katano以及In-Stat技術(shù)分析師Max Baron講述了一種泛系統(tǒng)的異構(gòu)架構(gòu)[17]，采用了DSP處理器、MEMS、運算放大器以及連接至桌面的藍牙接口。

　　SATO創(chuàng)始人Tomoyoshi與IPFlex首席技術(shù)官IPFlex介紹了一種異構(gòu)架構(gòu)[18]，它采用大量不同的功能處理單元(PE)以及能夠更加有效地處理MPEG-2/-4和H.264比特流的增強比特流處理器(BSP)。

　　PE和BSP單元能夠被動態(tài)地重新配置以執(zhí)行在前景中的各種任務(wù)，與此同時，通過從外部存儲器加載下一個配置信息而在背景中設(shè)置新的任務(wù)。盡管它具有靈活性，IPFlex公司的新引擎能夠執(zhí)行多個編解碼器的應(yīng)用，這一功能在產(chǎn)品發(fā)布之后會加入設(shè)計中，它還能夠被配置為執(zhí)行針對用戶的工作負荷。

　　同構(gòu)架構(gòu)

　　日本嵌入式微處理器基準聯(lián)盟(EEMBC)的區(qū)域經(jīng)理Satoshi Otsuka講述了面向多個內(nèi)核以及高度并行同構(gòu)架構(gòu)的基準狀況。對于MPR了解的最佳情況來說，該聯(lián)盟仍然就針對采用相同內(nèi)核進行配置的最初套件進行最終完善。瑞薩公司提供且由日本W(wǎng)aseda大學(xué)開發(fā)的高性能并行化編譯器所支持的一種8個CPU的多核處理器[20]，被認為應(yīng)該考慮為同構(gòu)架構(gòu)。Waseda大學(xué)的教授Hironori Kasahara以及瑞薩科技公司的部門經(jīng)理Toshihiro Hattori輪流介紹了OSCAR編譯器以及多核架構(gòu)。

　　同構(gòu)可配置、可擴展處理器

　　Tensilica公司的技術(shù)福音傳道者Steve Leibson描述了可擴展配置的優(yōu)點，他認為，對稱多處理器(SMP)架構(gòu)對于服務(wù)器不錯，但是，在多媒體應(yīng)用中的運行效率不高。Tensilica的方法就是采用在公司的基本Xtensa架構(gòu)上實現(xiàn)的針對應(yīng)用的ISA[21]來創(chuàng)建加速器。異構(gòu)架構(gòu)—如在愛普生打印機中所采用的—被用于描述這類加速器的應(yīng)用。

　　Tensilica公司的Darin Petkov介紹了一種音頻設(shè)計，它采用了由ISA擴展獲得的應(yīng)用專用處理器[22]，在該公司的Xtensa LX VLIW基本引擎上構(gòu)建了大約300個針對音頻的指令。

　　ARC公司的首席技術(shù)官Nigel Topham介紹了該公司采用異構(gòu)架構(gòu)實現(xiàn)的VRaptor家族[23]，其中有采用ARC 750D CPU針對工作負荷而配置的可編程加速器。該公司在控制它的流以及計算群的協(xié)調(diào)群中采用了類似的CPU，它們本身作為異構(gòu)架構(gòu)被實現(xiàn)。

　　Target Compiler Technologies公司的首席執(zhí)行官Gert Goossens講述了該公司的工具，它們有助于設(shè)計工程師創(chuàng)建針對應(yīng)用的處理器(ASIP)[24]以及從零做起的編程工具。與采用所有其它的針對應(yīng)用的引擎一樣，一組ASIP內(nèi)核可以被最優(yōu)化以提供具有最少邏輯的SoC以及對工作負荷的良好分配，唯一的例外就是基本狀態(tài)機或也是從零開始設(shè)計的簡單的處理器，從直覺上看，在流片投資以及功耗上提供優(yōu)勢，而所付出的代價就是設(shè)計一種品牌新架構(gòu)所需要的額外工程時間。

　　本文總結(jié)

　　與多核同構(gòu)配置相比，異構(gòu)架構(gòu)提供有利于流片投資以及功耗的更佳折中?；仡欉^去可見，在流片投資、功耗以及軟件創(chuàng)建上同構(gòu)架構(gòu)要變得更為舒適，設(shè)計工程師必須看到用于相同ISA內(nèi)核的更多優(yōu)勢。

　　目前，同構(gòu)架構(gòu)的狀況使之更加適合于高度數(shù)據(jù)密集的處理工作。對于家庭娛樂以及移動應(yīng)用來說，在一個量產(chǎn)芯片的設(shè)計工程師的喜好中，同構(gòu)架構(gòu)僅僅高于FPGA。同構(gòu)配置將在面向即將出現(xiàn)的應(yīng)用—如專用圖形、游戲和汽車視頻圖像識別—中獲得優(yōu)先權(quán)。

　同構(gòu)架構(gòu)在低成本、大批量應(yīng)用中獲得競爭力以前，硬線連接以及針對應(yīng)用的內(nèi)核IP提供商將有機會贏得市場占有率。

新聞中心

MPF 2008: 混合架構(gòu)主宰消費類領(lǐng)域

評論

相關(guān)推薦

技術(shù)專區(qū)