AMD PUMA+低功耗APU技術與性能分析
不要以為AMD與英特爾的戰(zhàn)場只有酷睿與Kaveri,AMD與英特爾早已展開一場全面的戰(zhàn)爭。從英特爾推出Atom,進入超低功耗處理器市場開始,AMD就針鋒相對地推出了相應的產品和英特爾競爭。之前AMD已推出過代號分別為Brazos、Kabini和Temash的多代超低功耗產品,不過市場反響不算出色。而在今年四月底,AMD則發(fā)布了它們全新一代、代號為Beema和Mullins的超低功耗APU。這一次,AMD又有怎樣的改變?Beema和Mullins又有哪些絕活呢? 事實上,AMD在超低功耗CPU市場早已耕耘多年,去年還發(fā)布了每瓦特性能非常出色的Kabini和Temash APU,但市場反應并不理想。在這些產品中,盡管低功耗APU的TDP最低能夠下探至15W,而其中超低功耗的1GHz雙核心產品功耗更是降低至3.9W,但相比英特爾已經將超極本的Haswell處理器TDP功耗降低到15W以內,同時能提供更強悍的CPU性能而言,AMD的這些產品除了價格以外就沒有太多亮點。尤其是英特爾發(fā)布了Bay Trail架構的產品后,英特爾展示了自己是如何使得類似的產品運行在更高的性能上,同時TDP又保持在8W以內的。這樣一來,AMD必須更新自己的產品線,才能盡可能多地保持自己的競爭力。 終于在2014年,AMD發(fā)布了代號為Beema和Mullins的超低功耗APU。雖然有兩個代號,但這兩款產品實際上采用了完全相同的Puma+(美洲獅)架構。其中Beema面向的是入門級或者超便攜的筆記本電腦,而Mullins則更偏向于平板電腦。這兩款產品都是為Windows市場而設計的。 從架構角度來說,AMD在Beema和Mullins上也并沒有徹底更新架構設計。Beema和Mullins的最根本改變在于將制程從TSMC 28nm轉移到了GlobalFoundries的 28nm,同時在架構和設計上進行了一些調整。作為從AMD拆分出去的晶圓工廠,GlobalFoundries一直以來都在新工藝研發(fā)上困難重重,這次的超低功耗處理器能夠順利在GlobalFoundries工廠投產,證明GlobalFoundries已經從之前的技術泥潭中抽身而出。所以在了解AMD的新品之前,讓我們先來看看有關GlobalFoundries 28nm工藝的情況。 最后的Gate First?GlobalFoundries 28nm工藝解析 說起GlobalFoundries在工藝上的跌跌撞撞,不得不提及Gate First和Gate Last。Gate First和Gate Last實際上是在進入45nm以后,以IBM為核心的陣營和以英特爾為核心的陣營在未來工藝發(fā)展上的一次分歧。最終以英特爾大勝、IBM失敗告終。 Gate First和Gate Last都是半導體制造的其中一步,其中Gate First是指先為晶圓生成金屬柵極,再進行漏區(qū)、源區(qū)的離子注入,最后進行退火操作;Gate Last則完全相反,其生產流程是先注入離子,再退火,最后才生成金屬柵極結構。這兩種方法在當時看起來各有優(yōu)劣,Gate First工藝簡單,但是隨后的高溫退火可能影響柵極尤其是PMOS的性能,并且對柵極金屬性能要求較高。而Gate Last雖然對柵極金屬性能要求不那么高,但是工藝更為復雜。 目前GlobalFoundries主力推薦的28nm生產工藝有HPP和SLP兩種 IBM在Gate First上已經研究了10年之久,并且IBM認為Gate First是進入45nm時代后最應該選擇的工藝,還成功拉攏了三星、TSMC、AMD作為自己的盟友,而英特爾一方堅持Gate Last才符合未來發(fā)展的需求。不過隨著研究進展的深入,IBM和盟友們發(fā)現,Gate First最多只能堅持到28nm,就會由于材料和高溫的問題而無法使用,反倒英特爾是正確的,Gate Last雖然短期內看起來麻煩一些,但是一直在28nm以后的工藝都可以繼續(xù)使用。 當發(fā)現問題后,三星雖然嘴上說會提供Gate First的產品,但是卻發(fā)布了新的論文,將支持Gate Last的研究。TSMC也宣布在28nm以后全面轉向新工藝,不再考慮Gate First。不過AMD就有點麻煩了,受制于財務問題再加上企業(yè)并購拆分,AMD的晶圓廠在工藝上的進展一直很不順利,隨后拆分出去的GlobalFoundries在32nm工藝和28nm工藝上都摔了跟頭,直到2013年才徹底搞定了28nm Gate First High-k Metal Gate的全部技術問題,得到了和預想中一樣的產品。但是這個時候,英特爾的FinFET 22nm已經投產多時,14nm也已經箭在弦上了。 采用Beema架構的產品比上一代Kabini APU的能耗比綜合提升了約20% 目前GlobalFoundries提供三種28nm工藝供用戶選擇,其中有專門為超低功耗設備設計的28nm SLP(Super Low Power)、為高性能設備設計的28nm HPP(High Performance-Plus)以及兼顧高性能和低功耗的28nm LPH(Low Power, High Performance)。其中28nm SLP最為便宜,28nm HPP價格最為昂貴,中間的則是28nm LPH工藝。不過在比較新的宣傳內容中,已經看不到28nm LPH工藝的內容了,可能是GlobalFoundries考慮到市場和生產的問題,取消了LPH工藝。 AMD在功耗控制技術上獲得了巨大的發(fā)展,處理器待機功耗逐年得到降低 根據GlobalFoundries的官方資料,28nm HPP工藝和SLP工藝對比40/45nm時代的類似工藝,有顯著的優(yōu)勢。比如28nm的HPP工藝比40G工藝性能提高20%,同時功耗降低大約40%;28nm SLP工藝相比低功耗的40LP工藝速度提升高達30%,功耗也最多降低了40%。無論是哪種28nm工藝,芯片面積都只有40/45nm工藝的一半左右,大大節(jié)省了成本。 目前沒有資料表示AMD的新APU使用了哪種工藝,不過據推測使用28nm HPP的可能性更高一些,這個工藝本身就是面向高性能設備使用的,核心電壓又比較低,能夠達到更高的性能功耗比。至于28nm SLP,面向的是超低功耗領域,比如手機、藍牙模塊等,本身頻率最高只能達到1.8GHz。當然不排除AMD分別使用這兩種工藝的可能??偟膩碚f,目前在AMD的Beema和Mullins上所使用的28nm工藝,很可能是最后一代使用Gate First的產品了,未來GlobalFoundries也將轉向Gate Last工藝,并加入FinFET大軍中去。 更低的功耗指標 前面我們已經說過,Beema和Mullins實際上并沒有包含太多的架構方面的調整,AMD在轉換工藝的同時,加入了大量頻率控制和功耗控制技術,顯著提高了產品的性能功耗比并降低了TDP指標。根據AMD給出的功能模塊圖,一個典型的Beema或Mullins芯片擁有四個Puma+ CPU核心,含有128個流處理單元的GCN架構GPU核心,以及顯示模塊、PCI-E總線模塊、UVD影像模塊、DDR3L內存控制器、北橋、2MB共享L2緩存、VCE視頻編碼模塊、FCH(Fusion controller hub)南橋功能模塊以及平臺安全處理器PSP模塊,這所有的模塊組合在一起組成了復雜的Beema或Mullins APU芯片。 測試表明AMD的Mullins APU在電子閱讀應用下,功耗相對上一代產品有明顯降低,不過依舊趕不上ARM架構的移動SOC。 從CPU架構來說,Beema或Mullins所使用的Puma+架構和之前的Jaguar是一樣的,它依舊是一個雙發(fā)射的亂序執(zhí)行架構,內存位寬也維持為64bit。不過AMD宣稱Beema和Mullins受益于新工藝,在1.2V電壓下核心漏電比前代產品降低了19%,GPU部分的漏電電流量低了38%,這也是Beema和Mullins擁有更低的電壓和更高能耗比的主要原因。 不僅如此,AMD還調整了Beema和Mullins的內存接口。這一代產品使用的是DDR3L這種低電壓的產品,而上一代產品則使用的是DDR3。相比DDR3L來說,DDR3由于要兼容各種類型不同的內存模塊,因此設計更為復雜。AMD從移動SOC那里得到了設計靈感,使用了較為專用的DDR3L內存界面,這樣的改進使得運行在低功耗狀態(tài)時,內存的功耗降低了500mW。不過,雖然目前的Beema APU已經基本完成了SOC化,但是考慮到其定位并非手機這樣空間狹小的地方,因此AMD并沒有考慮將內存芯片和APU芯片采用堆疊封裝以減少面積,依舊使用了傳統(tǒng)的分離式架構。 從測試數據來看,在電子書閱讀、網頁瀏覽、高清播放以及MobileMark 2012的測試中,Beema都展示出了相對于Kabini更為出色的功耗表現,平均降低了約20%。此外,從AMD歷年來的產品來看,2008年AMD推出的代號為“Tigris”的Turion處理器的待機功耗高達3.5W~4W,隨后代號為“Danube”的處理器將待機功耗降低到了3W左右。最近一次最顯著的變化是第一代代號為“Llano”的APU中,待機功耗大幅度降低到了2W左右,最新的代號為“Kaveri”的APU的待機功耗已經來到了1.5W附近。在超低功耗處理器方面,第一代超低功耗處理器代號為“Brazos”的產品待機功耗甚至高達2W以上,而最新的Beema和Mullins待機功耗降低到了0.5W左右,著實令人驚訝。 為了達到這樣的成果,AMD使用大約30項技術:包括各種功耗門控技術、各種頻率控制技術、電壓控制技術、顯示控制技術等,甚至一些接口諸如PCI-E、DisplayPort的接口功耗控制都被納入其中。AMD總結自己使用了四個方面的技術,包括智能動態(tài)功耗管理、進一步整合系統(tǒng)元器件、電路功耗優(yōu)化、生產工藝升級改進。這四個方面的技術配合一些特色設計一起努力,最終實現了AMD目前在移動處理器上的低功耗表現。同時AMD還給出了有關電子書閱讀模式下的功耗情況,AMD新的Mullins APU在電子書閱讀狀態(tài)下相比上一代產品功耗降低了大約20%~25%,不過依舊無法和目前比較主流的ARM架構移動SOC芯片相提并論。不過AMD目前也不打算染指安卓設備,這一點也是完全可以容忍的。 更高的頻率提升空間 一般來說,同時降低功耗并提升頻率是幾乎不能完成的事情。不過在Beema和Mullins上,AMD在降低了功耗的同時還提升了頻率。出現這樣的情況,主要原因是AMD使用了更為出色的頻率控制技術,并且調整了溫度控制的闕值。首先請讓我們來看看表2的數據,表中展示的是AMD新的Mullins對比上一代產品Temash在最高頻率和TDP功耗方面的對比情況??梢钥吹?,A10 Micro-6700T的TDP功耗為4.5W,最高頻率為2.2GHz;相對應的上一代Temash架構的A6-1450 TDP功耗為8W,最高頻率僅為1.4GHz。此外,其他兩款Mullins APU產品也分別提升了60%和40%的最高頻率。而在表3中,我們則對比了Beema與Kabini CPU核心的不同,其中除了E2-6110對比E2-3000這一組產品略有降低外,其余產品的CPU核心都獲得了明顯的頻率增加,并降低了TDP。 除了CPU部分的頻率可以提升外,Beema與Mullins的GPU部分頻率也獲得了明顯提升。如表4與表5所示。那么,AMD是怎么做到在生產工藝沒有革命性改變的時候,降低功耗并提高頻率的呢?原來AMD設計了一個名為STAPM的技術,Skin Temperature Aware Power Management即表面溫度感應功耗管理。簡單來說,這個技術的本質實際上還是通過提高芯片允許溫度上限來實現更高的頻率―這和英特爾在Bay Trail上做的事情差不多。 同時,平板電腦本身是擁有一定散熱能力的,為了衡量并更好地使用這個能力,AMD還設計了一個稱之為TSP功耗的值。這個值是通過在安裝了四核心Mullins APU的11.6英寸平板電腦上運行3DMARK 06時,設備表面溫度升高至用戶可以接受的極限狀態(tài)來確定的。對一個4.5W TDP的Mullins處理器來說,TSP瓦數為3.5W。換句話來說,TSP就是設備能夠容忍的熱量極限,在實際運行中,雖然芯片在不停地散發(fā)熱量,但是設備擁有一定的熱存儲和熱遲滯的能力,使得即使芯片溫度達到比較高的程度,但設備依舊處于安全、舒適的溫度范圍內。 而上一代AMD低功耗產品僅僅控制芯片溫度,只要芯片溫度超過60℃,那么立刻會進入降頻狀態(tài),無論CPU還是GPU都是這樣。但是設備溫度的上升速度總是遠遠落后于芯片溫度,并且設備溫度的上升過程是緩慢的,甚至在芯片滿載狀態(tài)下數分鐘之內都不會導致設備過熱。所以,AMD新的STAPM設計更為優(yōu)秀:只要設備的溫度控制在一定的范圍內(用戶不會感覺到設備溫度太高),同時提高芯片溫度上限,那么芯片就可以更長時間運行在更高的頻率上。 新的Beema和Mullins針對每一個設備增加了額外的溫度測試接口,專門用于測試設備表面溫度,只要這個溫度依舊安全,那么處理器就會穩(wěn)定運行在高頻率上―當然,AMD還設置了一個闕值,芯片溫度不能超過100℃。當設備的外部溫度達到了設定上限或者芯片達到了100℃時,處理器都會立刻降低頻率以保證安全。AMD宣稱這樣的設計不需要改變處理器本身結構,也不會帶來額外的負擔。據信AMD會聯合設備OEM廠商對每款不同的設備外部設置相應的溫度探頭,以保證在長期運行時設備的安全與穩(wěn)定性。 此外,AMD還特別說明了新的動態(tài)頻率調整是完全智能的,頻率調節(jié)會根據軟件的情況來進行合理的加速。 AMD的STAPM技術很好地解決了產品的溫度和頻率控制問題 加入ARM安全模塊 AMD的加速技術會針對不同的應用采用不同的方案,智能決定是否加速 AMD在產品中加入了ARM架構的核心,作為專門的安全處理器,保障整個設備平臺的安全 早在2012年,AMD就宣布自己購買了ARM的相關授權,準備開發(fā)基于ARM的產品。當時AMD宣稱和ARM合作會主要集中在AMD的Opteron處理器上,這類服務器處理器將使用ARM的Cortex-A5架構用于執(zhí)行相關的安全操作。實際上AMD需要類似的硬件安全平臺才能更好地保持自己的競爭力,相比之下,英特爾有命名為TXT的安全模塊,并且沒有授權給AMD,所以AMD才開發(fā)出來了TrustZone。 事實上在上一代的產品中,AMD已經為Kabini和Temash APU集成了Cortex-A5核心,不過當時由于種種原因他們并沒有啟用。在全新的Beema和Mullins上,AMD終于啟用了安全模塊并命名為平臺安全處理器,也就是Platform Security Processor,簡稱為PSP。 AMD新加入的PSP模塊擁有單獨的處理器、ROM和SRAM,支持目前比較常見的諸如ECC、SHA、RSA、AES、Zlib、TRNG等多種加密算法,并且能夠直接訪問系統(tǒng)內存,調用資源。這樣的設計使得AMD的新產品在運行有關安全設置的應用時顯得更為得心應手。 能耗比提升極高 基于AMD Mullins的平板性能測試 那么新一代低功耗APU的性能到底如何呢?AMD率先為我們展示了他們采用Mullins APU的平板性能。AMD的這款參考平板尺寸為11.6英寸,顯示屏幕分辨率為1080p,安裝了Windows 8.1操作系統(tǒng),處理器型號為Mullins中的最高端產品A10 Micro-6700T。 首先讓我們來看看在JavaScript性能和網頁瀏覽的測試結果,在這些測試中,AMD的產品均獲得了領先,尤其是以較大幅度勝出了英特爾的Bay Trail和蘋果A7。而在CPU單線程性能測試中,AMD的Mullins比英特爾的Silvermont Atom Z3770快了大約35%,且能提供大約相當于80%的AMD桌面APU A10-4600M的性能,這是非常令人驚訝的。和第一代APU Llano架構的A8-3500M相比,Mullins則大約能達到其85%的性能。而在CINEBENCH R11.5 CPU多線程性能測試中,Mullins和英特爾的對比產品性能基本相當,甚至趕上了上代Kabini這樣TDP高達15W的產品,要知道這款A10 Micro-6700T的TDP功耗僅為4.5W。此外,相比AMD之前老架構的E-350,性能翻了一番還多。 最后是GPU性能測試,測試軟件是3DMark,使用的場景是Fire Strike和Cloud Gate。在這項測試中,4.5W的Mullins依舊展示了和上一代15W級Kabini極為接近的性能。雖然沒有直接對比英特爾的產品,不過考慮到Kabini有大約比英特爾Bay Trail強50%到200%的圖形性能,Mullins應該也有類似的表現。另外一點是目前的Trinity移動處理器,它的功耗相比Mullins高了大約10倍,不過性能領先幅度卻只有2倍多一點,這展示了Mullins極為優(yōu)異的性能功耗比。 在JavaScript性能和網頁瀏覽測試中,AMD Mullins APU較競爭對手擁有明顯的優(yōu)勢 在CPU單線程性能測試中,Mullins APU已達到AMD桌面級處理器的80%,多線程性能則與英特爾同級產品基本相當 4.5W的Mullins在GPU性能上已經能夠同15W級別的Kabini匹敵,能耗比極高 實際功耗將成成功關鍵因素 AMD新的Beema和Mullins使得AMD在超低功耗平臺上終于擁有了一款優(yōu)異的產品。根據性能測試和AMD官方功耗數據來看,AMD提供了一款和去年15W TDP的產品性能相似,但是實際TDP功耗只有4.5W的高能耗比處理器,同時還保持了非常強大的圖形性能,這都給人留下了深刻的印象。 如果一切順利的話,AMD的新產品在市場上有可能會具備比較強大的競爭力。不過目前最大的問題在于,AMD還沒有公開Beema、Mullins與英特爾對應的Bay Trail系列產品進行功耗對比的實際測試,究竟Beema和Mullins的功耗表現到底如何,電池續(xù)航時間有多長,還需要更多的測試才能確定。AMD預計Beema和Mullins在接下來的一到兩個季度中,就會有實際產品上市了,其實目前聯想、三星等廠商已經發(fā)布了基于AMD Beema和Mullins的產品。 另外,AMD是否有興趣在安卓平臺上開疆拓土呢?看起來Mullins非常適合高性能的安卓平板電腦,不過迄今為止AMD都只在Windows平臺上發(fā)力。根據目前的市場情況來看,AMD很有可能出現在安卓市場上。未來的一切,只有等待時間來告訴我們答案了。