能否推倒i7?AMD推土機CPU架構全解析
???????????????????????????????????????????????????????? 能否推倒i7?AMD推土機CPU架構全解析 AMD終于發(fā)布了讓人期待已久的Llano高性能APU(加速處理器),APU的真正實力毫無保留的展現(xiàn)在了世人面前,簡單來說,APU的表現(xiàn)可謂是喜憂參半,喜的是GPU部分確實強大,絕對可以秒殺主流級獨立顯卡,性能是Intel SandyBridge集顯HD3000的2-3倍甚至更多;憂的是CPU部分原地踏步,與Intel CPU的差距越來越大?! PU的CPU部分,使用的還是Phenom II架構,而且還是沒有三級緩存的精簡版。Phenom II的架構相比Phenom I改進不大,還停留在Intel Core 2 Quad的級別。而Intel此后已經推出了兩代Core i7產品,性能節(jié)節(jié)攀升,AMD想要與SandyBridge架構的第二代Core i7抗衡,使用老架構簡單擴充核心是毫無勝算的。 AMD下一代CPU架構――Bulldozer(推土機)就肩負起了對抗SandyBridge Core i7的重任?,F(xiàn)在距離推土機發(fā)布已經不遠了,相信更多的DIY玩家都在期待AMD全新CPU架構的表現(xiàn),那么首先我們就來詳細了解一下推土機架構到底有什么值得期待之處吧。Intel的殺手锏――HT同步多線程技術 我們知道,在Core 2時代,AMD和Intel的CPU性能差距還不算太大。但Core i7問世之后,性能有了質的提升,其中貢獻最大的非HT(Hyper-Threading,超線程)技術莫屬。HT技術可以輕易地把4核虛擬成8線程,在任務管理器中看到的“8個核心”不僅僅是看著爽而已,它確實帶來了不小的性能增益,進一步與AMD CPU拉開了差距。SMT同步多線程技術的工作原理 SMT(Simultaneous Multi-threading,同步多線程)的設計初衷非常簡單,就是為了充分利用CPU物理核心的資源,防止運算能力被浪費?! ∫话闱闆r下,CPU的物理核心只有一個執(zhí)行線程,很多時候CPU核心會處在等待內存中關鍵代碼或數(shù)據(jù)的狀態(tài),此時線程為暫停狀態(tài),核心運算能力被閑置。而SMT技術可以允許一顆核心運行兩個或多個線程,當?shù)谝粋€線程暫停時,將第二個資源準備充分的線程安排給核心處理,這樣動態(tài)切換的結果就是,CPU的運算能力得到了最大的利用。 簡言之,SMT的設計理念就是用多個線程“喂飽”CPU物理核心,盡可能不讓CPU運算單元閑置。 SMT是一種非常廉價的技術,因為CPU的物理內核并沒有增加,只需要為CPU賦予兩套架構寄存器和重命名寄存器即可,而這些寄存器并不會消耗太多的晶體管。最終在操作系統(tǒng)中的呈現(xiàn)方式,和物理核心沒有區(qū)別,操作系統(tǒng)會把4核8線程的CPU當作8核CPU來使用,并安排運算任務?! MT技術對那些CPU負載不是很高且支持多路并發(fā)處理的線程比較有意義,典型的比如文件壓縮解壓縮、視頻編碼解碼等。如果兩個線程都需要花費較長的時間等待內存和緩存準備數(shù)據(jù)的話,那么一個雙線程SMT核心幾乎就可以等同于一個雙核處理器?! 〉玈MT的效率根據(jù)應用的不同會有很大差異,如果內存和緩存的壓力不大,CPU核心一直都在忙于處理線程的話,另一個線程遲遲排不上隊,此時SMT核心的效率可能還不如單顆物理核心。這就是此前測試時關閉HT技術反而在部分項目中性能更好的根本原因, 根據(jù)Intel公布的數(shù)據(jù)來看,在真實的應用環(huán)境下,超線程技術能夠給CPU帶來20-30%額外的性能提升,也就是說一顆雙線程SMT核心相當于1.2個常規(guī)核心的效能。AMD又一次創(chuàng)新――反其道而行之 通過前面的介紹我們可以知道,Intel的同步多線程技術實際上并不能提升CPU的理論運算性能,只是消除了CPU等待指令時的瓶頸,在部分應用中提升了效能。這樣HT技術就存在很大的局限性,如果主內存不再是瓶頸,SMT的執(zhí)行單元就過剩了,而一個SMT核心也就不再比一個單純的核心更高效,畢竟SMT核心需要增加一些電路設計,比一個單純的核心成本要高一些?! ∷訟MD并沒有照搬Intel的做法走SMT路線,也不是繼續(xù)暴力增加CPU的物理核心數(shù)目,CPU的未來并不是只有這兩條路可走,于是AMD有了一個新的想法:Intel是把一顆物理核心虛擬成兩顆來用,而AMD是把兩顆物理核心組合成一顆大核心來用――這顆大核心的官方名稱叫做“推土機模塊”?! 槭裁匆褍深w核心合成一顆來用呢?有兩個好處,一是可以共享運算單元和緩存,提升效能;二是共享之后會節(jié)約晶體管(重復單元合二為一),而不是像SMT那樣增加晶體管(兩份寄存器)。 AMD認為,隨著CPU的物理內核數(shù)目越來越多(4/6/8核甚至更多),CPU的核心面積也會越來越大,功耗成倍增加。傳統(tǒng)CMP暴力復制核心的方式會造成大量重復性的電路。而減少冗余電路的最好方法就是整合,把兩顆核心整合在一起,共用一套指令發(fā)射器和解碼器還有緩存。 相信細心的讀者已經發(fā)現(xiàn)了,AMD并不是簡單的把兩顆核心放在了一起,而是有所精簡――兩顆核心的整數(shù)運算單元都被完整的保留了下來,而浮點運算單元只留了一份,這又是為什么呢? 數(shù)據(jù)顯示,存在于服務器和超級計算機上80%的操作都是純粹的整數(shù)運算,CPU的浮點運算器利用率很低,所以AMD在開發(fā)新一代CPU架構時強化了整數(shù)運算而忽視浮點運算。 另一方面,隨著CPU和GPU異構計算應用越來越多,GPU將會越來越多的負擔起浮點運算的操作,預計未來3-5年的時間內,據(jù)大多數(shù)浮點運算都將會交給最擅長做浮點運算的GPU,這也就是推土機加強整數(shù)運算而精簡浮點運算的真正目的,雖然推土機CPU并未整合GPU(因為它定位高端,不論企業(yè)還是玩家都需要最強的CPU和GPU),但下一代APU Trinity將會使用推土機的CPU核心加HD6900 4D架構的GPU核心,推土機架構依然在為Fusion APU而準備著,可以說AMD繼64bit、整合內存控制器、HT總線、三個層級緩存之后,又一次采用創(chuàng)新的設計理念引領業(yè)界,走在了巨頭Intel前面!推土機模塊化設計的四大優(yōu)勢 其實,在上一頁介紹推土機架構的設計理念時,已經將其優(yōu)勢體現(xiàn)了出來,下面就再強調一下?! 〉谝?,AMD雖然將兩顆物理內核設計成為一個推土機模塊,但每個模塊依然是真雙核設計,操作系統(tǒng)深信不疑; 第二,模塊化設計節(jié)約了大量重復性晶體管,8核心的推土機CPU在晶體管數(shù)、核心面積、功耗發(fā)熱方面也不會很大,因為它比傳統(tǒng)意義上的8核心處理器“瘦身”不少; 第三,一個推土機模塊內部的兩顆物理內核共享二級緩存,四個推土機模塊(共8顆物理內核)共享三級緩存,緩存利用率大大提升;? 第四,CPU的單核效能不僅不會下降,而且還可以共享推土模塊內部相鄰核心的運算資源。Intel處理器開啟超線程在部分應用中性能不升反降的情況,在推土機上是不會出現(xiàn)的?! ‘斎?,推土機架構的缺點也是很明顯的,它雖然擁有8顆物理核心,但浮點運算能力只相當于是傳統(tǒng)4核心的水平。理論上,Intel的HT超線程技術能夠一定程度上提升多任務性能,每顆物理核心相當于是1.2核的性能,而AMD的每個推土機模塊則可以達到1.8核的性能。推土機模塊相對于羿龍II的改進 AMD推土機架構的設計理念不難理解,但更多人擔心的是其核心執(zhí)行效率,畢竟這些年來AMD在效能方面改進緩慢。如果CPU內核效率不行的話,整體架構再怎么優(yōu)秀也不會有很好的綜合表現(xiàn)?,F(xiàn)在我們就來看看推土機內核相對于羿龍有何改進?根據(jù)AMD官方發(fā)布的Bulldozer架構資料,盡管AMD并沒有詳細說明Bulldozer的指令解碼部分相對舊款K7/K8/K10作出了什么改進,但我們可以根據(jù)這些官方的展示內容,推斷出Bulldozer的指令解碼寬度將從K7/K8/K10的每時鐘周期三條微指令提升為四條?! ∵@里我們把一個推土機的模塊看作是一顆核心的話,里面有兩個獨立的整數(shù)核心,每一個都擁有自己的指令、數(shù)據(jù)緩存。雖然兩個整數(shù)運算核心要比K10的三個少,但實際上其中任何一個核心的運算能力都要強于Phenom II。 Intel的Core架構無論整數(shù)或者浮點,都采用了統(tǒng)一的Scheduler(調度)派發(fā)指令。推土機構架使用獨立的整數(shù)和浮點派發(fā)器,而且整數(shù)派發(fā)器有兩個,對應推土機模塊里面的兩顆核心。 推土機模塊的兩個核心支持執(zhí)行兩個線程,會共享對延遲要求較高的功能、平緩突發(fā)和低效應用、線程間動態(tài)分配資源,好處是比兩個線程共享一個核心更高的伸縮性和可預測性、多線程負載的吞吐優(yōu)勢、單線程時所有共享資源均可訪問、以少得多的面積和功耗提供物理核心80%的性能?! ⊥仆翙C模塊的浮點運算單元是兩個128位的FMAC(乘加運算器),這兩個運算器可以被兩個整數(shù)核心共享,如果其中一個整數(shù)核心獲得的線程支持純粹的整數(shù)操作,那么另外一個核心就可以獲得全部的浮點執(zhí)行資源。這樣設計的結果就是,推土機的單核效能將會比Phenom II強不少,而多核效能部分,整數(shù)運算能力很強,而浮點運算能力也不會太弱。推土機的初步性能:小勝i7-2600K 雖然距離推土機正式發(fā)布還有一段時間,但國外網站已經放出了很多工程樣品的測試成績,其中最為可信的當屬donanimhaber網站給出的測試報告,我們可以拿它與Intel的當紅明星Core i7 2600K做一個簡單對比?! onanimhaber拿到的這顆推土機工程樣品默認頻率是3.2GHz,借助新的Turbo Core加速技術,8核負載可以加速到3.6GHz,而在4核負載時更可以加速到4.2GHz。而Core i7 2600K的默認主頻的3.4GHz,可睿頻至3.8GHz。推土機是4模塊8核心,而2600K是4核心8線程,兩者從哪方面來看都是旗鼓相當。測試結果如下:國際象棋Benchmark測試,推土機每秒14197千步,i7-2600K每秒13759千步,推土機小勝。CineBench R10多線程圖形渲染測試,推土機得分為24434,i7-2600K得分為24381,再次小勝?! ∮捎跊]有更多的成績作為參考,但基本上在多線程運算方面,8核推土機的性能已經和Intel最強4核8線程處理器相當了。AMD拿什么對抗SandyBridge-E? 通過前面的分析測試我們可以得知,推土機的性能最終也就和i7-2600K一個級別。Intel是把4顆傳統(tǒng)物理核心當作8顆用,而AMD是把8顆精簡過的物理核心當作4顆用,最終所實現(xiàn)的性能居然旗鼓相當。 我們知道,近年來AMD處理器的單核效能始終要比Intel差一截,這就導致在核心數(shù)量大戰(zhàn)時代,核心越多,AMD的性能弱勢就越明顯。在核心微架構不做革命性改進的情況下,想要超越Intel真的是很難。 而推土機這種創(chuàng)新的模塊化設計理念,雖然與Intel的超線程技術完全相反,但最終實現(xiàn)的效果就是――同為8線程,多核性能實現(xiàn)了追平甚至反超,不禁令人拍案叫絕?! 〉牵珻ore i7 2600K并非Intel最高端的產品,Intel還有6核12線程三通道的產品,未來還將發(fā)布8核16線程四通道的SandyBridge-E,這顆怪獸CPU的性能將會達到i7-2600K的兩倍左右,AMD將如何應付呢? 不難,AMD將會以彼之道還施彼身,把兩顆推土機封裝在一起實現(xiàn)16核心,這就是下一代的服務器處理器“Interlagos”。Interlagos和桌面版本的FX推土機架構一致,只不過是雙芯FX,所以核心數(shù)倍增到16,而且內存也將是四通道(CPU整合內存控制器,兩個雙通道)。如此一來16核推土機的性能也應該不會輸給8核16線程的SandyBridge-E?! 】上У氖荢andyBrdige-E已經確定登陸桌面級平臺,配套芯片組是X79,而AMD暫時沒有將16核推土機引入桌面級的打算。8核FX搭配990FX芯片組可能就是AMD的頂級平臺了
評論 (0)