大片视频免费观看视频_欧美激情猛片xxxⅹ大3之樱桃_性饥渴艳妇性色生活片在线播放_啦啦啦www视频在线观看_宝贝~你里面好紧我好爽视频_国产国产人免费人成免费视频_来自GeoGebra 的交互式_欧美又色又爽又黄的A片18禁_色欲aⅴ亚洲情无码AV

全球最強超級計算機搭載的SW26010處理器解析

share

  全球最強超級計算機神威·太湖之光搭載的申威26010處理器每片處理器包含4個核心,片上的4個核心通過片上網(wǎng)絡互聯(lián),并通過PCI-E 3.0對外連接,每個核心擁有獨立的128位DDR3控制器連接到8GB DDR3-2133內(nèi)存,這樣4個核心一共擁有32GB的DDR3內(nèi)存。

  

  

  從這里可以看出SW26010實際上類似于用膠水把4個獨立的處理器粘在了一起,整合到了一個芯片里面,但是每個核心還是可以獨立工作,而且擁有獨立的128bit 8GB內(nèi)存。這樣單個核心的內(nèi)存帶寬達到了34GB/s,整個處理器達到了136GB/s,這樣設計最大的好處就是每個核心的帶寬是完全獨享的,缺點是空閑核心的帶寬無法共享給其他核心。

  其中每個核心包含一個主處理器(MPE)和一個8*8的計算單元陣列(CPEs),主處理器是一個64位的RISC架構核心,用來跑操作系統(tǒng),并且支持264位的矢量指令集,擁有32KB的L1指令緩存和32KB的L1數(shù)據(jù)緩存(總共64KB L1 cache),和256KB L2 Cache,應該說這樣的緩存配置并不算大,應該是為了節(jié)約芯片面積考慮,4個核心的主處理器加起來一共有256KB L1 cache和1MB L2 cache。

  計算單元陣列(CPEs)是一個由64個簡化的62bit處理器(不是常見的64bit)組成,每個處理器只有16KB的L1指令緩存和64KB本地儲存,沒有L1數(shù)據(jù)緩存,并且和主處理器一樣支持264位的矢量指令集,單片處理器擁有一共256個這樣的計算單元。

  于是加上4個主處理器,單片處理器一共擁有260個處理器核心。

  

  神威·太湖之光的每個處理器卡有兩片SW26010處理器,和一共64GB內(nèi)存,長得像這樣,每個處理器算一個計算節(jié)點,這樣一塊處理器卡和intel xeon phi協(xié)處理器卡類似,只是intel這樣一塊計算卡只有區(qū)區(qū)60個核心,而且不能獨立工作,還需要另外購買一個獨立的xeon主機作為管理處理器使用。而SW26010處理器集成了管理處理器,可以獨立工作,并且單個處理器卡擁有高達520個處理器核心。

  

  對比一下intel xeon phi計算系統(tǒng)的結構:

  

  KNC Card就是一塊intelXeon Phi協(xié)處理器卡,協(xié)處理器卡通過PCIE-X16和主處理器相連,其實看上去就像是一臺PC上面插著好幾塊顯卡。這樣一臺PC構成一個計算節(jié)點。

  對比SW26010處理器的方案,單個節(jié)點來看,一塊SW26010的核心數(shù)量和一臺帶有4塊xeon phi計算卡的功能相當。Intel方案的麻煩在于,這樣一個計算節(jié)點的功耗和體積遠遠大于SW26010,而且intel主處理器內(nèi)存和協(xié)處理器卡的內(nèi)存是分離的,需要先將要處理的數(shù)據(jù)通過PCI-E x16傳輸至計算卡內(nèi)存,然后計算卡才能計算,最后將結果通過PCI-E x16讀回主處理器,這樣一來一回的性能損失很多時候遠大于計算卡帶來的好處。

  SW26010的主處理器和協(xié)處理器的內(nèi)存是共享的,這樣無需來回從協(xié)處理器倒騰數(shù)據(jù),而且可以實現(xiàn)類似AMD APU的統(tǒng)一內(nèi)存尋址,大幅度提高了協(xié)處理器的使用效率,從這點來說SW26010的方案是優(yōu)于intel方案的。

  從單個核心對比來看,Intel的phi協(xié)處理器據(jù)說是基于最早的奔騰x86方案改進而成,多了一個512位的矢量處理器,而SW26010只有264位的矢量處理器,phi擁有32KB的L1指令緩存,32KB的L1數(shù)據(jù)緩存和512KB的L2 緩存,對比SW26010的協(xié)處理器只有16KB的L1指令緩存和64KB的本地存儲,而且intel的phi核心可以支持4個物理線程,也就是超線程技術,單純從技術來講,intel的phi處理器拿出來單挑應該可以吊打單獨的SW26010的計算核心。

  理論性能可以看出,單個intel的phi處理器是高于SW26010的計算核心,得益于超寬的512位矢量處理器(VPU),intel phi上的處理器每個時鐘可以執(zhí)行16個單精度運算或8個雙精度計算,而SW26010上的計算核心只有一半的寬度,所以最多也就8個單精度和4個雙精度,不過SW26010的核心頻率是1.45GHz,要比intel phi的1.3GHz稍高,但是這樣也很難追平intel的單個核心的理論性能優(yōu)勢。

  但是光比理論峰值性能是沒有什么意義的,SW26010的VPU雖然比intel phi的寬度小,但是264bit的寬度而不是256bit的寬度可以提供比intel的單雙精度浮點更高的計算精度,單精度浮點可以比intel的高一倍,而雙精度可以高4倍,這在科學計算中是能夠獲得更大的優(yōu)勢,而且intel的512bit寬度的矢量運算需要更多的數(shù)據(jù)來填飽它,加上需要用PCI-E傳輸數(shù)據(jù)的瓶頸,大部分時候也只能挨餓,而SW26010可以直接訪問主存,因此在實際使用效率上不見得就會比intel phi低多少,并且某些應用場合甚至可能大幅度超過intel。

share