大片视频免费观看视频_欧美激情猛片xxxⅹ大3之樱桃_性饥渴艳妇性色生活片在线播放_啦啦啦www视频在线观看_宝贝~你里面好紧我好爽视频_国产国产人免费人成免费视频_来自GeoGebra 的交互式_欧美又色又爽又黄的A片18禁_色欲aⅴ亚洲情无码AV

Groq發(fā)布全球首款每秒1000萬(wàn)億次運(yùn)算的AI加速卡

share

2016年底,谷歌TPU團(tuán)隊(duì)的十位核心開(kāi)發(fā)者中的八位悄悄離職,創(chuàng)辦了一家名為 Groq 的機(jī)器學(xué)習(xí)系統(tǒng)公司,是進(jìn)軍AI加速卡的第100家、是商業(yè)化推向市場(chǎng)的第2家,是首家達(dá)到每秒1000萬(wàn)億次運(yùn)算的公司。如果做對(duì)比,那么它是當(dāng)前NVIDIA最強(qiáng)大顯卡性能的四倍。The Groq Tensor Streaming Processor (TSP) 要求每個(gè)內(nèi)核達(dá)到300W,而且他們已經(jīng)成功做出來(lái)了。而且更幸運(yùn)的是,已將其從劣勢(shì)轉(zhuǎn)變?yōu)門(mén)SP的最大優(yōu)勢(shì)。這款TSP是一塊巨大的硅處理器,幾乎只有矢量和矩陣處理單元以及高速緩存,因此沒(méi)有任何控制器或后端,編譯器具有直接控制權(quán)。TSP分為20個(gè)超級(jí)通道。超級(jí)通道按從左到右的順序構(gòu)建:矩陣單元(320 MAC),交換單元,存儲(chǔ)單元(5.5 MB),矢量單元(16 ALU),存儲(chǔ)單元(5.5 MB),交換單元,矩陣單元( 320個(gè)MAC)。指令流(只有一個(gè))被饋送到超通道0的每個(gè)組件中,其中矩陣單元有6條指令,開(kāi)關(guān)單元有14條指令,存儲(chǔ)單元有44條指令,向量單元有16條指令。每個(gè)時(shí)鐘周期,單元執(zhí)行操作,并將數(shù)據(jù)移到超通道內(nèi)的下一個(gè)位置。每個(gè)組件都可以從其相鄰鄰居發(fā)送和接收512B。超級(jí)通道的操作完成后,它將所有內(nèi)容傳遞到下一個(gè)超級(jí)通道,并接收上方的超級(jí)通道(或指令控制器)擁有的所有內(nèi)容。指令始終在超級(jí)通道之間垂直向下傳遞,而數(shù)據(jù)僅在超級(jí)通道內(nèi)水平傳輸。在ResNet-50中,它可以在任何批處理大小下每秒執(zhí)行20,400個(gè)推理(I / S),推理延遲為0.05毫秒。Nvidia的Tesla V100可以以128的批量大小執(zhí)行7,907 I / S,或者以1的批量大小執(zhí)行1,156 I / S。但有了 Groq 的硬件和軟件,編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個(gè)計(jì)算所需的時(shí)間。編譯器在正確的時(shí)間將數(shù)據(jù)和指令移動(dòng)到正確的位置,這樣就不會(huì)有延遲。到達(dá)硬件的指令流是完全編排好的,使得處理速度更快,而且可預(yù)測(cè)。開(kāi)發(fā)人員可以在 Groq 芯片上運(yùn)行相同的模型 100 次,每次得到的結(jié)果都完全相同。對(duì)于安全和準(zhǔn)確性要求都非常高的應(yīng)用來(lái)說(shuō)(如自動(dòng)駕駛汽車),這種計(jì)算上的準(zhǔn)確性至關(guān)重要。另外,使用 Groq 硬件設(shè)計(jì)的系統(tǒng)不會(huì)受到長(zhǎng)尾延遲的影響,AI 系統(tǒng)可以在特定的功率或延遲預(yù)算內(nèi)進(jìn)行調(diào)整。這種軟件優(yōu)先的設(shè)計(jì)(即編譯器決定硬件架構(gòu))理念幫助 Groq 設(shè)計(jì)出了一款簡(jiǎn)單、高性能的架構(gòu),可以加速推理流程。該架構(gòu)既支持傳統(tǒng)的機(jī)器學(xué)習(xí)模型,也支持新的計(jì)算學(xué)習(xí)模型,目前在 x86 和非 x86 系統(tǒng)的客戶站點(diǎn)上運(yùn)行。根據(jù)官方發(fā)布的新聞稿,該TSP已經(jīng)作為Nimbix Cloud的加速器面向部分客戶開(kāi)放。?來(lái)源:cnBeta

share