熱門搜索 導(dǎo)熱硅脂、低溫?zé)峁棠z、BGA底部填充膠、PUR熱熔膠、紫外線光固化膠、導(dǎo)熱環(huán)氧膠、AB結(jié)構(gòu)膠
作者:信息發(fā)布員 來(lái)源:東莞市華圳電子科技有限公司 時(shí)間:2019/12/9 21:57:33
芯片初創(chuàng)公司Cerebras Systems在美國(guó)舉行的Hotchips國(guó)際大會(huì)上,正式發(fā)布了“全球最大”的AI芯片Wafer Scale Engine(以下簡(jiǎn)稱“WSE”)。隨后在9月,Cerebras宣布與美國(guó)能源部(DOE)達(dá)成合作,將利用WSE進(jìn)行基礎(chǔ)和應(yīng)用科學(xué)、醫(yī)學(xué)研究,充分發(fā)揮其超大規(guī)模AI的優(yōu)勢(shì)。WSE會(huì)進(jìn)駐美國(guó)能源部下屬Argonne(阿貢)國(guó)家實(shí)驗(yàn)室、利弗莫爾國(guó)家實(shí)驗(yàn)室,與傳統(tǒng)超級(jí)計(jì)算機(jī)合作,加速AI工作。
經(jīng)過(guò)了近兩個(gè)月的時(shí)間,在昨天的超級(jí)計(jì)算 2019 峰會(huì)(Supercomputing 2019 Event)上,Cerebras正式發(fā)布了與美國(guó)能源部合作的成果——基于WSE芯片的全球最快的深度學(xué)習(xí)計(jì)算系統(tǒng) CS-1。Cerebras表示,目前第一臺(tái) CS-1 已經(jīng)向美國(guó)能源部的 Argonne 國(guó)家實(shí)驗(yàn)室交付完畢,將投入處理大規(guī)模的人工智能計(jì)算問(wèn)題,比如研究癌癥藥物的相互作用。盡管 CS-1 的性能還沒(méi)有得到相關(guān)驗(yàn)證,但為大規(guī)模人工智能計(jì)算提供了一種新可能。
全球最大的AI芯片WSE:4.6萬(wàn)mm2,40萬(wàn)核心!
資料顯示,Cerebras此前推出的全球最大AI芯片WSE基于臺(tái)積電16nm工藝,核心面積超過(guò)46225mm2,是目前芯片面積最大的英偉達(dá)GPU的56.7倍。其內(nèi)部集成了高達(dá)1.2萬(wàn)億個(gè)晶體管,40萬(wàn)個(gè)核心,18Gigabytes的片上內(nèi)存,內(nèi)存帶寬9 PByte/s,fabric帶寬100 Pbit/s,
WSE包含40萬(wàn)個(gè)AI優(yōu)化的計(jì)算內(nèi)核是稀疏線性代數(shù)核(Sparse Linear Algebra Cores, SLAC),具有靈活性、可編程性,并針對(duì)支持所有神經(jīng)網(wǎng)絡(luò)計(jì)算的稀疏線性代數(shù)進(jìn)行了優(yōu)化。SLAC的可編程性保證了內(nèi)核能夠在不斷變化的機(jī)器學(xué)習(xí)領(lǐng)域運(yùn)行所有的神經(jīng)網(wǎng)絡(luò)算法。
WSE芯片還包含了比迄今為止任何芯片都要多的內(nèi)核和本地內(nèi)存,并且在一個(gè)時(shí)鐘周期內(nèi)擁有18GB的片上內(nèi)存。WSE上的核心本地內(nèi)存的集合提供了每秒9 PB的內(nèi)存帶寬——比最好的GPU大3000倍的片上內(nèi)存和10000倍的內(nèi)存帶寬。由于這些內(nèi)核和片上內(nèi)存都是集成在單個(gè)晶圓上互連的單芯片,核心更靠近內(nèi)存,所有通信也都在芯片上進(jìn)行,通信帶寬高、延遲低,因此核心組可以以最高效率進(jìn)行協(xié)作。
此外,WSE上還使用了處理器間通信結(jié)構(gòu)Swarm,它以傳統(tǒng)通信技術(shù)功耗的一小部分實(shí)現(xiàn)了帶寬的突破和低延遲。Swarm提供了一個(gè)低延遲、高帶寬的2D網(wǎng)格,它將WSE上的所有400,000個(gè)核連接起來(lái),每秒的帶寬總計(jì)達(dá)100 petabits。
可以說(shuō),WSE是目前性能最為強(qiáng)大的AI芯片。
專為大規(guī)模AI計(jì)算設(shè)計(jì)的超級(jí)計(jì)算系統(tǒng)CS-1
雖然,在人工智能計(jì)算中,芯片越大越好,更大的芯片處理信息更快,能在更短的時(shí)間內(nèi)得到訓(xùn)練結(jié)果。但是,僅有強(qiáng)大的AI處理器性能還遠(yuǎn)不足夠。像WSE這樣的高級(jí)處理器必須與專用的軟件相結(jié)合才能實(shí)現(xiàn)破紀(jì)錄的性能。因此,Cerebras專門為這一巨型芯片開發(fā)了專門的CS-1系統(tǒng)和軟件平臺(tái),各方面都為加速人工智能計(jì)算專門設(shè)計(jì)。
Cerebras首席執(zhí)行官Andrew Feldman在接受 VentureBeat 采訪時(shí)說(shuō):“這是從300毫米晶圓中切割出的最大“正方形“。盡管我們擁有最大、最快的芯片,但我們知道,一個(gè)非凡的處理器未必足以提供非凡的性能。如果想提供非?斓男阅,那么就需要構(gòu)建一個(gè)系統(tǒng)。而且并不是說(shuō)把法拉利的引擎放進(jìn)大眾汽車?yán)铮湍艿玫椒ɡ男阅堋?/span>如果想要獲得1000倍的性能提升,需要做的就是打破瓶頸。”
據(jù)介紹,CS-1系統(tǒng)只有15個(gè)標(biāo)準(zhǔn)機(jī)架高度,高約26 英寸(約 66 厘米),可以在一個(gè)機(jī)架中安裝三套CS-1系統(tǒng)。一套CS-1系統(tǒng)的性能就相當(dāng)于一個(gè)擁有1000顆英偉達(dá)V100的GPU的集群,并且CS-1所占的空間只有其1/40,功耗也只有其1/50。
同時(shí)CS-1系統(tǒng)的性能還相當(dāng)于Google TPU v3系統(tǒng)的三倍還多,但功耗只有其1/5,體積也只有其1/30。
Cerebras表示,與其他系統(tǒng)相比,CS-1的每一個(gè)組件都專門針對(duì)人工智能工作優(yōu)化,可以以更小的尺寸和更少的能源消耗下提供更高的計(jì)算性能。
Cerebras首席執(zhí)行官Andrew Feldman表示,通過(guò)優(yōu)化芯片設(shè)計(jì)、系統(tǒng)設(shè)計(jì)和軟件的各個(gè)方面,CS-1目前的性能令人滿意。通過(guò)CS-1和配套的系統(tǒng)軟件, AI需要幾個(gè)月才能完成的工作現(xiàn)在可以在幾分鐘內(nèi)完成,而需要幾個(gè)星期完成的工作可以在幾秒鐘內(nèi)迅速完成。CS-1不僅從根本上減少了訓(xùn)練時(shí)間,而且還為降低延遲設(shè)立了新的標(biāo)桿。對(duì)于深度神經(jīng)網(wǎng)絡(luò),單一圖像的分類可以在微秒內(nèi)完成,比其他解決方案快幾千倍。
CS-1的功耗及散熱系統(tǒng)
作為全球最大、性能最強(qiáng)的AI芯片,WSE的功耗和發(fā)熱也很大,再加上散熱系統(tǒng)的功耗,這也使得整個(gè)CS-1系統(tǒng)的功耗進(jìn)一步提升到了20千瓦。根據(jù)官方的數(shù)據(jù)顯示,WSE芯片的功耗為15千瓦,專門用于散熱子系統(tǒng)(包括風(fēng)扇、水泵、導(dǎo)熱排等等)的功耗為4千瓦,還有1千瓦損失在供電轉(zhuǎn)換效率上。
如上圖,CS-1系統(tǒng)的左上角還配備了多達(dá)12個(gè)100GbE網(wǎng)口,這也意味著CS-1系統(tǒng)可以與執(zhí)行傳統(tǒng)形式的計(jì)算的大型超級(jí)計(jì)算機(jī)進(jìn)行協(xié)同工作。比如,可以將傳統(tǒng)的超級(jí)計(jì)算機(jī)處理后的數(shù)據(jù)接入CS-1系統(tǒng)進(jìn)行專門的AI計(jì)算處理,從而利用兩種不同類型的計(jì)算的優(yōu)勢(shì)來(lái)滿足不同的工作負(fù)載。同時(shí),CS-1系統(tǒng)還可以通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展到多個(gè)節(jié)點(diǎn),這意味著CS-1系統(tǒng)可以在更大的組中工作。Cerebras表示,其已經(jīng)測(cè)試了“非常大”的集群,然后可以在數(shù)據(jù)并行模式的模型中將其作為單個(gè)同構(gòu)系統(tǒng)進(jìn)行管理,但官方尚未發(fā)布可伸縮性指標(biāo)。
整個(gè)CS-1系統(tǒng)通過(guò)機(jī)箱后面的12個(gè)電源連接接口獲取電源,然后將電壓從54V降低至0.8V,再將其傳送至芯片。功率流過(guò)母板(而不是母板周圍),然后流入處理器,而未指定數(shù)量的內(nèi)核的各個(gè)區(qū)域各自接收自己所需的電源。Cerebras表示,晶圓級(jí)的WSE芯片保持了一致的功率傳輸,并且還實(shí)現(xiàn)了片上功率的精細(xì)化分配。
如上圖,這是CS-1系統(tǒng)的主系統(tǒng),這是一個(gè)三明治式設(shè)計(jì),具有電源子系統(tǒng),母板,芯片和冷卻板作為一個(gè)組件安裝(左)。冷板從歧管向右接收水,然后將冷水輸送到冷卻板表面上的幾個(gè)單獨(dú)區(qū)域。然后,再次從確保一致散熱的小區(qū)域抽取熱水,然后將其抽到設(shè)備底部的熱交換器。該交換器由EMI格柵組成,并由采用空氣矯直機(jī)的強(qiáng)力風(fēng)扇冷卻。總體而言,該芯片的運(yùn)行溫度為標(biāo)準(zhǔn)GPU的一半,從而提高了可靠性。
需要指出的是,所有單個(gè)單元(例如6 + 6電源,熱泵,風(fēng)扇和熱交換器)都是冗余的,并且可熱交換,以最大程度地減少停機(jī)時(shí)間和故障。
另外,Cerebras雖然并未公布WSE芯片具體的運(yùn)行的時(shí)鐘頻率,但是其向外界透露,該芯片的運(yùn)行時(shí)鐘不是非!凹みM(jìn)”,在2.5GHz至3GHz的范圍之間。
已與美國(guó)Argonne國(guó)家實(shí)驗(yàn)室達(dá)成合作
目前,CS-1的第一臺(tái)機(jī)器已經(jīng)完成交付。在美國(guó)Argonne國(guó)家實(shí)驗(yàn)室,CS-1正被用于研究癌癥的神經(jīng)網(wǎng)絡(luò)的開發(fā),幫助理解和治療創(chuàng)傷性腦損傷,CS-1的性能使其成為AI中最復(fù)雜問(wèn)題的潛在解決方案。
Argonne實(shí)驗(yàn)室是一個(gè)多學(xué)科的科學(xué)與工程研究中心,CS-1可以將全球最大的超級(jí)計(jì)算機(jī)站點(diǎn)比現(xiàn)有的AI加速器性能提升100到1000倍。
通過(guò)將超級(jí)計(jì)算能力與CS-1的AI處理能力結(jié)合使用,Argonne實(shí)驗(yàn)室現(xiàn)在可以加快深度學(xué)習(xí)模型的研發(fā),以解決現(xiàn)有系統(tǒng)無(wú)法實(shí)現(xiàn)的問(wèn)題。
“我們與Cerebras合作已有兩年多了,我們非常高興將新的AI系統(tǒng)引入Argonne。”Argonne實(shí)驗(yàn)室的計(jì)算、環(huán)境和生命科學(xué)副實(shí)驗(yàn)室主任Rick Stevens表示,“通過(guò)部署CS-1,我們大大縮短了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間,使我們的研究人員能夠大大提高工作效率,從而在癌癥、顱腦外傷以及當(dāng)今社會(huì)重要的許多其他領(lǐng)域的深度學(xué)習(xí)研究中得到顯著進(jìn)步。”
深度學(xué)習(xí)是人工智能的一個(gè)領(lǐng)域,它允許計(jì)算機(jī)網(wǎng)絡(luò)從大量的非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行學(xué)習(xí),然而深度學(xué)習(xí)模型需要大量的計(jì)算能力,并正在挑戰(zhàn)當(dāng)前計(jì)算機(jī)系統(tǒng)能夠處理的極限,Cerebras CS-1的推出試圖解決這一問(wèn)題。
Argonne實(shí)驗(yàn)室部署CS-1以加強(qiáng)人工智能模型的訓(xùn)練,它的第一個(gè)應(yīng)用領(lǐng)域是癌癥藥物反應(yīng)預(yù)測(cè),這個(gè)項(xiàng)目是美國(guó)能源部和國(guó)家癌癥研究所合作的一部分,旨在利用先進(jìn)的計(jì)算機(jī)和人工智能來(lái)解決癌癥研究中的重大挑戰(zhàn)問(wèn)題。增加的 Cerebras CS-1正在努力支持Argonne擴(kuò)大,主要提倡先進(jìn)的計(jì)算,這也有望利用AI功能在2021年發(fā)布的Aurora exascale 系統(tǒng)實(shí)現(xiàn)百億億次級(jí)連接。
美國(guó)能源部負(fù)責(zé)人工智能與技術(shù)的副部長(zhǎng)Dimitri Kusnezov在一份聲明中說(shuō):“在能源部,我們相信與私企合作是加速美國(guó)人工智能研究的重要組成部分。我們期待著與Cerebras建立長(zhǎng)期而有成效的伙伴關(guān)系,這將有助于研究下一代人工智能技術(shù),并改變能源部的運(yùn)營(yíng)、業(yè)務(wù)和任務(wù)的形勢(shì)。”
Andrew Feldman說(shuō):“我認(rèn)為,我們將在未來(lái)五年內(nèi)迎來(lái)一個(gè)非常激動(dòng)人心的職業(yè)生涯。我認(rèn)為,一小群人可以改變世界,這確實(shí)是企業(yè)家的口頭禪。你不需要一個(gè)大公司,不需要數(shù)十億美元,只要一小群杰出的工程師就能真正改變世界。我們始終相信這一點(diǎn)。”
仍存在質(zhì)疑:高昂價(jià)格、內(nèi)存過(guò)小、算法瓶頸?
當(dāng)然,對(duì)于這樣一個(gè)全新的AI超級(jí)計(jì)算機(jī)系統(tǒng),許多網(wǎng)友也提出了質(zhì)疑。
Reddit上針對(duì)CS-1的一個(gè)討論中,名為“yusuf-bengio”的網(wǎng)友表示,在實(shí)際操作中這種“晶圓規(guī)模的AI處理器”可能存在瓶頸,比如:價(jià)格,制造這樣一個(gè)芯片比小型的GPU昂貴得多;內(nèi)存過(guò)小,存在延遲或帶寬瓶頸;算法瓶頸,如果要使用整個(gè)芯片,就必須訓(xùn)練一個(gè)極小批量的模型,這反過(guò)來(lái)會(huì)影響準(zhǔn)確性。
內(nèi)存的問(wèn)題也引起了許多網(wǎng)友的共鳴,有網(wǎng)友表示,這個(gè)芯片只能用batch_size 1訓(xùn)練,18GB的靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)直接使得Megatron,T5,甚至是GPT-2這些模型不能使用。
另外,在價(jià)格方面,雖然Cerebras尚未公布SC-1系統(tǒng)的定價(jià),但是據(jù)了解將會(huì)高達(dá)幾百萬(wàn)美元。
兩大亮點(diǎn)
最后,盡管有質(zhì)疑,還是再來(lái)看看Cerebras公布的這臺(tái)全世界最快計(jì)算機(jī)的兩大亮點(diǎn):
1、易于部署的CS-1系統(tǒng)
“ CS-1是一個(gè)單一的系統(tǒng),可以比最大的集群提供更多的計(jì)算性能,還省去了集群搭建和管理的開銷。”Tirias Research首席分析師凱文 · 克雷韋爾(Kevin Krewell)在一份聲明中表示, “CS-1在單個(gè)系統(tǒng)中提供如此多的計(jì)算機(jī),不僅可以縮短訓(xùn)練時(shí)間,還可以減少部署時(shí)間。總體而言,CS-1可能大幅縮短項(xiàng)目的整體時(shí)間,而這是人工智能研究效率的關(guān)鍵指標(biāo)。”
相比于GPU集群需要數(shù)周或數(shù)月才能建立起來(lái)、需要對(duì)現(xiàn)有模型進(jìn)行大量修改、消耗數(shù)十個(gè)數(shù)據(jù)中心的機(jī)器以及需要復(fù)雜的專用InfiniBand進(jìn)行集群搭建不同,CS-1的搭建使用需要數(shù)分鐘。
用戶只需接入標(biāo)準(zhǔn)的100Gb以太網(wǎng)到交換機(jī),就可以用驚人的速度開始訓(xùn)練模型。
2、Cerebras軟件平臺(tái)
CS-1系統(tǒng)非常易于部署和使用,但是Cerebras的目的不僅是加快訓(xùn)練時(shí)間,還要加快研究人員驗(yàn)證新想法所需的端到端時(shí)間,從模型定義到訓(xùn)練,從調(diào)試到部署。
Cerebras軟件平臺(tái)旨在允許機(jī)器學(xué)習(xí)研究人員在不改變現(xiàn)有工作流程的情況下利用CS-1的性能,用戶可以使用行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)框架(如TensorFlow和PyTorch)為CS-1定義模型訓(xùn)練。
一個(gè)強(qiáng)大的圖形編譯器自動(dòng)將這些模型轉(zhuǎn)換為針對(duì)CS-1優(yōu)化的可執(zhí)行文件,并提供一組可視化工具進(jìn)行直觀的模型調(diào)試和分析。
Andrew Feldman表示: “我們使用開源軟件,并盡可能使程序簡(jiǎn)單化。”但是目前所知的是,這個(gè)系統(tǒng)既不是基于x86,也不是基于Linux。