国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
AI硬件加速需要詳細(xì)的需求計(jì)劃

從云端的大數(shù)據(jù)處理到邊緣端的關(guān)鍵字識(shí)別和圖像分析,人工智能(AI)應(yīng)用的爆發(fā)式增長(zhǎng),正在推動(dòng)專家們爭(zhēng)先恐后地開發(fā)最佳架構(gòu)來加速機(jī)器學(xué)習(xí)(ML)算法的處理。由于新興的解決方案多種多樣,因此在選擇硬件平臺(tái)之前,設(shè)計(jì)人員必須對(duì)應(yīng)用及其需求進(jìn)行明確定義。

在許多方面,大家扎堆進(jìn)入AI加速領(lǐng)域,類似于90年代末和2000年代初的DSP淘金熱。那個(gè)時(shí)期,隨著有線和無線通信的興起,人們紛紛推出高性能的DSP協(xié)處理器以應(yīng)對(duì)基帶處理的挑戰(zhàn)。與DSP協(xié)處理器一樣,AI加速器的目標(biāo)是找到執(zhí)行海量運(yùn)算所需最快、最節(jié)能的方式。

神經(jīng)網(wǎng)絡(luò)處理背后的數(shù)學(xué),涉及統(tǒng)計(jì)學(xué)、多元微積分、線性代數(shù)、數(shù)值優(yōu)化和概率等。雖然很復(fù)雜,但它也是高度可并行化的。事實(shí)上,這種可并行化令人尷尬,這意味著,與分布式計(jì)算不同,在重新組合通路的輸出并產(chǎn)生輸出之前,它很容易被分解為沒有分支或依賴的并行通路。

在各種神經(jīng)網(wǎng)絡(luò)算法中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)特別擅長(zhǎng)于做對(duì)象識(shí)別等任務(wù)——過濾掉圖像中的干擾而識(shí)別出感興趣的對(duì)象。CNN接收數(shù)據(jù)形成多維矩陣(稱為張量),將超出第三維的每個(gè)維度都嵌入到子數(shù)組中(圖1)。每個(gè)添加的維度稱為“階”,因此,五階張量會(huì)有五個(gè)維度。

圖1:CNN將數(shù)據(jù)攝入作為張量,即可被可視化為三維立方體的數(shù)字矩陣(數(shù)據(jù)集),但在每個(gè)數(shù)組中還有一個(gè)子數(shù)組,該數(shù)字定義了CNN的深度。(圖片來源:Skymind)

AI不在于數(shù)學(xué),而在于快速迭代

這種多維分層對(duì)于理解CNN所需加速的本質(zhì)很重要。卷積過程使用乘法在數(shù)學(xué)上將兩個(gè)函數(shù)“卷繞”到一起,因此廣泛使用乘法累加(MAC)數(shù)學(xué)。例如,在對(duì)象識(shí)別中,一個(gè)函數(shù)是源圖像,另一個(gè)函數(shù)是用于識(shí)別特征(然后將其映射到特征空間)的過濾器。每個(gè)過濾器都要多次執(zhí)行這種卷繞,以便識(shí)別圖像中的不同特征,因此數(shù)學(xué)變得非常重復(fù)并且令人尷尬(或令人愉悅)的可并行化。

為此,一些AI加速器的設(shè)計(jì)采用多個(gè)獨(dú)立的處理器內(nèi)核(高達(dá)數(shù)百或上千個(gè)),與存儲(chǔ)器子系統(tǒng)一起集成在單個(gè)芯片中,以便減輕數(shù)據(jù)訪問延遲并降低功耗。然而,由于業(yè)界已設(shè)計(jì)了圖形處理器(GPU)來對(duì)圖像處理功能進(jìn)行高度并行處理,因此它們對(duì)于AI所需的這種神經(jīng)網(wǎng)絡(luò)處理也可以實(shí)現(xiàn)很好的加速。人工智能應(yīng)用的多樣性和深度,特別是在語(yǔ)音控制、機(jī)器人、自動(dòng)駕駛和大數(shù)據(jù)分析等方面,已經(jīng)吸引了GPU供應(yīng)商將重點(diǎn)轉(zhuǎn)移到AI處理硬件加速的開發(fā)。

然而,AI硬件加速的問題在于有如此多的數(shù)據(jù),并且所需的準(zhǔn)確性和響應(yīng)時(shí)間又千差萬(wàn)別,因此設(shè)計(jì)人員需要明確他們需要選擇哪種架構(gòu)。例如,數(shù)據(jù)中心是數(shù)據(jù)密集型的;因?yàn)槠渲攸c(diǎn)是盡可能快地處理數(shù)據(jù),所以功耗并不是一個(gè)特別敏感的因素——盡管能源效率有利于延長(zhǎng)設(shè)備使用壽命,降低設(shè)施的整體能耗和冷卻成本,這合乎情理。百度的昆侖處理器耗電量為100W,但算力高達(dá)260TOPS,這就是一款特別適合數(shù)據(jù)中心應(yīng)用的處理器。

我們看一個(gè)“低端”的例子。像關(guān)鍵詞語(yǔ)音識(shí)別這樣的任務(wù),需要與云端建立連接,以便使用自然語(yǔ)言識(shí)別來執(zhí)行進(jìn)一步的命令。這種任務(wù)現(xiàn)在在基于GreenWaves Technologies公司GAP8處理器的電池供電型邊緣設(shè)備上就可以實(shí)現(xiàn)。這種處理器是為邊緣應(yīng)用設(shè)計(jì)的,因此強(qiáng)調(diào)超低功耗。介于中間的應(yīng)用,比如自動(dòng)駕駛汽車中的攝像頭,則需要盡可能接近實(shí)時(shí)地做出響應(yīng),以便識(shí)別道路標(biāo)志、其他車輛或行人,而同時(shí)仍然需要最小化功耗,特別對(duì)于電動(dòng)汽車,這種情況下也許應(yīng)該選擇第三種方案。在此類應(yīng)用中,云端連接也很重要,以便及時(shí)更新所使用的模型和軟件,以確保持續(xù)性地提高準(zhǔn)確度、響應(yīng)時(shí)間和效率。

還不能托付給ASIC

鑒于軟件和硬件方面的技術(shù)在迅速發(fā)展且不斷更新,不建議將AI神經(jīng)網(wǎng)絡(luò)(NN)加速器集成到ASIC或是系統(tǒng)級(jí)封裝(SiP)中——盡管這樣的集成具有低功耗、占用空間小、成本低(大批量時(shí))和存儲(chǔ)器訪問速度快等優(yōu)點(diǎn)。加速器、模型和NN算法的變動(dòng)太大,其靈活性遠(yuǎn)遠(yuǎn)超過指令驅(qū)動(dòng)的方法,而只有像英偉達(dá)這樣的技術(shù)先進(jìn)而又資金雄厚的玩家,才能夠擔(dān)負(fù)得起,而在硬件上根據(jù)特定方法進(jìn)行迭代。

這種硬件加速器開發(fā)工作的一個(gè)很好的例子就是,英偉達(dá)在其Tesla V100 GPU中增加了640個(gè)Tensor內(nèi)核。每個(gè)內(nèi)核在一個(gè)時(shí)鐘周期內(nèi)可以執(zhí)行64次浮點(diǎn)(FP)融合乘加(FMA)運(yùn)算,可為訓(xùn)練和推理應(yīng)用提供125TFLOPS的算力。借助該架構(gòu),開發(fā)人員可以使用FP16和FP32累加的混合精度進(jìn)行深度學(xué)習(xí)訓(xùn)練,而獲得比英偉達(dá)自己的上一代Pascal架構(gòu)高3倍的運(yùn)算速度。

混合精度方法很重要,因?yàn)殚L(zhǎng)期以來人們已經(jīng)認(rèn)識(shí)到,雖然高性能計(jì)算(HPC)需要使用32~256位FP進(jìn)行精確計(jì)算,但深度神經(jīng)網(wǎng)絡(luò)(DNN)不需要這么高的精度。這是因?yàn)榻?jīng)常用于訓(xùn)練它們的反向傳播算法對(duì)誤差具有很強(qiáng)的彈性,因此16位半精度(FP16)對(duì)NN訓(xùn)練就足夠了。此外,存儲(chǔ)FP16數(shù)據(jù)比存儲(chǔ)FP32或FP64數(shù)據(jù)的存儲(chǔ)器效率更高,從而可以訓(xùn)練和部署更多的網(wǎng)絡(luò),而且對(duì)許多網(wǎng)絡(luò)來說,8位整數(shù)計(jì)算就足夠了,對(duì)準(zhǔn)確性不會(huì)有太大影響。

這種使用混合精度計(jì)算的能力,在邊緣側(cè)變得更為實(shí)用。當(dāng)數(shù)據(jù)輸入的來源是低精度、低動(dòng)態(tài)范圍的傳感器——比如溫度傳感器、基于MEMS的慣性測(cè)量單元(IMU)和壓力傳感器等——以及低分辨率視頻時(shí),開發(fā)人員可以以精度換取低功耗。

AI架構(gòu)的選擇從邊緣到云端還可以涵蓋霧計(jì)算

可擴(kuò)展處理的概念已經(jīng)擴(kuò)展到更廣泛的網(wǎng)絡(luò)——可以采用霧計(jì)算的概念來彌補(bǔ)邊緣和云端之間的能力差距,而在網(wǎng)絡(luò)的最佳位置執(zhí)行所需的處理。例如,可以在本地物聯(lián)網(wǎng)(IoT)網(wǎng)關(guān)或更接近應(yīng)用現(xiàn)場(chǎng)的本地服務(wù)器上進(jìn)行NN圖像處理,而不必在云端進(jìn)行。這樣做有三個(gè)明顯的好處:可以減少由于網(wǎng)絡(luò)延遲造成的時(shí)延,可以更安全,還可以為必須在云端處理的數(shù)據(jù)釋放可用的網(wǎng)絡(luò)帶寬。在更高的層面上,它一般也更為節(jié)能。

因此,許多設(shè)計(jì)師正在開發(fā)內(nèi)置攝像頭、圖像預(yù)處理和NN AI信號(hào)鏈功能的獨(dú)立產(chǎn)品,這些產(chǎn)品僅在相對(duì)閉環(huán)的操作中呈現(xiàn)輸出,例如已識(shí)別標(biāo)志(自動(dòng)駕駛汽車)或人臉(家庭安防系統(tǒng))。

在更極端的情況下,例如在偏僻或難以到達(dá)的地方,采用電池或太陽(yáng)能供電的設(shè)備,可能需要長(zhǎng)時(shí)間地進(jìn)行這種處理。

為了幫助降低這種邊緣AI圖像處理的功耗,GreenWaves Technologies公司的GAP8處理器集成了9個(gè)RISC-V內(nèi)核。其中一個(gè)內(nèi)核用于硬件和I/O控制功能,另外八個(gè)內(nèi)核圍繞共享數(shù)據(jù)和指令存儲(chǔ)器形成一個(gè)集群(圖2)。這種結(jié)構(gòu)形成了CNN推理引擎加速器,具有額外的RISC-V ISA指令來增強(qiáng)DSP類型的運(yùn)算。

圖2:GreenWave的GAP8采用9個(gè)RISC-V處理器,針對(duì)網(wǎng)絡(luò)邊緣智能設(shè)備上的低功耗AI處理進(jìn)行了優(yōu)化。(圖片來源:GreenWaves Technologies)

GAP8設(shè)計(jì)用于網(wǎng)絡(luò)邊緣的智能設(shè)備,在功耗僅為幾十毫瓦(mW)的情況下即可實(shí)現(xiàn)8GOPS運(yùn)算,或者在1mW時(shí)可實(shí)現(xiàn)200MOPS運(yùn)算。它完全可以用C/C++編程,最小待機(jī)電流為70nA。

RISC-V與Arm對(duì)比

RISC-V開源硬件模式最初遭到質(zhì)疑,因?yàn)樗枰粋€(gè)可靠的用戶社區(qū),能提供一套豐富的支持工具和軟件。但隨著該架構(gòu)通過各種測(cè)試芯片和硬件實(shí)現(xiàn)而吸引更多開發(fā)者加入,這種質(zhì)疑正在逐漸消退。

RISC-V的吸引人之處在于,它正在成為Arm處理器的強(qiáng)勁對(duì)手,特別是在超低功耗、低成本應(yīng)用中。當(dāng)談到低成本時(shí),每一分錢都要考慮,因此免費(fèi)總比支付許可費(fèi)好。

然而,雖然GAP8可以節(jié)能并且針對(duì)邊緣NN處理進(jìn)行了高度優(yōu)化,但從系統(tǒng)開發(fā)的角度來看,仍然需要考慮外設(shè)部分,例如攝像頭傳感器本身和網(wǎng)絡(luò)通信接口,以及是有線還是無線等。視系統(tǒng)通信和處理圖像的頻率不同,這些功能占用的功耗比例可能較高。根據(jù)GreenWaves的說法,GAP8若采用3.6Wh的電池供電,每隔3分鐘對(duì)一張QVGA圖像進(jìn)行分類,則可以持續(xù)工作長(zhǎng)達(dá)10年之久,但這個(gè)數(shù)字沒有考慮整體系統(tǒng)中其他因素的影響。

GreenWaves將其GAP8處理器與基于Arm Cortex-M7內(nèi)核、工作頻率為216MHz的意法半導(dǎo)體STM32 F7處理器進(jìn)行了直接比較(圖3)。兩者針對(duì)CIFAR-10圖像進(jìn)行了訓(xùn)練,權(quán)重量化為8位定點(diǎn)。

圖3:GreenWaves Technologies將其GAP8與基于Arm Cortex-M7內(nèi)核的STM32 F7處理器在針對(duì)CIFAR-10圖像進(jìn)行訓(xùn)練后進(jìn)行了直接對(duì)比。(圖片來源:GreenWaves Technologies)。

雖然GAP8由于其八核架構(gòu),顯示出效率更高、時(shí)鐘速率更低并能夠以更少的周期實(shí)現(xiàn)推理,但Arm自身也沒有停滯不前。Arm已發(fā)布了針對(duì)移動(dòng)設(shè)備和其他相鄰網(wǎng)絡(luò)邊緣應(yīng)用的ML(機(jī)器學(xué)習(xí)用)處理器,其應(yīng)用場(chǎng)景包括AR/VR、醫(yī)療、消費(fèi)電子產(chǎn)品以及無人機(jī)等。其架構(gòu)采用固定函數(shù)引擎來執(zhí)行CNN層,并采用可編程層引擎來執(zhí)行非卷積層以及所選基元和算子的實(shí)現(xiàn)(圖4)。

圖4:Arm的ML處理器設(shè)計(jì)用于CNN型固定函數(shù)以及可編程層引擎的低功耗邊緣處理。(圖片來源:Arm)

有趣的是,ML處理器基于高可擴(kuò)展性的架構(gòu),因此同一處理器和工具可用于開發(fā)從物聯(lián)網(wǎng)到嵌入式工業(yè)和交通,一直到網(wǎng)絡(luò)處理和服務(wù)器等各種應(yīng)用,算力要求從20MOPS到超過70TOPS不等。

如果開發(fā)團(tuán)隊(duì)希望從云端往下擴(kuò)展,或從邊緣往上擴(kuò)展,那么這種可擴(kuò)展性比較適合之前討論的霧計(jì)算概念。此外,該處理器本身與主流NN學(xué)習(xí)框架緊密集成,例如Google的TensorFlow和TensorFlow Lite,以及Caffe和Caffe 2。它還針對(duì)Arm Cortex CPU和Arm Mali GPU進(jìn)行了優(yōu)化。

在異構(gòu)處理體系架構(gòu)中部署AI

通過ML處理器,Arm還強(qiáng)調(diào)了異構(gòu)方法對(duì)于面向AI的NN的重要性,但僅限于其CPU和GPU的狹窄范圍內(nèi)。從更廣泛的角度來看,英特爾的OpenVINO(視覺推理和神經(jīng)網(wǎng)絡(luò)優(yōu)化)工具包可以實(shí)現(xiàn)異構(gòu)混合架構(gòu)的開發(fā),包括CPU和GPU,以及FPGA,當(dāng)然還有英特爾自己的Movidius視覺處理器(VPU)和基于Atom的圖像處理器(IPU)。借助通用API并優(yōu)化調(diào)用OpenCV和OpenVX,英特爾聲稱其深度學(xué)習(xí)性能可以提高19倍。

異構(gòu)方法對(duì)于面向AI的NN處理既有益又必要。它從頭開始設(shè)計(jì),打開了更多的處理可能性和潛在的優(yōu)化機(jī)會(huì)。但是,許多嵌入式系統(tǒng)已經(jīng)部署了相關(guān)的硬件,通常是MCU、CPU、GPU和FPGA的混合,因此如果有開發(fā)工具可以在這樣的已設(shè)置硬件基礎(chǔ)上開發(fā)AI應(yīng)用,并通過單個(gè)API進(jìn)行相應(yīng)的優(yōu)化(假設(shè)像OpenVINO這樣的工具包與底層硬件兼容的話),這將可以解決很多問題。

百度將AI處理性能推向新高

在今年7月北京舉行的百度Create 2018大會(huì)上,百度宣布推出了昆侖AI芯片——這是中國(guó)首個(gè)云到邊緣的AI芯片組,包括818-300訓(xùn)練芯片和818-100推理芯片(圖5)。

圖5:百度昆侖是中國(guó)第一個(gè)云到邊緣的AI處理器芯片組,雖然其架構(gòu)的具體細(xì)節(jié)尚未公布,但它要比百度2011年發(fā)布的基于FPGA的AI加速器快30倍。(圖片來源:百度)

昆侖芯片比百度2011年發(fā)布的基于FPGA的AI加速器快30倍,高達(dá)260TOPS@100W。它將采用三星14nm工藝,內(nèi)存帶寬為512GB/s,雖然百度尚未公布其架構(gòu)參數(shù),但它可能包含數(shù)千個(gè)內(nèi)核,可為百度自己的數(shù)據(jù)中心進(jìn)行海量數(shù)據(jù)的高速并行處理。百度也有計(jì)劃針對(duì)各種客戶設(shè)備應(yīng)用和邊緣處理應(yīng)用推出低性能版本。

百度的昆侖緊隨谷歌5月份發(fā)布的TPU 3.0之后,谷歌沒有透露細(xì)節(jié),只說它比去年快8倍,達(dá)到100PFLOPS。

使用現(xiàn)有的技術(shù)來啟動(dòng)AI設(shè)計(jì)

雖然還有許多其他新興的NN處理架構(gòu),但如果對(duì)“計(jì)算能力對(duì)實(shí)時(shí)性能”要求有合理期望的話,也有許多當(dāng)前可用的處理器和套件完全能夠滿足邊緣計(jì)算的要求。例如,基本的家庭安防系統(tǒng)可能包括一個(gè)攝像頭,它可以進(jìn)行人臉識(shí)別處理并通過Wi-Fi連接到家庭網(wǎng)關(guān)或路由器,而使用目前市面上可用的處理器或套件就可以實(shí)現(xiàn)它。

對(duì)于想要嘗試這種設(shè)計(jì)的開發(fā)人員來說,沒有必要從發(fā)明輪子開始。相反,應(yīng)該選擇一個(gè)已經(jīng)得到廣泛支持的平臺(tái),包括各種CPU、視頻和圖形GPU、快速存儲(chǔ)、內(nèi)置的無線和有線通信模塊,以及合適的操作系統(tǒng)支持和廣泛且活躍的用戶生態(tài)系統(tǒng)。

例如,恩智浦半導(dǎo)體的i.MX 8M就是個(gè)合適的起點(diǎn)(圖6)。這實(shí)際上是個(gè)處理器系列,具有多達(dá)四個(gè)1.5GHz Arm Cortex-A53和Cortex-M4內(nèi)核。它有兩個(gè)GPU類型的處理器,一個(gè)用于圖像預(yù)處理,另一個(gè)用于NN加速。

圖6:恩智浦的i.MX 8M解決了快速啟動(dòng)開發(fā)的問題,同時(shí)還可以使用基于Arm的處理器來擴(kuò)展AI應(yīng)用。(圖片來源:恩智浦半導(dǎo)體)

另一個(gè)關(guān)鍵設(shè)計(jì)要求是現(xiàn)場(chǎng)的使用壽命要足夠長(zhǎng),因此系統(tǒng)要能夠承受惡劣環(huán)境,特別是對(duì)于部署在室外的攝像頭,要能夠隨著時(shí)間進(jìn)行更新。尤其是在電池供電時(shí),后一點(diǎn)非常重要,因?yàn)樗笤O(shè)計(jì)人員確保在設(shè)計(jì)中留有足夠的裕量,以便在功能增加時(shí)能夠?qū)崿F(xiàn)更高的處理要求,同時(shí)仍然保證低功耗。

AI加速的重要性在于,其處理能力的要求正從傳統(tǒng)的CPU和FPGA轉(zhuǎn)移到GPU和VPU,或者所有以上處理器的異構(gòu)組合,當(dāng)然這取決于應(yīng)用的要求。與此同時(shí),即使面向越來越大組數(shù)據(jù)的AI加速成為主流,CPU的關(guān)鍵控制功能仍將保持不變。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
讓人工智能從“云端”走到“設(shè)備端”,尋突破還要靠異構(gòu)計(jì)算
Arm芯片IP四彈連發(fā)!NPU/GPU/DPU全覆蓋,猛攻多個(gè)細(xì)分市場(chǎng)
英特爾宋繼強(qiáng):“東數(shù)西算”需異構(gòu)計(jì)算做底層支撐
能效提升3倍,登臨科技展示國(guó)內(nèi)唯一量產(chǎn)GPU實(shí)力
【內(nèi)幕】華為發(fā)布全球首款A(yù)I移動(dòng)芯片,NPU疑為寒武紀(jì)1A處理器
英特爾推出新互聯(lián)規(guī)范,想讓CPU、GPU和FPGA說“同一種語(yǔ)言”
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服