華泰證券研報(bào)表示,模型壓縮技術(shù)是實(shí)現(xiàn)AI大模型在邊/端部署的核心技術(shù)。當(dāng)前,谷歌、微軟、騰訊等廠商在該領(lǐng)域均有布局,將加速AI技術(shù)與智能終端融合,國內(nèi)SoC設(shè)計(jì)公司有望深度受益。模型壓縮技術(shù)可在保有大模型原有性能和精度基本不變前提下降低對推理算力的需求:1)量化:將浮點(diǎn)計(jì)算轉(zhuǎn)成低比特定點(diǎn)計(jì)算;2)網(wǎng)絡(luò)剪枝:去除神經(jīng)網(wǎng)絡(luò)中冗余的通道、神經(jīng)元節(jié)點(diǎn)等;3)知識蒸餾:將大模型作為教師模型,用其輸出訓(xùn)練性能接近、結(jié)構(gòu)更簡的學(xué)生模型。
華泰 | 電子:關(guān)注AI大模型在終端側(cè)的輕量化應(yīng)用
高通、華為實(shí)現(xiàn)AI大模型在終端的輕量化部署,關(guān)注邊/端側(cè)算力機(jī)會(huì)
3 月 2 日,高通在 MWC 2023 大會(huì)發(fā)布全球首個(gè)運(yùn)行在 Android 手機(jī)上的Stable Diffusion終端側(cè)演示 Stable Diffusion 模型參數(shù)超過10億,高通利用其 AI 軟件棧對模型進(jìn)行量化、編譯和硬件加速優(yōu)化,使其成功在搭載第二代驍龍 8 移動(dòng)平臺(tái)的手機(jī)上運(yùn)行 。此外,華為新一代 P60系列手機(jī)將于 5 月上線智慧搜圖功能,該功能通過對模型進(jìn)行小型化處理 ,實(shí)現(xiàn)其在端側(cè)輕量化應(yīng)用。我們認(rèn)為模型壓縮技術(shù)是實(shí)現(xiàn) AI 大模型在邊/端部署的核心技術(shù)。當(dāng)前,谷歌、微軟、騰訊等廠商在該領(lǐng)域均有布局,將加速 AI 技術(shù)與智能終端融合, 國內(nèi)SoC設(shè)計(jì)公司有望深度受益 。
模型壓縮技術(shù):有效降低推理算力需求,助力大模型的邊/端側(cè)部署
模型壓縮技術(shù)可在保有大模型原有性能和精度基本不變前提下降低對推理算力的需求:1)量化:將浮點(diǎn)計(jì)算轉(zhuǎn)成低比特定點(diǎn)計(jì)算 2)網(wǎng)絡(luò)剪枝:去除神經(jīng)網(wǎng)絡(luò)中冗余的通道 、神經(jīng)元節(jié)點(diǎn)等;3)知識蒸餾:將大模型作為教師模型,用其輸出訓(xùn)練性能接近、結(jié)構(gòu)更簡的學(xué)生模型。以清華大學(xué)唐杰教授團(tuán)隊(duì)2022年8月發(fā)布的1300億參數(shù)模型 GLM-130B 為例,原模型支持在一臺(tái) A100 40G*8)或 V100 32G*8 )服務(wù)器上進(jìn)行推理,而將模型量化至 INT 4精度后,相較INT 8精度其所需 GPU 內(nèi)存降低50%,且可在一臺(tái)4×RTX 3090(24G)或 8×RTX 2080Ti (11G )服務(wù)器上進(jìn)行推理。
全球洞察:谷歌等已將模型壓縮技術(shù)緊密結(jié)合移動(dòng)端模型部署框架/工具
上世紀(jì)學(xué)術(shù)界率先提出網(wǎng)絡(luò)剪枝技術(shù),并一直引領(lǐng)模型壓縮技術(shù)的突破。業(yè)界的發(fā)展緊隨其后,并進(jìn)一步將模型壓縮技術(shù)集成至移動(dòng)端模型部署框架/工具,主要部署的模型包括:1)深度學(xué)習(xí)框架廠商:谷歌(ML Kit)、Meta(PyTorch Mobile);2)硬件廠商:英偉達(dá)(TensorRT)、英特爾(NNCF)、高通(AIMET)等;以及3)云服務(wù)廠商:微軟(ONNX Runtime)等。以谷歌2018年推出的ML Kit為例,核心功能Learn2Compress模型壓縮技術(shù)結(jié)合網(wǎng)絡(luò)剪枝、量化以及知識蒸餾三項(xiàng)技術(shù),可實(shí)現(xiàn)在CIFAR-10圖像分類測試任務(wù)中生成較NASNet尺寸縮小94倍的輕量化模型,且仍保持90%以上精度。
國內(nèi)現(xiàn)狀:互聯(lián)網(wǎng)廠商引領(lǐng)發(fā)展,國內(nèi)SoC設(shè)計(jì)企業(yè)有望受益
2018年騰訊推出全球首款自動(dòng)化深度學(xué)習(xí)模型壓縮框架PocketFlow,2022年百度開源的文心ERNIE-Tiny在線蒸餾方案可得到參數(shù)規(guī)模僅為原模型0.02%且效果相當(dāng)?shù)妮p量級模型。我們認(rèn)為伴隨模型壓縮技術(shù)發(fā)展,AI將加速與終端設(shè)備融合應(yīng)用。
風(fēng)險(xiǎn)提示:
1) 中美貿(mào)易摩擦風(fēng)險(xiǎn):若中美貿(mào)易摩擦加劇,將導(dǎo)致我國 AI 行業(yè)上中下游廠商進(jìn)出口受阻,中國上述廠商的發(fā)展將受到進(jìn)一步的限制,導(dǎo)致相關(guān)公司業(yè)績難以釋放。
2) AI 及技術(shù)落地不及預(yù)期雖然AI技術(shù)加速發(fā)展,但由于成本、落地效果等限制,相關(guān)技術(shù)落地節(jié)奏可能不及我們預(yù)期。