太嚇人了!如果真是這樣,能夠做出媲美GPT-4的中國公司恐怕少之又少!
首先假定:
1,英偉達的NeMo Framework框架在訓練GPT-3大模型的過程中能使硬件算力有效性能達到50%以上。
2,GPT-3大模型參數(shù)量1750億個,訓練樣本token數(shù)3000億個。
3,GPT-3大模型每次訓練時間在30天完成。
4,按谷歌每日搜索量35億次估計,即每次訪問提問4次,每次提問+回答需處理425字,平均每個字轉(zhuǎn)換為token比例為4/3,則每日GPT-3大模型需推理token數(shù)79330億個。
那么可以計算出一個參數(shù)量為1750億個的GPT-3大模型:
1,在訓練階段需要新增1558顆英偉達A100 GPU芯片,對應(yīng)價值為2337萬美元,需要195臺DGX A100服務(wù)器。
2,在推理階段需要新增70.6萬顆英偉達A100 GPU芯片,對應(yīng)價值為105.95億美元,需要8.8萬臺DGX A100服務(wù)器。
3,一臺DGX A100服務(wù)器售價19.9萬美元,則在訓練階段DGX A100服務(wù)器價值量為3880.5萬美元,在推理階段DGX A100服務(wù)器價值量為175.12億美元。
為了開發(fā)出實用性相當有限的GPT-3大模型(跟GPT-4相比差距很遠),僅僅是購買搭載英偉達A100 GPU芯片的服務(wù)器所需費用就超過175億美元。
訓練和推理GPT-3大模型,在硬件成本上需要花費至少175億美元;當然,也有其他方面的成本。例如,數(shù)據(jù)標注成本:需要對大量文本數(shù)據(jù)進行標注,以提供監(jiān)督信號。數(shù)據(jù)標注是耗時和勞力密集的過程,需要雇傭人工標注者或使用其他方法生成偽標簽。電力成本:需要消耗大量的電力來保證服務(wù)器正常工作。電力成本也會隨著模型的規(guī)模,訓練時間和推理頻率發(fā)生變化。人力成本:要開發(fā)和維護GPT-3大模型,需要雇傭?qū)I(yè)的工程師、研究員和管理人員。他們負責設(shè)計模型架構(gòu),選擇訓練數(shù)據(jù),優(yōu)化訓練過程,測試模型性能,解決模型問題,更新模型版本等等。
開發(fā)像ChatGPT這樣的大模型,除了有著如此高的資金門檻外,也存在非常高的技術(shù)門檻(尤其需要全球頂尖級的AI人才)——谷歌在人工智能領(lǐng)域算是世界一流水平,谷歌的Bard在面對OpenAI的GPT-4時都已顯著落于下風。