国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
AI大模型“無米下鍋”?合成數(shù)據多重優(yōu)勢凸顯 硅谷巨頭正加速布局

《科創(chuàng)板日報》5月20日訊(編輯 邱思雨) 5月19日,北京擬組織實施“北京市通用人工智能產業(yè)創(chuàng)新伙伴計劃”,謀劃建設國家級數(shù)據訓練基地。

北京提出,在謀劃建設國家級數(shù)據訓練基地的過程中,要開發(fā)涵蓋文本、圖像、視頻等多模態(tài)的高質量數(shù)據集,助力國家級數(shù)據訓練基地建設。支持發(fā)展基于AIGC技術的合成數(shù)據新產業(yè)。

回溯到今年3月初,中國證監(jiān)會科技監(jiān)管局局長姚前曾在《中國金融》雜志撰文稱,建議重點發(fā)展基于AIGC技術的合成數(shù)據產業(yè)。以更高效率、更低成本、更高質量為數(shù)據要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數(shù)據優(yōu)勢。

被多次點名強調的合成數(shù)據,究竟是何方神圣?

顧名思義,合成數(shù)據(synthetic data)是通過計算機技術人工生成的數(shù)據,而不是由真實事件產生的數(shù)據。但合成數(shù)據具備“可用性”,能夠在數(shù)學上或統(tǒng)計學上反映原始數(shù)據的屬性,因此可以作為原始數(shù)據的替代品來訓練、測試并驗證大模型。

在訓練大模型的過程中,除了需要龐大的數(shù)據量以外,數(shù)據的質量同樣至關重要。例如,ChatGPT的訓練使用了45TB的數(shù)據、近1萬億個單詞。據姚前分析推測,ChatGPT等大模型的訓練數(shù)據主要來自于維基百科、書籍、期刊、Reddit社交新聞站點等??傮w來看,數(shù)據來源嚴重依賴于現(xiàn)有的互聯(lián)網公開文本數(shù)據。

但互聯(lián)網文本數(shù)據有限,GPT-3的參數(shù)量已達到千億級別,如果下一代大模型的參數(shù)達到萬億級別以上的話,數(shù)據短缺問題恐成為訓練的瓶頸。在此背景下,合成數(shù)據的重要性日益凸顯。

01 合成數(shù)據:更高效率、更低成本、更高質量

正如上文所述,“更高效率、更低成本、更高質量”是目前合成數(shù)據的優(yōu)勢所在。市場調研機構Gartner預測,到2024年,人工智能和數(shù)據分析項目中的數(shù)據預計有60%將來自合成數(shù)據。具體來看:

“更高效率”:合成數(shù)據能夠在相對較短的時間內大量生成,且能夠精確地復制原始數(shù)據集的統(tǒng)計特征,但又與原始數(shù)據不存在任何關聯(lián),便于在更大范圍內分享和使用;

“更低成本”:合成數(shù)據服務商AI.Reverie指出,人工標注一張圖片可能需要6美元,但人工合成的話只需要6美分;

“更高質量”:合成數(shù)據能夠補充邊緣案例,可以通過深度學習算法合成原始數(shù)據中沒有的罕見樣本,保障了數(shù)據的多樣化。

除此以外,在AIGC時代,數(shù)據的隱私性、保密性、安全性等問題尤為重要。例如,醫(yī)療行業(yè)的數(shù)據通常會包括患者個人健康信息等;金融行業(yè)則涉及到歷史交易信息等敏感數(shù)據。

利用合成數(shù)據訓練AI大模型則能夠有效規(guī)避用戶隱私問題。在上述案例中,通過合成數(shù)據集,醫(yī)療機構能夠在不提供患者隱私信息的條件下訓練相關模型完成藥物研發(fā)工作;金融機構則能夠在不提供敏感的歷史交易信息前提下,通過合成數(shù)據集訓練量化交易模型提升獲利能力,也可以用來訓練客服機器人以改善服務體驗。

《麻省理工科技評論》(MIT Technology Review)將大模型合成數(shù)據列為2022年十大突破性技術之一,稱其有望解決人工智能領域的“數(shù)據鴻溝”問題。

02 先行應用于計算機視覺 巨頭已爭相布局

具體到產業(yè)應用層面,合成數(shù)據先行應用于計算機視覺領域,例如自動駕駛、機器人、安防等應用場景。這些場景下的AI大模型都需要大量圖像、視頻數(shù)據來訓練,但獲取原始數(shù)據卻相對較難。

以自動駕駛領域為例,實際駕駛場景路況復雜、變量較多,且極端天氣下獲取真實路況數(shù)據可能存在困難或危險,因此難以完全依賴于真車現(xiàn)場數(shù)據。但是,通過合成數(shù)據集模擬各種駕駛場景,就能夠在保障人員和設備安全的條件下,提升自動駕駛能力。

目前,合成數(shù)據應用正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產業(yè)領域拓展。摩根大通于2021年9月提出通過合成數(shù)據來加快金融領域的AI研究和模型開發(fā),以解決欺詐檢測和反洗錢等問題,并改善服務體驗;美國運通也同樣正在嘗試創(chuàng)建合成數(shù)據來訓練、優(yōu)化其用于欺詐檢測的AI模型。

微軟、谷歌、英偉達等硅谷巨頭均在加速布局合成數(shù)據領域的相關業(yè)務。

英偉達自動駕駛仿真平臺DRIVE Sim通過Replicator合成數(shù)據工具來縮小仿真數(shù)據與真實數(shù)據之間差異并提高場景泛化能力;

谷歌利用AI生成的醫(yī)療記錄來幫助預測保險詐騙;

微軟開發(fā)了可以生成合成和聚合數(shù)據集的開源工具Synthetic Data Showcase,并創(chuàng)建了合成人臉數(shù)據庫。

Meta于2021年11月收購了合成數(shù)據創(chuàng)業(yè)公司AI.Reverie。

國內方面,據《科創(chuàng)板日報》不完全統(tǒng)計,A股上市公司中:

天風證券、上海證券等多家機構分析師一致認為,AIGC模型算法創(chuàng)建的合成數(shù)據功能將為新技術產業(yè)提供支撐,讓數(shù)據約束不再成為產業(yè)發(fā)展瓶頸。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
王慧文豪擲3.4億,眾人都想復制ChatGPT|貳月大變局
抓住新風口!大模型時代的機遇與挑戰(zhàn)
王者歸來!
新一代人工智能的變革與商機
華泰 | 計算機: ChatGPT深度拆解
一文搞懂ChatGPT相關概念和區(qū)別:GPT、大模型、AIGC、LLM、Transformer、羊駝、LangChain…..
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服