人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學。
AIGC是繼 UGC、PGC 之后新型利用AI技術(shù)自動生成內(nèi)容的生產(chǎn)方式。
目前市場上AIGC一般可分為文本類、代碼類、繪畫類等等,那目前市場上有哪些公司在AIGC的繪畫和文本和代碼這些方向做得非常頂尖水平呢?當然有,那就是昆侖萬維,讓我們看下他們的AIGC能力怎么樣。
? 電腦PC端體驗地址:https://sky-paint.singularity-ai.com/index.html#/
? 都讓我們也可以用小程序,功能和PC效果一樣。
? 小程序:天工巧繪SkyPaint
在主頁,我們可以直接明了的看到 “生成畫作”按鈕,我們選一個“童話時間 白雪皚皚 圣誕節(jié)”的主題來進行AI繪制。
圖片生成中
效果如下:
出現(xiàn)了4張圣誕節(jié)圖片,非常清晰、操作也非常簡單,最關(guān)鍵的是生成圖片速度非常快,非常絲滑,一點也不卡,直接驚艷到我了。
我們輸入“水天一色”這4個字,繪制效果如下。
3、輸入英文關(guān)鍵字繪制
我們輸入"red sky”英文,繪制效果如下。
小結(jié):從體驗上講,生成圖片的速度非常快,并且能很好的支持中英雙語提示詞輸入實現(xiàn)文字生成圖像。
Model:Latent Diffusion
Paper:High-Resolution Image Synthesis with Latent Diffusion Models
訓練集:LAION-high-resolution 和 LAION-Aesthetics
模型結(jié)構(gòu)圖:
模型原理
模型訓練
訓練目標:一步步對隨機的高斯噪聲降噪(denoise)
優(yōu)勢:Latent diffusion 之所以是 “l(fā)atent”,是因為模型是在低維的潛空間(latent space)上進行擴散過程,而不是在實際的像素空間,從而降低了內(nèi)存消耗和計算復雜度(比如輸入shape是(3,512,512),下采樣因子是8,潛空間中變成了(3,64,64),節(jié)省了8×8=64倍的內(nèi)存)。訓練完之后的模型就能把一張圖表示成一個低維的潛特征。
模型推理
如圖(假設batch size是1),用戶輸入的 prompt 被 CLIP Text encoder 編碼為 77×768 的潛特征,隨機噪聲被表示成 64×64 的潛特征;然后 U-Net 以 prompt 的特征為條件,逐步迭代計算。U-Net 輸出的噪聲殘差,會通過調(diào)度算法(scheduler algorithm),根據(jù)先前的噪聲表示和預測的噪聲殘差,計算最終去噪的圖像潛表示。Stable Diffusion 建議的調(diào)度算法有三種:
PNDM scheduler(Pseudo Numerical Methods for Diffusion Models on Manifolds,默認)
DDIM scheduler
K-LMS scheduler
得到圖像潛表示后,就可以送到 VAE 的 decoder 解碼成圖像了。
· Stable Diffsuion能壓縮率更高,清晰度超越JPEG等算法。
· 與純粹基于transformer的方法相比,本文方法更適合高維數(shù)據(jù);還可以高效地應用于百萬像素圖像的高分辨率合成。
· 顯著降低計算成本,在多個任務(無條件圖像合成、inpainting、超分辨率)和數(shù)據(jù)集上實現(xiàn)了具有競爭力的性能。與基于像素的擴散方法相比,顯著降低了推理成本。
· 與之前的工作(同時學習編碼器/解碼器架構(gòu)和score-based的先驗)相比,方法不需要對重構(gòu)和生成能力進行精確的權(quán)衡。這確保了僅需非常少的潛空間正則化下,即可有較合理的重建效果。
· 對于超分辨率、圖像修復和語義合成等條件密集輸入型的任務,模型能以卷積的方式應用,并輸出高達1024分辨率的圖像。
· 基于交叉注意力的通用條件機制,實現(xiàn)了多模態(tài)訓練。用它來訓練類條件模型、文本到圖像模型和布局到圖像模型。
· Stable Diffsuion制作圖片速度非??臁?/p>
總之只需訓練一次通用的自動編碼階段,就可以用于多次DM訓練或探索可能完全不同的任務,比如各種圖像到圖像、文本到圖像任務。對于后者,設計了一個將transformers連接到DM的UNet骨干的結(jié)構(gòu),并支持任意類型的基于token的條件機制,就像有人已經(jīng)投入了上百萬的資金幫你訓練了一個,你又何必重新花錢訓練一個壓縮模型呢?
1)、在增加中文提示詞輸入能力的同時兼容原版stable_diffusion的英文提示詞模型,之前用戶積累的英文提示詞手冊依然可以在我們的模型上使用
2)、使用1.5億級別的平行語料優(yōu)化提示詞模型實現(xiàn)中英文對照,不僅涉及翻譯任務語料,還包括了用戶使用頻率高的提示詞中英語料,古詩詞中英語料,字幕語料,百科語料,圖片文字描述語料等多場景多任務的海量語料集合
3)、 訓練時采用模型蒸餾方案和雙語對齊方案,使用教師模型對學生模型蒸餾的同時輔以解碼器語言對齊任務輔助模型訓練"
我們可以看下文字生成圖片模型指標評估數(shù)據(jù)
評估背景:
評估benchmark:采用Chinese-CLIP(CN_CLIP),先根據(jù)模型的encoder得到text和image的embedding,再經(jīng)過統(tǒng)一的KNN檢索,Recall,從而計算出檢索任務的Recall@1/5/10和mean recall(Recall@1/5/10的平均數(shù)),得到如上結(jié)果
評估數(shù)據(jù)集:Flickr30K-CN的test數(shù)據(jù)集
采用同級別image encoder模型:ViT-L/14"
未來的模型優(yōu)化
為了讓體驗和算法模型變得更加強大,后續(xù)我們會針對下面4點去完善,希望能保持業(yè)界最高端水平。
· 更多語言的提示詞輸入支持
· 更強大的語言生成模型指導圖像生成
· 風格更加多樣,增加更多藝術(shù)風格的支持
· 支持用戶對生成的圖像進行二次提示詞編輯圖像功能
昆侖萬維模型針對中文領(lǐng)域構(gòu)建了千億級別的高質(zhì)量數(shù)據(jù)集,通過高性能 a100-GPU 集群訓練得到了百億
參數(shù)量的 GTP-3 生成模型,其幾乎可以用于任何涉及理解或生成自然語言或代碼的任務,同時提供了一
系列具有不同參數(shù)級別的模型,根據(jù)同任務進行適配,同時,也可以微調(diào)模型的得到適合需求的生成模
型。
文本模型指標評估
· GPT-3模型像人類一樣對詞語做出自己的理解
· GPT-3模型根據(jù)用戶的喜好創(chuàng)作文學作品
· GPT-3模型根據(jù)用戶的需求編寫代碼
· GPT-3比GPT-2有更好的文字質(zhì)量,比GPT-2功能更加強大
· GPT-3模型可以進行創(chuàng)造性寫作,展示了詩歌,對話文體,雙關(guān)語使用,文學模仿和小說是其它模型不可比擬的
· GPT-3模型不是以傳統(tǒng)的方式來使用已經(jīng)存在的文本進行訓練從而模仿文本,而可以通過對話方式告訴GPT-3用戶想要什么樣的內(nèi)容。
總之通過了大部分課程的寫作測試,而且僅僅需要 3-20 分鐘,并且其中大部分時間用于對文本的輸出長度和重復文本進行編輯。模型擁有多樣的下游能力,包括續(xù)寫,對話,中英翻譯,內(nèi)容風格生成,推理,詩詞對聯(lián)等。并在各項專業(yè)性領(lǐng)域的任務中(例如分類,匹配,填空,識別,識別)表現(xiàn)突出,與現(xiàn)有大模型的比試中排列前茅。
我們可以點擊這個這里體驗:https://openapi.singularity-ai.com/index.html#/examplesIndex
支持多種語言,這里我們使用 “內(nèi)容續(xù)寫” 使用下面的接口請求就行了,使用非常方便。
JSON{ “model_version”: “模型版本”, “prompt”: “寫一篇小文章。\n今天的天氣不錯,我的心情”, “param”: { “generate_length”: 500, “top_p”: 0.9, “top_k”: 50, “repetition_penalty”: 1.3, “l(fā)ength_penalty”: 1, “min_len”: 10, “temperature”: 1, “end_words”: [ “[EOS]” ] }}
我們可以點擊下面的地址進行體驗
https://sky-code.singularity-ai.com/index.html#/
昆侖萬維開發(fā)了全球第一款多語言開源編程大模型 Sky-code 代碼生成工具,其支持各種主流編程語言,包括 java 、 javascript 、 c 、 c++ 、 python 、 go 和 shell 等編程語言,可以幫助開發(fā)人員更快更好的編碼,甚至模型每秒可以輸出百字以上的代碼量,并且 Sky-code模型的代碼質(zhì)量非常高,下表對比了 Sky-code 模型與其他代碼生成模型的性能:
輕松上手
我們可以把sky-code安裝到各個代碼平臺的編譯器里面去,通過插件方式進行擴展,比如Visual Studio Code等。
Sky-code 是 SingularityAI 研發(fā)的一款AI代碼生成工具,支持各種主流編程語言,助力開發(fā)人員更快更好的編碼。Sky-code 可以直接集成到編輯器中,無縫銜接在開發(fā)環(huán)境,在鍵入代碼的同時,智能高效補全代碼,提升工作效率,節(jié)省開發(fā)時間。 Sky-code 目前已經(jīng)集成在了 Visual Studio Code 中,未來會支持更多平臺和工具,如 Neovim、JetBrains IDE、Visual Studio 等。致力于為開發(fā)者解決瑣碎的、重復性的代碼工作,從而專注于更高價值的研發(fā)工作,這是其它工具不可代替的。
通過上面的介紹,我們知道昆侖萬維的AIGC無論是繪畫還是文本還是代碼生成,都擁有著非常強大和快而精準的算法模型,同時支持多語言進行繪畫、和文本以及代碼處理,簡直就是業(yè)界的天花板, 強烈推薦大家使用。
昆侖天工開源地址:
Github https://github.com/SkyWorkAIGC
Huggingface https://huggingface.co/SkyWork
相關(guān)網(wǎng)站:
天工巧繪SkyPaint:
https://sky-paint.singularity-ai.com
天工智碼SkyCode:
https://sky-code.singularity-ai.com
天工妙筆SkyText:
https://openapi.singularity-ai.com