凌晨一點(diǎn)多,手機(jī)突然震醒了我。瞇眼一看,技術(shù)群炸了——DeepSeek那幫“卷王”又發(fā)新模型了。這次不是純聊天機(jī)器人,而是直接殺進(jìn)多模態(tài)戰(zhàn)場,名字還特中二:**Janus-Pro**(雅努斯之神?羅馬神話里那個(gè)雙面門神?)。我趿拉著拖鞋摸到電腦前,翻完代碼文檔后徹底清醒:這玩意兒,怕是要讓硅谷某些公司連夜改PPT。
---
一、“分家過日子”的視覺編碼器
都說“一山不容二虎”,但Janus-Pro偏要讓視覺編碼器玩**精神分裂**。傳統(tǒng)模型總想用一套視覺編碼通吃理解和生成,結(jié)果就像讓同一個(gè)人既當(dāng)畫家又當(dāng)評(píng)論家——畫著畫著就開始自我否定:“這線條太僵硬,色彩搭配簡直災(zāi)難!”
DeepSeek的工程師一拍腦袋:**拆!**
- **理解任務(wù)**交給**SigLIP-L編碼器**,384x384分辨率下連西湖邊柳葉的露珠都能數(shù)清楚;
- **生成任務(wù)**丟給**LlamaGen Tokenizer**,搭配SDXL-VAE模塊,生成384x384圖時(shí)連賽博朋克霓虹燈的漸變光暈都不帶糊的。
“這不就是離婚分房產(chǎn)嗎?”程序員朋友在微信里吐槽。但現(xiàn)實(shí)是,分家后的模型在GenEval測(cè)試?yán)餃?zhǔn)確率從61%飆到80%,把DALL-E 3和Stable Diffusion按在地上摩擦——果然,距離產(chǎn)生美。
---
二、甲方狂喜的“生成流”
做設(shè)計(jì)的都懂,最怕甲方說“感覺不對(duì),再改18版”。Janus-Pro這次祭出的**JanusFlow**框架,簡直就是**AI界的心理按摩師**:把校正流(Rectified Flow)和自回歸語言模型嫁接,生成圖片時(shí)自動(dòng)微調(diào)細(xì)節(jié)。
我試了下prompt:“生成賽博朋克版雷峰塔,塔頂要有懸浮全息廣告,寫著'法海不懂愛’”。十秒后出圖——琉璃瓦泛著熒光藍(lán),廣告字體還是瘦金體!群里立刻炸出表情包:“建議直接取代某圖秀秀設(shè)計(jì)師”。
---
三、7200萬張“人造美圖”的野望
聽說Janus-Pro的訓(xùn)練數(shù)據(jù)里,**7200萬張是AI生成的合成圖**,和真實(shí)數(shù)據(jù)五五開。朋友調(diào)侃:“這不就是讓AI自己畫課本,再自己學(xué)?”但效果擺在那兒:生成的人像皮膚質(zhì)感不再像硅膠娃娃,西湖夜景的倒影里居然有游船燈光的漣漪。
更絕的是**1.5B到7B參數(shù)全系列開源**。昨夜已有大學(xué)生在論壇曬圖:用學(xué)校機(jī)房的AMD 7800XT顯卡(顯存才16G?。┡芷鹆?4B模型,生成的畢業(yè)設(shè)計(jì)海報(bào)被導(dǎo)師懷疑“是不是外包給了4A公司”。
---
四、開源界的“價(jià)格屠夫”
DeepSeek這次繼續(xù)**MIT協(xié)議全家桶**,連訓(xùn)練框架都白送。技術(shù)宅們算過賬:用他們的API生成百萬tokens,價(jià)格只有OpenAI的幾十分之一,相當(dāng)于“瑞幸打星巴克,還送你優(yōu)惠券”。
硅谷某不愿透露名字的CEO在推特哀嚎:“我們光買英偉達(dá)顯卡就花了2個(gè)億,他們訓(xùn)練Janus-Pro只用了560萬美元?!”評(píng)論區(qū)中國網(wǎng)友補(bǔ)刀:“建議貴司行政批量采購拼多多顯卡支架,能省點(diǎn)是點(diǎn)。”
---
五、深夜寫稿的碎碎念
泡著枸杞茶敲下這些字時(shí),突然想起二十年前第一次用PS修圖的場景——那時(shí)候要調(diào)個(gè)色調(diào)得折騰半小時(shí)。如今Janus-Pro這類模型,正在把創(chuàng)作的門檻拆成碎片。
有人擔(dān)心AI會(huì)讓設(shè)計(jì)師失業(yè),我倒覺得相反:當(dāng)工具足夠聰明,人類的創(chuàng)意反而能掙脫技法的枷鎖。就像當(dāng)年傻瓜相機(jī)沒殺死攝影,反而讓更多人記錄下煙火人間。
PS:看了眼DeepSeek的GitHub倉庫,凌晨四點(diǎn)還有37個(gè)commit在刷屏。果然,中國團(tuán)隊(duì)卷起技術(shù)來,連時(shí)差都是戰(zhàn)斗力。
聯(lián)系客服