編者按:本文作者李智勇,聲智科技合伙人&副總裁,著有《終極復(fù)制:人工智能將如何推動社會巨變》等書,訂閱號:zuomoshi(琢磨事)
很多企業(yè)都有戰(zhàn)略部門,但不管寫多少PPT,很多中國企業(yè)的戰(zhàn)略通常可以用一句話來概括:美國人干什么,我們就干什么!按照這邏輯推導(dǎo),今年很可能出現(xiàn)100家做智能音箱的,因?yàn)镃ES上最火的是Amazon Echo,而這100家智能音箱企業(yè)的最終結(jié)局很可能和百團(tuán)大戰(zhàn)后的結(jié)果大相徑庭。要想看清這問題,需要認(rèn)識到AI企業(yè)與互聯(lián)網(wǎng)企業(yè)在調(diào)性上的根本沖突,而要想認(rèn)識這種沖突,那我們先要回歸到產(chǎn)品本身。
任何人想在中國市場做類似Echo的智能音箱,那都不能回避一個極為根本的問題:京東+訊飛的叮咚不算太成功,憑什么你做就成功了?
古代人講兵法總是會講正合奇勝,看待Echo這類產(chǎn)品的時候同樣可以借用這個視角。產(chǎn)品本身有所依托(功能基礎(chǔ))這是“正”,而不管在ID、交互、宣傳還是在價格上有所創(chuàng)新則是奇。前者保證基本面,后者保證差異化。
從這個角度來看Smart Speaker這類產(chǎn)品的“正”是音箱自身的音樂屬性,“奇”是指語音交互是否足夠便利(背后可以分解為速度和精度),是否能喚起大家的好奇心,是否有一個足夠有影響力的人站臺等。從這個角度看對大公司而言這類產(chǎn)品成功與否其實(shí)是決心和耐心的函數(shù):
音箱是一個既有品類,而語音交互可以讓交互變得更加便利,也就是說智能音箱帶來的升級其實(shí)是在已有功能基礎(chǔ)上添加了一個正向新特性。這樣一來產(chǎn)品角度看這類別的成功其核心障礙只有一個:
語音交互的新新特性是否真的讓體驗(yàn)變得更好還是說只是一個說法。如果確實(shí)足夠好,那就相當(dāng)于同樣花那么多錢,買一個更好的東西。
難就難在這一點(diǎn)核心要求在語音交互上偏偏難以達(dá)到。
做電腦的時候我們很多企業(yè)扮演的其實(shí)是組裝的角色,做手機(jī)的時候扮演的角色高級了一些,加入了更多的定制工作,但這兩類活骨子里的技術(shù)門檻其實(shí)并不高。也正因此產(chǎn)品所需要的打磨周期就短,市場則相對成熟容易獲得迅速的正反饋,公司投入決心也就容易堅挺。
我們再看下小米的例子:
2010年4月6日,北京小米科技有限責(zé)任公司正式成立
2010年8月16日,MIUI首個內(nèi)測版推出。
2011年8月29日,小米手機(jī)1千臺工程紀(jì)念版開始發(fā)售。
2011年9月5日,小米正式開放網(wǎng)絡(luò)預(yù)訂,半天內(nèi)預(yù)訂超30萬臺,取得了重大的成功。
產(chǎn)品整個打磨周期大概在一年左右,這其中正反饋有兩種:一是MIUI上獲得的各種積極反饋,二是半天內(nèi)預(yù)訂超過30萬臺了。一旦后一個反饋出現(xiàn),那就不管是CEO還是資本就都會更有信心擴(kuò)大戰(zhàn)果??偨Y(jié)來看這是兩個步驟:
第一步在相對成熟的體系上進(jìn)行定制組合(高通+Android)。
第二步獲得市場正反饋并加大投入。
如果拿智能音箱做對比,那就就會發(fā)現(xiàn)差距還是挺大的。
第一根本沒有一個相對成熟的軟硬件體系,而是大家都在摸索之中。軟件上,指望別人把中文語音交互做成Android那樣的成熟度比較不靠譜,必須得是中國企業(yè)自己挑大梁了。這次如果真的搞成了,那還可以順手搞定我們呼喚了許多年的國產(chǎn)操作系統(tǒng)問題。硬件上也因?yàn)槭切聳|西所以根本還沒有成熟的生產(chǎn)鏈條來給你配套,很多人估計都是第一次聽說世界上還有一種東西叫麥克風(fēng)陣列,里面還要做Beamforming來定向收音。
第二正因?yàn)榍懊嬲f的問題Echo這類產(chǎn)品就不太可能迅速獲得市場的正反饋。作為一種純正的必須全依賴于自己技術(shù)的新東西,最初體驗(yàn)最多可用,然后就需要持續(xù)打磨,但最初銷量是不可能高的。這就和我們互聯(lián)網(wǎng)培養(yǎng)出來的一波流打法差異很大,一波流打法下大家總想速勝,干個一錘子買賣,行了我再增加投入,但這事它事實(shí)上要求即使沒賣出去那么多的時候還得持續(xù)投入。
看著不過是又一款新產(chǎn)品,但Smart Speaker這新品類事實(shí)上整體上挑戰(zhàn)中國企業(yè)的文化、方法論和技術(shù)水平??偨Y(jié)來看,現(xiàn)在國內(nèi)并不缺做智能音箱的,也不缺把智能音箱做出來的,唯一缺的是持續(xù)投入真把產(chǎn)品做好的。形象點(diǎn)講,如果以Elon Musk做SpaceX的姿態(tài)來做,那這事是能搞定的,但以做腦白金的姿態(tài)來做,那最多還是一個叮咚。
少點(diǎn)想象和PR,多看點(diǎn)問題
AI這領(lǐng)域的核心問題是想象和PR太多,落地太少。不是不能落地,而是落地的長周期導(dǎo)致有些人對此興趣不足。這通常并不是個人問題,而會涉及到公司文化上的深層次沖突。假設(shè)說我們身處一個快節(jié)奏的公司,公司一切KPI等全基于此來確立,那一個人進(jìn)入公司后,他只有兩種選擇:一個是真心做慢節(jié)奏的產(chǎn)品,忍受長期沒成績,中途可能還被干掉了;二是想點(diǎn)辦法快點(diǎn)出彩,避免從他老板的角度看過于尷尬。顯然的PR是一種緩解尷尬的有效手段。
一個公司如果真想做人工智能,必須正視的問題至少有兩個,而這兩個都需要比較高的戰(zhàn)略耐性:
限定范圍與開放領(lǐng)域
我們總是可以在一個極為狹窄的領(lǐng)域里證明人工智能的強(qiáng)大,比如識圖、標(biāo)準(zhǔn)環(huán)境語音識別、下棋、最強(qiáng)大腦。但這就和讓人和計算機(jī)比計算速度一樣,缺乏一種現(xiàn)實(shí)意義,做PR是可以的,但做產(chǎn)品就不靈。如果對話系統(tǒng)被限定于只回答100個問題,那之前的硬編碼也可以做的非常精確,但那顯然會因?yàn)檫m配范圍太窄而對用戶不產(chǎn)生價值。要想落地AI必須徹底解決一個子領(lǐng)域中的全部問題,這樣才能貢獻(xiàn)于產(chǎn)品,比如:精準(zhǔn)的放音樂是一個子領(lǐng)域,自主的避障和行走是一個子領(lǐng)域,鑒黃是一個子領(lǐng)域。眼下看我們還很難打造一種通用型的智能,但要想有用那人工智就不能單獨(dú)的只是擅長分類圖片等。解決子領(lǐng)域問題是商業(yè)化,圖片分類等是技術(shù)研究,這中間是有鴻溝在的。
算法、數(shù)據(jù)與原子
產(chǎn)品對技術(shù)的要求總是高度綜合的,這點(diǎn)在語音交互上體現(xiàn)的特別明顯,當(dāng)語音識別、自然語言理解需要產(chǎn)品化的時候,你并不能約束用戶必須把電視關(guān)了、其它人不能說話、說話的時候必須正面產(chǎn)品90度、必須把音箱音量設(shè)置到足夠小等等。那樣產(chǎn)品就沒法用了。也就是說真想做好產(chǎn)品還要打穿原子和比特的邊界,補(bǔ)全整個鏈條,把聲學(xué)、語音識別、語義理解進(jìn)行系統(tǒng)的整合。
第一點(diǎn)解決的越好,人工智能的現(xiàn)實(shí)影響也就越為深遠(yuǎn),第二點(diǎn)解決的越好人工智能落地的速度也就越快。對于眼下而言,核心問題是要解決第二個問題,不解決它就不能消化此前的技術(shù)紅利。不管解決那點(diǎn)都需要點(diǎn)原創(chuàng)精神,恰如前面所說,我們一下子沖到了世界最前沿,大家同一起跑線,類比手機(jī)的話我們既沒有高通、MTK,也沒有Android了。我們聲智科技的CEO陳孝良博士被采訪的時候經(jīng)常會說聲智科技的定位是語音交互下的高通和MTK,不理解上面的背景通常就很難理解為什么在這個時間點(diǎn)上這樣一類企業(yè)特別有現(xiàn)實(shí)意義。
非要想的話可以往這兒想
既然投入這么多,那這個點(diǎn)還值得不值得打?是真有錢賺還是會像O2O那樣雖然熱鬧但很難賺錢?
這其實(shí)是個不得不打的點(diǎn),因?yàn)檎Z音交互會顛覆的東西其實(shí)遠(yuǎn)比表面上看到的多,這里只說一點(diǎn)。
我們先做個基本的假設(shè),那就是Alexa獲得了巨大成功(Echo、智能音箱、Alexa有關(guān)聯(lián),但其實(shí)是不同的東西,這點(diǎn)在之前文章中有說,這里不再重復(fù)),滲透到各種設(shè)備之中,包圍了人們的生活,人們有50%的時間在通過語音和設(shè)備打交道,并且日活逼近Android。
那這時候一定會衍生這樣的需求,用戶會說:Alexa,幫我通知下馬化騰,明天我不見他了。這時候就需要有一種通訊的IM來實(shí)現(xiàn)這種需求。這時候亞馬遜就有兩個選擇:第一它接入一種已有IM,比如Whatsapp,或者Skype。第二種是自己做一個嵌在Alexa里面。亞馬遜至少有一半的幾率會選擇后者,而不是把這種基礎(chǔ)設(shè)施開放給別人,因?yàn)榍皟煞N要么屬于Facebook,要么屬于微軟。如果在中國是阿里巴巴做成了Alexa,那估計百分百不會選擇對接微信。這樣一來配合一個語音交互的核心特征,顛覆性的事情就出現(xiàn)了:
語音交互背后隱藏的各種應(yīng)用具有唯一性。
我們很難想象這種語音交互方式:Alexa幫我用Whatsapp給馬化騰留個消息,明天我不見他了。在語音交互中WhatsApp這類應(yīng)用的標(biāo)識很可能會被優(yōu)化掉。如果Alexa還只是百萬級、千萬級DAU的應(yīng)用時那這個特性還不關(guān)鍵,但如果它是10億DAU的系統(tǒng),那這個特性的影響就會被無限放大,也就說搜索、IM、電商很可能都只有一家,而不是像現(xiàn)在雖然少,但還有個1,2,3名。
小結(jié)
人工智能的道路其實(shí)會比想的還長一點(diǎn),這不止受限于技術(shù)(此前的技術(shù)紅利已經(jīng)可以帶來足夠多的機(jī)會),也還受限于文化與認(rèn)知上的沖突。至少在啟動階段和過去這些年形成的互聯(lián)網(wǎng)經(jīng)典打法有點(diǎn)格格不入。與此同時,他背后又會蘊(yùn)含著足夠強(qiáng)的顛覆性力量,誘惑確實(shí)足夠強(qiáng)。這樣看來2017注定會是一個在糾結(jié)中前行的年頭。