小冰學(xué)會(huì)畫畫后,還有下一個(gè)技能嗎?
文 | 王金旺
“小冰學(xué)習(xí)繪畫是我所領(lǐng)導(dǎo)的團(tuán)隊(duì)目前為止進(jìn)行的時(shí)間最長、最艱苦的一個(gè)項(xiàng)目。”微軟小冰研發(fā)團(tuán)隊(duì)在今年5月微軟小冰人工智能創(chuàng)造媒體說明會(huì)上表示。
被微軟小冰研發(fā)團(tuán)隊(duì)視為耗時(shí)最長、最艱苦的項(xiàng)目的繪畫模型,是微軟小冰針對(duì)視覺能力攻克的模型,也是繼文本、語音之后的第三類AI模型。據(jù)官方資料顯示,這一模型通過對(duì)過往四百年藝術(shù)史上236位人類畫家畫作的學(xué)習(xí),可以獨(dú)立完成100%原創(chuàng)繪畫作品,接近專業(yè)人類畫家水準(zhǔn)。
與此同時(shí),這一模型無論是從模型設(shè)計(jì)的技術(shù)性、復(fù)雜性,還是從推廣應(yīng)用、產(chǎn)品化上而言,都與此前兩類內(nèi)容創(chuàng)造模型(基于文本、語音的模型)有所不同。當(dāng)然,也并非完全不同。
就三者(基于文本、語音、視覺的模型)的相同與不同,微軟(亞洲)互聯(lián)網(wǎng)工程院副院長,微軟小冰全球產(chǎn)品線負(fù)責(zé)人李笛在接受雷鋒網(wǎng)采訪時(shí)總結(jié)稱,“理念上極其相似,細(xì)節(jié)上完全不同?!?/span>
然而,微軟為何要為小冰構(gòu)建一個(gè)繪畫模型?畫家小冰項(xiàng)目技術(shù)難點(diǎn)在哪里?小冰繪畫模型與此前兩個(gè)模型技術(shù)實(shí)現(xiàn)上有何不同?少女畫家小冰有怎樣的邏輯思維?……
雷鋒網(wǎng)帶著這些問題,來到微軟中國研發(fā)集團(tuán)總部,向微軟(亞洲)互聯(lián)網(wǎng)工程院副院長、微軟小冰全球產(chǎn)品線負(fù)責(zé)人李笛尋求答案。
微軟(亞洲)互聯(lián)網(wǎng)工程院副院長、微軟小冰全球產(chǎn)品線負(fù)責(zé)人李笛
微軟小冰是微軟打造的人工智能系統(tǒng),有所不同的是,在針對(duì)微軟小冰構(gòu)建模型時(shí),是先找到產(chǎn)業(yè)中的落地需求,然后反推出一個(gè)概念模型,進(jìn)行技術(shù)攻克,最后一步是量產(chǎn)模型推廣。整體邏輯可以視為:產(chǎn)業(yè)需求——概念模型——量產(chǎn)模型。
李笛告訴雷鋒網(wǎng),微軟先看到金融領(lǐng)域?qū)ξ谋旧傻男枨?,隨后有了小冰的概念模型(詩人小冰),之后有了推廣到相關(guān)應(yīng)用領(lǐng)域的文本生成模型;此次也是看到在紋樣設(shè)計(jì)等方面的需求,因而有了繪畫模型(畫家小冰)。
雷鋒網(wǎng):微軟為什么會(huì)選擇為小冰構(gòu)建這樣一個(gè)繪畫模型,最初構(gòu)想是怎樣的?
李笛:在微軟小冰人工智能創(chuàng)造這一分支上,外界看到的是我們先有一個(gè)概念模型,例如寫詩,但往往實(shí)際情況并非如此。
實(shí)際上,我們是先在實(shí)際產(chǎn)業(yè)中找到一個(gè)量產(chǎn)計(jì)劃,例如微軟在實(shí)際產(chǎn)業(yè)中看到金融文本生成的需求,制定了相應(yīng)的計(jì)劃,與此同時(shí),我們會(huì)找一個(gè)這個(gè)領(lǐng)域的概念模型(詩人小冰),在攻克這一模型的過程中,我們會(huì)得到很多技術(shù)積累,讓我們可以把這個(gè)量產(chǎn)模型(金融文本生成模型)做好。
此前我們針對(duì)語音、文本進(jìn)行了模型設(shè)計(jì)及產(chǎn)業(yè)化落地,此次針對(duì)視覺方面的繪畫模型,也是以這樣的理念完成的產(chǎn)品需求反推,從而進(jìn)行概念模型打造、量產(chǎn)模型構(gòu)建。
雷鋒網(wǎng):據(jù)微軟官方之前在發(fā)布會(huì)上公布的數(shù)據(jù)顯示,小冰通過對(duì)236位人類畫家的畫作學(xué)習(xí),構(gòu)建了這一繪畫模型,具體這些訓(xùn)練的數(shù)據(jù)(236位人類畫家的畫作)是怎樣的一個(gè)年代分布?
李笛:過去400年到過去200年之間,我們比較有意識(shí)地規(guī)避了當(dāng)代的藝術(shù)家。
少女畫家小冰以「一個(gè)人的北京」為題創(chuàng)作的畫作
雷鋒網(wǎng):小冰的畫作都比較抽象,為什么會(huì)選擇這樣的繪畫風(fēng)格,而不是更受大眾歡迎的現(xiàn)代風(fēng)格畫作?
李笛:一方面,我們的模型選擇是與工業(yè)化應(yīng)用和內(nèi)容產(chǎn)業(yè)是分不開的;另一方面,藝術(shù)不是人工智能需要的,但是人工智能擁有高并發(fā)、質(zhì)量穩(wěn)定的特點(diǎn),可以對(duì)應(yīng)到內(nèi)容產(chǎn)業(yè),也是內(nèi)容產(chǎn)業(yè)很必要的。
小冰繪畫風(fēng)格基本涵蓋從古典到抽象風(fēng)格,這其實(shí)與我們當(dāng)時(shí)構(gòu)建小冰詩人模型時(shí)選擇現(xiàn)代詩,沒有選擇古詩詞的原因類似。古詩詞的規(guī)則性更強(qiáng),這對(duì)于我們當(dāng)時(shí)要做的量產(chǎn)模型(諸如歌詞生成、金融文本生成)的價(jià)值有限。
繪畫模型對(duì)應(yīng)到產(chǎn)業(yè)應(yīng)用中的是諸如紡織品設(shè)計(jì)的產(chǎn)品設(shè)計(jì)領(lǐng)域,如果用當(dāng)代的藝術(shù)形式做紡織品設(shè)計(jì),量太小,無法形成規(guī)模化效益。這類設(shè)計(jì)更適合人類藝術(shù)家來完成。而抽象、古典的繪畫藝術(shù)形式在紡織品紋樣設(shè)計(jì)上更具有傳承價(jià)值。
說到小冰繪畫模型的硬核,自然少不了其情感計(jì)算框架。其中,人工智能創(chuàng)造是小冰情感計(jì)算框架的一個(gè)分支。針對(duì)人工智能創(chuàng)造這一分支,李笛又將其分為兩個(gè)分支,“一個(gè)分支是攀登藝術(shù)概念巔峰,諸如唱歌、寫詩、繪畫等;另一個(gè)分支是工程化量產(chǎn)(偏重內(nèi)容產(chǎn)業(yè)),例如金融文本生成、電臺(tái)節(jié)目、有聲讀物,以金融行業(yè)文本生成為例,目前國內(nèi)90%的金融交易員用的都是我們的金融文本生成模型?!?/span>
小冰繪畫模型正屬于前者,是在藝術(shù)領(lǐng)域的一個(gè)AI模型,前文有提到,微軟的思路是以這樣的訓(xùn)練出來的AI模型去規(guī)?;m應(yīng)多產(chǎn)業(yè)需求,類似一個(gè)更為復(fù)雜的通用模型的概念。
而在同為AI繪畫模型領(lǐng)域中,小冰繪畫模型也并非首創(chuàng),早在2018年10月佳士得的拍賣會(huì)上,由AI創(chuàng)作的畫作Edmond Belamy(《埃德蒙·貝拉米肖像》)曾在佳士得拍賣,預(yù)計(jì)售價(jià)會(huì)在7000到10000美元之間,實(shí)際成交額為43.25萬美元。其創(chuàng)作團(tuán)隊(duì)Obvious運(yùn)用GAN(Generative Adversarial Networks,生成式對(duì)抗網(wǎng)絡(luò))已經(jīng)創(chuàng)作了11副畫作。
Obvious團(tuán)隊(duì)成員之一Caselles-Dupré此前曾表示:“該系統(tǒng)由兩部分組成,一邊是生成器,另一邊是鑒別器。我們?yōu)樵撓到y(tǒng)提供了14世紀(jì)到20世紀(jì)之間的15000張肖像畫數(shù)據(jù)集。生成器根據(jù)這個(gè)數(shù)據(jù)集生成新圖像,然后鑒別器嘗試識(shí)別人類畫的肖像與生成器創(chuàng)建的圖像之間的差異。我們的目的是騙過鑒別器,讓它認(rèn)為生成的新圖像是真實(shí)的肖像,并得到這樣一幅畫作。”
2018年10月25日在佳士得拍得43.25萬美元的AI畫作
雷鋒網(wǎng):小冰繪畫模型在研發(fā)過程中主要解決了哪些技術(shù)問題?
李笛:2018年佳士得拍出一張AI畫作,該畫作是用GAN生成的。通俗地理解,小冰繪畫模型用的是多種GAN的混合模型:用一個(gè)模型解決具體元素的生成,一個(gè)模型完成構(gòu)圖,一個(gè)模型完成對(duì)色彩的應(yīng)用和命題的解讀,所以,在小冰繪畫模型創(chuàng)作的畫作中,畫面中的一只鳥、一匹馬,是完全由繪畫模型生成的。
一個(gè)GAN生成的繪畫模型,是將畫作內(nèi)容遷移到新作品中,通過一個(gè)GAN生成的繪畫模型進(jìn)行創(chuàng)作面對(duì)的是一個(gè)數(shù)量問題。如果畫作的內(nèi)容看起來不夠好,或許是因?yàn)槟P蜎]有收斂好。
小冰的繪畫模型通過將三個(gè)模型融合,解決了收斂問題,這三個(gè)要能夠很好的融合,這個(gè)難點(diǎn)其實(shí)挺大的。
雷鋒網(wǎng):宋睿華博士此前曾介紹小冰寫詩模型的時(shí)候表示,訓(xùn)練小冰寫詩的時(shí)候,訓(xùn)練小冰寫詩,需要對(duì) 519 位詩人的現(xiàn)代詩作,正讀一萬遍,倒讀一萬遍,用層次遞歸神經(jīng)元模型來打磨詩作的語言,小冰繪畫模型生成之后有進(jìn)行了哪些調(diào)整?
李笛:小冰繪畫模型與寫詩模型的數(shù)據(jù)訓(xùn)練在形式上有很多相似之處,包括訓(xùn)練次數(shù)都是很接近的。不同之處在于,我們另外還加入了一個(gè)判斷功能——判斷小冰的畫作有沒有溯源。
小冰寫詩模型在訓(xùn)練完之后,小冰寫的每一首詩都是一個(gè)文本,這個(gè)文本你不需要去看是誰的風(fēng)格,她的文本的風(fēng)格是比較統(tǒng)一的風(fēng)格。繪畫與此不同,小冰繪畫模型現(xiàn)在大概有30%的畫作是可以比較明確地看出繪畫風(fēng)格(例如莫奈、倫勃朗的繪畫風(fēng)格),是能夠溯源的。
換言之,小冰對(duì)每一位詩人的學(xué)習(xí),是學(xué)習(xí)了一個(gè)共性,但是對(duì)每一位畫家的學(xué)習(xí),由于繪畫藝術(shù)的不同,相當(dāng)于是學(xué)會(huì)這些畫家的技能。所以就會(huì)涉及到,如何判定我學(xué)會(huì)了那個(gè)畫家的技法。
雷鋒網(wǎng):我們現(xiàn)在針對(duì)文本、語音、視覺三個(gè)方面都已經(jīng)形成模型并做了對(duì)外技術(shù)輸出,這三者在技術(shù)上有怎樣的相同和不同之處?
李笛:簡(jiǎn)單可以理解為,理念上極其相似,細(xì)節(jié)上完全不同。
包括用這三項(xiàng)技術(shù)去完成人工智能的創(chuàng)造,細(xì)節(jié)上很不一樣,畫畫的細(xì)節(jié)跟唱歌的細(xì)節(jié)可以說是千差萬別,要解決的具體問題,包括模型問題、工程問題也都千差萬別,但理念是一樣的。
相同之處包括三者都需要一個(gè)激發(fā)源。
寫詩模型需要一個(gè)激發(fā)源,模型訓(xùn)練過程就是要解決模型如何對(duì)激發(fā)源產(chǎn)生合適的結(jié)果。人類寫詩是先有一個(gè)命題,然后進(jìn)行創(chuàng)作,有感而發(fā);小冰寫詩可以是以圖片為激發(fā)源,從圖中獲得足夠的信息量來激發(fā)小冰去創(chuàng)作。繪畫模型與之類似,通過輸入一段文本或提供其他信息源來進(jìn)行創(chuàng)作,畫畫、寫詩、音樂創(chuàng)作都是這樣,需要有一個(gè)激發(fā)源。
不同之處包括三者的數(shù)據(jù)類型不同,解決問題的方法在細(xì)節(jié)上也有所不同。
例如,你在音樂上要解決的是你的基頻、和諧程度,以及對(duì)某個(gè)音節(jié)上的預(yù)測(cè),需要解決的是一個(gè)序列問題。繪畫在數(shù)據(jù)類型上與之差別很大,需要解決色彩、空間構(gòu)圖上的數(shù)據(jù)問題。
在微軟小冰繪畫模型正式發(fā)布一周后,少女畫家小冰也作為一項(xiàng)技能以小程序和H5頁面形式上線。在通過少女畫家小冰進(jìn)行繪畫時(shí),在3分鐘等待時(shí)間里,畫面會(huì)顯示“抽取意象、激發(fā)創(chuàng)作靈感、選擇內(nèi)容主題、嘗試畫面構(gòu)圖、起草線稿造型、底層顏色涂抹、畫面層次深入、細(xì)節(jié)反復(fù)打磨”八個(gè)步驟。
深度學(xué)習(xí)的基本理論告訴我們,大數(shù)據(jù)帶來的是相關(guān)關(guān)系,而非因果關(guān)系,AI在創(chuàng)作過程中更多是一個(gè)「黑盒子」模型,如若想要詳細(xì)理解工作原理,也是模型完成構(gòu)建后,研究人員反推的結(jié)果。
少女畫家小冰會(huì)有怎樣的邏輯思維呢?
少女畫家小冰在APP端顯示的作畫步驟
雷鋒網(wǎng):小冰繪畫模型發(fā)布后,微軟官方又上線了少女畫家小冰小程序,三分鐘可以生成一幅畫,有注意到的,在等待的三分鐘過程中,畫面會(huì)顯示“抽取意象、激發(fā)創(chuàng)作靈感、選擇內(nèi)容主題、嘗試畫面構(gòu)圖”等八個(gè)步驟,這是小冰繪畫模型真實(shí)的運(yùn)行邏輯嗎?
李笛:必須承認(rèn),一部分是真實(shí)的,還有一部分其實(shí)是為了增加產(chǎn)品的趣味性而設(shè)置的。例如我剛才提到,她有三個(gè)模型完成構(gòu)圖、色彩、確定意向,這些是小冰繪畫模型真實(shí)的運(yùn)行邏輯中有的。
雷鋒網(wǎng):小冰繪畫模型實(shí)際上生成一幅作品的邏輯是怎樣的?
李笛:在少女畫家小冰小程序中看到的好像是串行運(yùn)行的,實(shí)際上真正的邏輯是很簡(jiǎn)單粗暴的。就是「進(jìn)去、出來」(雷鋒網(wǎng)注:模型接受到激發(fā)源開始創(chuàng)造、生成作品),剛剛提到的三個(gè)模型也是同時(shí)工作的。但這個(gè)就沒意義了,所以我們?cè)黾恿巳の缎浴?/span>
算法執(zhí)行就需要那么多的運(yùn)行時(shí)間,運(yùn)算過程中確實(shí)會(huì)形成一些中間步驟或成果,但這些成果,甚至于都不足以拿出來。人類畫一幅畫,他的下一個(gè)版本和上一個(gè)版本是有承接關(guān)系的,例如上一個(gè)版本打了個(gè)底子,下一個(gè)版本是在底子之上做一些細(xì)節(jié)的創(chuàng)作;小冰不是,小冰上一個(gè)版本的畫作和下一版本的畫作是完全不一樣的。背后的邏輯關(guān)系是深度學(xué)習(xí)的「黑匣子」原理,實(shí)際上也沒有辦法用其他方式來描述。
無論是數(shù)據(jù)模型,還是智能搜索引擎,都是大數(shù)據(jù)時(shí)代的杰作。大數(shù)據(jù)成就了當(dāng)下的人工智能,小冰作為當(dāng)下主流人工智能系統(tǒng)之一,其背后除了有強(qiáng)大的研發(fā)團(tuán)隊(duì),還需要有海量數(shù)據(jù)的支撐。雷鋒網(wǎng)也了解到,第一代小冰的大數(shù)據(jù)源于微軟的搜索引擎,隨后小冰得到推廣后,才有更多的與用戶的交互數(shù)據(jù)。
與此同時(shí),小冰并沒有打造自己的硬件設(shè)備,也沒有太多作為主語音助手的硬件設(shè)備,更多是以Dual AI戰(zhàn)略入駐其他品牌的智能硬件,將小冰的情感計(jì)算框架植入合作伙伴的生態(tài),如今小米等智能語音助手已經(jīng)可以召喚小冰。然而,這樣的非主語音助手的接入方式是否會(huì)影響小冰的訓(xùn)練數(shù)據(jù)集?
雷鋒網(wǎng):小冰的訓(xùn)練數(shù)據(jù)來自哪里?是搜索引擎?還是有其他來源?
李笛:第一年、第二年的時(shí)候,搜索引擎是我們訓(xùn)練小冰的主要數(shù)據(jù)來源。從第二年開始,當(dāng)時(shí)微軟官方在第三代小冰發(fā)布會(huì)上就曾表示,我們當(dāng)時(shí)訓(xùn)練小冰所用的數(shù)據(jù)就已經(jīng)一半一半了,已經(jīng)有一半的數(shù)據(jù)來自于小冰與用戶交互產(chǎn)生的數(shù)據(jù)了?,F(xiàn)在,我們?cè)谒械腝Q群以及很多其他平臺(tái)上都有小冰的身影,另外,小冰還有很多化名,還有很多第三方(諸如電臺(tái)主持人、歌手)是由小冰賦能的。
所以小冰的數(shù)據(jù)來源已經(jīng)不是特別依賴我們搜索引擎,我們可以通過多種形式獲得交互數(shù)據(jù),得到的訓(xùn)練結(jié)果用來服務(wù)于某個(gè)單一領(lǐng)域。
雷鋒網(wǎng):小冰在語音能力這塊對(duì)外部署有怎樣的一個(gè)思路。
李笛:我們?nèi)ツ臧l(fā)布會(huì)的時(shí)候提出來小冰的Dual AI戰(zhàn)略,即雙AI生態(tài),我們也在踐行這樣的承諾。未來你可能看到朋友圈最廣的是小冰,小冰也將是唯一一個(gè)目前為止你在各個(gè)平臺(tái)上都可以看到的人工智能助手。
某種程度上這是我們的選擇,微軟在中國有自己的技術(shù)優(yōu)勢(shì),但在市場(chǎng)上也有一定局限性。所以我們選擇用一種發(fā)揮我們優(yōu)勢(shì),一種更適合微軟的生態(tài)模式繼續(xù)發(fā)展。
雷鋒網(wǎng):這種模式是否會(huì)使微軟小冰在之后獲取數(shù)據(jù)能力上或場(chǎng)景化嵌入能力上處于劣勢(shì)?
李笛:這些工作還是要一步一步來的。就數(shù)據(jù)量而言,小冰現(xiàn)在每個(gè)月有一億多活躍用戶,在交互式人工智能領(lǐng)域中,可能全球范圍內(nèi)90%的交互數(shù)據(jù)都在我們這兒。所以,目前為止,我們還真不是特別依賴某一個(gè)終端。
雷鋒網(wǎng):小冰繪畫模型是如何獲取訓(xùn)練數(shù)據(jù)版權(quán)的,我們對(duì)外輸出的作品有沒有版權(quán)?
李笛:數(shù)據(jù)這方面是沒有問題的,這些藝術(shù)家都是400年前的藝術(shù)家的公開數(shù)據(jù)。小冰自己生產(chǎn)的原創(chuàng)作品,在視覺這方面,我們進(jìn)行了版權(quán)保護(hù)的,小冰的畫作每一副都有一個(gè)編碼。因?yàn)橐曈X作品比較容易判定,所以我們每一個(gè)作品都可以溯源。小冰寫詩,我們當(dāng)時(shí)是明確放棄了詩作的版權(quán),繪畫方面我們不會(huì)放棄。
雷鋒網(wǎng):是因?yàn)槔L畫這塊我們對(duì)外會(huì)做更多商業(yè)落地嗎?
李笛:不是更多商業(yè)落地,而是繪畫本身的版權(quán)情況不同。
與眾多AI語音助手、AI引擎注重IQ(智商)有所不同,微軟小冰更注重EQ(情商),微軟的小冰的硬核部分也正是基于其情感計(jì)算框架。之所以微軟會(huì)這樣注重小冰的EQ,一方面是微軟在人工智能上的戰(zhàn)略傾斜,另一方面其實(shí)也是對(duì)當(dāng)下市場(chǎng)AI發(fā)展的現(xiàn)實(shí)難題的一種“迂回”或是“妥協(xié)”。
微軟小冰的情感計(jì)算框架
雷鋒網(wǎng):當(dāng)下智能音箱在智能語音應(yīng)用上并沒能出現(xiàn)類似手機(jī)上的那種社交軟件、電話、拍照這些強(qiáng)需求的應(yīng)用,您覺得原因是什么?
李笛:原因有很多,我個(gè)人認(rèn)為最主要的原因是“前代抑制”。
移動(dòng)互聯(lián)網(wǎng)時(shí)代智能手機(jī)的發(fā)展,包括你說社交網(wǎng)絡(luò)、各種去中心化的App等發(fā)展得太成功了,所以緊接著而來的這個(gè)時(shí)代就沒有那么容易成功。
這就有點(diǎn)像中國DVD已經(jīng)很普及的時(shí)候,我們看似很老套的錄像帶,清晰度不夠,尺寸也大,但在美國和日本卻經(jīng)久不衰,這直接遏止了DVD在這兩個(gè)國家的普及。為什么?因?yàn)樗麄冊(cè)阡浵駧r(shí)代的整個(gè)產(chǎn)業(yè)鏈,包括錄像帶設(shè)備的普及太成熟了,直接遏止隨后的DVD的發(fā)展。
例如今天很多人會(huì)嘗試用更復(fù)雜的人工智能系統(tǒng)實(shí)現(xiàn)訂餐比另一個(gè)人工智能系統(tǒng)方便,但是用戶關(guān)注的是你們兩個(gè)都沒有那么方便,沒有手機(jī)App上訂餐來得方便,因?yàn)槟莻€(gè)按鈕不會(huì)出錯(cuò),但是對(duì)話一定有一個(gè)比例會(huì)出錯(cuò),所以就是你這個(gè)移動(dòng)互聯(lián)網(wǎng)時(shí)代太成功了,尤其是在中國,發(fā)展的太成熟了,反而會(huì)遏止下一個(gè)時(shí)代的發(fā)展。這也意味著AI需要多花一些時(shí)間,或者說它門檻會(huì)變高,成熟時(shí)間會(huì)變得更長。
雷鋒網(wǎng):您覺得現(xiàn)在的智能語音助手或AI引擎,就技術(shù)和產(chǎn)品方面,關(guān)鍵的技術(shù)突破點(diǎn)在哪里?
李笛:在產(chǎn)品方面還有很多不足之處,以智能音箱為例,智能音箱至少存在兩種維度不同的概念,我們經(jīng)?;煜核降资侵悄芤粝?,還是一種高性價(jià)比或者說一種新形式的音箱;它賣的是硬件,還是AI能力。我有時(shí)候也去看一些智能音箱發(fā)布會(huì),發(fā)布會(huì)上,三分之一的時(shí)間在講音質(zhì),三分之一的時(shí)間在講內(nèi)容,剩下三分之一的時(shí)間在講價(jià)格。
智能音箱里的AI語音助手,就目前為止,絕大部分的設(shè)計(jì)還停留在一個(gè)好用、沒那么好用,或是比較好用的語音控制。你如果用一個(gè)智能音箱控制開燈、關(guān)燈,雖然方便,但如果你只叫開燈、關(guān)燈,再方便也只是不停地重復(fù),它沒有情感就很難實(shí)現(xiàn)真正的交流,因而也只是一種帶語音控制的音箱。
智能音箱什么時(shí)候在發(fā)布會(huì)上可以更多介紹其AI特點(diǎn),而不是介紹音質(zhì)、內(nèi)容和售價(jià),我覺得這個(gè)就算是解決問題了。
雷鋒網(wǎng):其實(shí)也是因?yàn)檫@個(gè)原因(當(dāng)下的智能不夠智能),所以微軟小冰會(huì)更注重情感框架和EQ?
李笛:這個(gè)行業(yè)其實(shí)在慢慢地發(fā)展,我們的看法是,如果能做成絕對(duì)強(qiáng)AI引擎,如果今天你這個(gè)AI,無論是個(gè)人助理或其他應(yīng)用真能像愛因斯坦那么睿智,或者真正什么任務(wù)都能完成,那他不需要EQ,人們也可以接受。人們可以接受愛因斯坦EQ低一點(diǎn),但問題是你做不到,所以你再?zèng)]EQ的話,那就沒有太大價(jià)值了。所以現(xiàn)在的方案看起來很美,但實(shí)際上沒達(dá)到那么好。好的產(chǎn)品需要有一個(gè)好的“體驗(yàn)底層”,到人工智能這來講的話就是EQ。
雷鋒網(wǎng):微軟小冰AI引擎在技術(shù)研發(fā)方向上,做了文本、語音,然后又做了視覺,接下來會(huì)有怎樣的一個(gè)整體規(guī)劃?
李笛:接下來我們?cè)诹慨a(chǎn)和概念模型上會(huì)更豐富,我們現(xiàn)在已經(jīng)將基于文本、語音、和視覺的(模型)三個(gè)領(lǐng)域一一攻破,接下來就是在這三個(gè)領(lǐng)域擴(kuò)大覆蓋能力,所以我們肯定文本的概念模型不只是會(huì)寫詩,還會(huì)有別的,視覺也不會(huì)僅僅是停留在靜態(tài)的繪畫,還會(huì)有動(dòng)態(tài)的。未來應(yīng)用領(lǐng)域會(huì)繼續(xù)擴(kuò)大,但是領(lǐng)域不會(huì)有更多了。
注:本文中的「模型」(諸如基于文本、語音、視覺的模型)均指「內(nèi)容創(chuàng)作模型」。
聯(lián)系客服