知識(shí)管理的坑
做知識(shí)管理最容易陷進(jìn)去的坑就是滿足1%用戶的要求
做知識(shí)管理最容易陷進(jìn)去的另一個(gè)坑就是滿足99%用戶的要求
知識(shí)庫(kù)的構(gòu)造中,當(dāng)目標(biāo)是滿足全人類的需要,就沒辦法滿足(幾乎)任何人的需要。Wikidata, freebase, dbpedia和yago都有這個(gè)問題。
wikidata至少做對(duì)了一件事:不用RDF
眾包是一個(gè)建設(shè)文本百科的好辦法,但是對(duì)于建設(shè)結(jié)構(gòu)化數(shù)據(jù)就沒有成功的先例,因?yàn)槭澜缬^的沖突很難用結(jié)構(gòu)化表示融合。(詳見我的《The Unbearable Lightness of Wiking》
http://www.slideshare.net/baojie_iowa/2010-0522-smwcon)
知識(shí)庫(kù)和文本不同,它的長(zhǎng)尾需求特別大,人們通常會(huì)關(guān)心各種小領(lǐng)域的entity。大部分這些entity是沒有機(jī)會(huì)進(jìn)入主流的知識(shí)庫(kù)的。這里有認(rèn)識(shí)的原因,有經(jīng)濟(jì)學(xué)的原因。比如ConceptNet和Freebase,他們?cè)试S眾包編輯,但是真正來編輯的人是極少的。大部分領(lǐng)域的概念都非常稀疏。
年輕人喜歡大數(shù)據(jù),成年人只看數(shù)據(jù)清理
做知識(shí),做語(yǔ)義,很容易犯的錯(cuò)誤,是把實(shí)驗(yàn)室成果外推,認(rèn)為能應(yīng)用到大幾個(gè)數(shù)量級(jí)的數(shù)據(jù)上。而在實(shí)踐中,一個(gè)人用的東西和十個(gè)人用的截然不同,1G數(shù)據(jù)的分析和1T數(shù)據(jù)的分析截然不同,不是上Hadoop就能解決的。這里面有太多人的因素,人是沒法Hadoop化的。
反之亦然,在大市場(chǎng)、大數(shù)據(jù)上有效的算法,在小市場(chǎng)、小數(shù)據(jù)上效果反而不好。創(chuàng)業(yè)公司就不能眼睛盯著大公司,覺得他們?cè)趺醋鑫覀兙蚮ollow,只要把規(guī)??s小了就可以了??墒谴笙蟮墓趋澜Y(jié)構(gòu)小老鼠是不能按比例縮小的。
自由…不是無代價(jià)的
人工智能問題說到底是一個(gè)經(jīng)濟(jì)學(xué)問題,不(僅)是算法問題
在知識(shí)工程里,“領(lǐng)域”往往被看作一個(gè)本體(ie 概念的正確分類的形而上的)問題。但其實(shí)領(lǐng)域應(yīng)該是一個(gè)渠道問題,一個(gè)經(jīng)濟(jì)學(xué)問題。領(lǐng)域的大小是隨著知識(shí)銷售者的實(shí)力而變化的,和領(lǐng)域的真實(shí)大小不必然有關(guān)系。
在我看來,Knowledge Graph的核心既不是Knowledge,也不是Graph,而是自由。自由是降低成本的方式。但是眾包并不是自由——對(duì)于知識(shí)庫(kù)而言,眾包恰恰是反自由,自古以來就沒有成功的例子。允許多種觀點(diǎn)在不同的范圍內(nèi)共存,這才是知識(shí)圖譜能普及的根本——但是這違背大公司的利益。
例如Google的Knowledge Graph和Schema.org,代表的是Google自己的世界觀(比如命名,組織,范疇),它的目的是服務(wù)Google自己的商業(yè)利益。這也就決定了它們?cè)谟糜谄渌说睦娣懂爼r(shí),會(huì)非常的別扭。這個(gè)問題是和它的渠道緊密結(jié)合的,自由會(huì)損害它的商業(yè)利益
Web的成功,一個(gè)基礎(chǔ)就是允許人們各行其是,盡可能降低事先約定的必要,盡可能允許多種不同的組織方式、數(shù)據(jù)形式、基礎(chǔ)系統(tǒng)能共存。對(duì)于Web而言,URI是實(shí)現(xiàn)這種自由的基礎(chǔ)。于是語(yǔ)義網(wǎng)界(含關(guān)聯(lián)數(shù)據(jù))外推把URI也做為結(jié)構(gòu)化數(shù)據(jù)表現(xiàn)的基礎(chǔ),經(jīng)歷十多年的失敗,現(xiàn)在看應(yīng)該是錯(cuò)了。
URI當(dāng)年是自由的支柱,但是現(xiàn)在它反而阻礙了自由。作為一種尋址方式,它代表了自由。但是作為一種*命名*方式(也就是知識(shí)組織的底層基礎(chǔ)),它則代表了一種特殊的世界觀——這種世界觀和大多數(shù)人的世界觀抵觸。這就極大提高了成本。
知識(shí)表現(xiàn)中的成本,并不是說建一個(gè)模型的成本,或者機(jī)器跑一個(gè)模型的成本。最大的成本是人與人之間的成本。爭(zhēng)吵(大到各種會(huì)議和工作組,小到郵件列表)、困惑、官僚主義(項(xiàng)目擴(kuò)大以應(yīng)項(xiàng)目擴(kuò)大之需),而這一切的根源都在于以不恰當(dāng)?shù)姆绞竭^早優(yōu)化普適性,從而導(dǎo)致世界觀的沖突。
真理從來不是越辯越明的。在世界觀的沖突中,再多的辯論也無法改變?nèi)藗儽旧淼乃季S方式,更不用說利益本身。所以知識(shí)結(jié)構(gòu)不應(yīng)該被集體設(shè)計(jì)出來——事實(shí)上,參與設(shè)計(jì)的人越多,這個(gè)知識(shí)結(jié)構(gòu)越正確,于是就越?jīng)]有用。反而是偏見最后能落到實(shí)處。
Unified Ontology of Everything = Unified Ontology of Nonsense 好比是把佛教、基督教、伊斯蘭教混合在一起搞一個(gè)宗教
數(shù)據(jù)的語(yǔ)義,應(yīng)該盡可能的局部化。過于照顧數(shù)據(jù)多樣的應(yīng)用中的語(yǔ)義解釋,會(huì)極大提高數(shù)據(jù)發(fā)布者的發(fā)布成本,因?yàn)檫@就需要精確的指定語(yǔ)義(比如說用URI命名)。而事實(shí)上,真正產(chǎn)生價(jià)值的應(yīng)用的數(shù)量是很少的。在1-1而非n-n的語(yǔ)境下語(yǔ)義的解釋成本就會(huì)大大的下降。降低這個(gè)成本就是知識(shí)管理的一個(gè)核心任務(wù)
從社會(huì)學(xué)上說,參與事務(wù)的個(gè)體越多,分歧就會(huì)越大。把消滅分歧的任務(wù)交給發(fā)布者是不合適的,等于發(fā)布者成為整個(gè)理解系統(tǒng)的中心,從經(jīng)濟(jì)學(xué)上不可持續(xù)。應(yīng)該通過局部化事務(wù),去中心化。這就需要各種代理的出現(xiàn)。
把語(yǔ)義數(shù)據(jù)稱為ontology,這已經(jīng)在哲學(xué)上假設(shè)這些結(jié)構(gòu)化數(shù)據(jù)是在描述本體。人們已經(jīng)對(duì)本體爭(zhēng)論了兩千年,可能要再爭(zhēng)論兩千年。而工程中的數(shù)據(jù)的語(yǔ)義,則是主觀的而非客觀的描述。所以語(yǔ)義是一個(gè)唯心的認(rèn)識(shí)論問題,而非本體論問題
因此,如果從認(rèn)識(shí)論的角度設(shè)計(jì)語(yǔ)義系統(tǒng),就可以把復(fù)雜的本體論語(yǔ)義轉(zhuǎn)化為可解耦的認(rèn)識(shí)論語(yǔ)義,從而在不同的域中允許不同的解釋存在。這就保證了語(yǔ)義解釋的自由,這一web發(fā)布最核心的價(jià)值。
市場(chǎng)的的經(jīng)驗(yàn)教訓(xùn)
今日去檢查John Breslin和Nova Spivack的公司StreamGlider到底怎么樣了,才發(fā)現(xiàn)連網(wǎng)站都沒了,準(zhǔn)確地說被黑了。公司似乎還在,全球排名已經(jīng)可以忽略不計(jì)
http://t.cn/Rw5zGbM Twitter 只有113個(gè)粉絲。作為當(dāng)年號(hào)稱要挑戰(zhàn)Flipboard的公司,匯集諸多明星,為什么會(huì)只走出這點(diǎn)距離?
這是Streamglider當(dāng)年剛推出時(shí)的新聞
http://t.cn/zOZzYeS Breslin是我們語(yǔ)義網(wǎng)界的風(fēng)云人物,DERI的大牛。但是很顯然,Streamglider和Bottlenose, Twine一樣沒有抓住用戶的需求。
DERI出來的另一個(gè)創(chuàng)業(yè)項(xiàng)目,seevl.fm
http://t.cn/Rw5Zhb6 ,試圖在音樂領(lǐng)域做推薦,當(dāng)年還發(fā)了很多文章,也已經(jīng)基本上死掉了。單純從知識(shí)的角度,不管是語(yǔ)義網(wǎng)也好,知識(shí)圖譜也好,都不能解決用戶真正關(guān)心的問題。去進(jìn)攻一個(gè)準(zhǔn)備不足的市場(chǎng),這個(gè)市場(chǎng)本身的規(guī)模再大也和你無關(guān),因?yàn)闆]人會(huì)用。
Bottlenose先后融資了6.6M。前兩天他們剛剛從KMG Capital Partners B輪。但是如果他們不改變經(jīng)營(yíng)戰(zhàn)略,再砸錢也沒用
幾乎所有的“語(yǔ)義”引擎在遇到消費(fèi)者市場(chǎng)問題后就撤退了,去搞企業(yè)市場(chǎng)??墒沁@樣的公司幾乎過兩年也都死掉了。在我看來,他們的問題不是消費(fèi)者vs企業(yè)市場(chǎng),而是他們(至少我接觸的那幾家)太過從技術(shù)的角度,而不是真正從“消費(fèi)者”的角度去思考問題。把客戶從個(gè)人換成企業(yè)也無助于解決問題。
幾乎所的這些公司,都是明星CEO+明星技術(shù)團(tuán)隊(duì)+明星顧問+明星投資公司。在用戶以前,他們就已經(jīng)有各種C這個(gè)O,C那個(gè)O,一個(gè)漂亮的董事會(huì)。他們有各種天頂星技術(shù)。但是就是不愿意做小事。小事不需要明星。所以他們都死了。
在我看來,他們從消費(fèi)者市場(chǎng)轉(zhuǎn)進(jìn)企業(yè)市場(chǎng),只是一種逃避。他們不試圖去解決成本、成本、成本這個(gè)知識(shí)管理最核心的問題——因?yàn)樗麄儽旧砭褪浅杀?,他們沒法解決掉自己。語(yǔ)義和知識(shí),如果不能lean startup,那就注定無解。創(chuàng)始人越是明星,開始拿的投資越多,就越更接近于失敗。
Sig.ma已經(jīng)下線了了。
sindice.com全球排名一直在40萬上下,再也上不去。如今商業(yè)化的通用語(yǔ)義搜索十分的不景氣。
在不景氣名單上的還有kngine 已經(jīng)加入陣亡或被收編名單的:Hakia, Kosmix, Evri, Powerset, Truevert。唯一和語(yǔ)義有點(diǎn)關(guān)系還干的不錯(cuò)的是DuckDuckGo
和Hakia和Powerset的人都聊過。對(duì)這兩個(gè)語(yǔ)義搜索先驅(qū)的失敗,我的感覺還是他們想做的事情太大,超越了時(shí)代。比如Powerset為了搞語(yǔ)義,先發(fā)明了HBase,但是語(yǔ)義分析速度實(shí)在是太慢。被微軟收購(gòu)后,很長(zhǎng)一段時(shí)間里Powerset其實(shí)是被拋棄了,沒法滿足微軟要求的規(guī)模。還是要Lean Startup
Hakia和Powerset都是以自然語(yǔ)言理解為核心,想從關(guān)鍵字搜索進(jìn)步到自然語(yǔ)言搜索。這個(gè)路徑至少在2006年是超前的。今天是不是還是超前,我不敢定言。但是任何會(huì)激發(fā)用戶圖靈測(cè)試欲望的界面設(shè)計(jì),都是不妥的。
專有領(lǐng)域的一些語(yǔ)義搜索(一般它們都不這么叫自己),比如Yummly和Factual,活得都不錯(cuò)。所以現(xiàn)在的技術(shù)和市場(chǎng)條件,還是不太合適通用語(yǔ)義搜索的存在?,F(xiàn)在的機(jī)器學(xué)習(xí)技術(shù),做通用知識(shí)的自動(dòng)挖掘還遠(yuǎn)遠(yuǎn)沒能離開實(shí)驗(yàn)室階段,拿它來做創(chuàng)業(yè)太冒險(xiǎn)了。
我的信箱里還有好多“Twine Digest”,其實(shí)和我們現(xiàn)在做的機(jī)器學(xué)習(xí)日?qǐng)?bào)、大數(shù)據(jù)日?qǐng)?bào)也差不多。Twine的經(jīng)驗(yàn)教訓(xùn),時(shí)時(shí)刻刻都都在提醒我們。
如果Twine當(dāng)時(shí)更專注一些,比如專門做書簽,或者只做推送,或者專門在一個(gè)話題上深挖,會(huì)不會(huì)更好些呢?至少,它的數(shù)據(jù)量會(huì)少很多,對(duì)后端的壓力就不會(huì)那么大,也就不至于需要分一半的工程力量去搞大數(shù)據(jù)基礎(chǔ)設(shè)施,就能更關(guān)注于業(yè)務(wù)本身。當(dāng)然歷史是不容假設(shè)的。
Via:baojie.org
End
可能感興趣的內(nèi)容
一共81個(gè),開源大數(shù)據(jù)處理工具匯總(下),包括日志收集系統(tǒng)/集群管理/RPC等 大數(shù)據(jù)能為我們的物流運(yùn)輸車隊(duì)管理做什么? 大數(shù)據(jù)可視化應(yīng)用之IT管理可視化 15款最佳的MySQL管理工具和應(yīng)用程序 67頁(yè)P(yáng)PT解密搜索引擎背后的大技術(shù):知識(shí)圖譜,大數(shù)據(jù)語(yǔ)義鏈接的基石無覓關(guān)聯(lián)推薦[?]轉(zhuǎn)載請(qǐng)注明來自36大數(shù)據(jù)(36dsj.com):
36大數(shù)據(jù) ?
關(guān)于知識(shí)管理和語(yǔ)義搜索的一些思考