日前,騰訊云發(fā)布AI 原生向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB。該數(shù)據(jù)庫(kù)能夠被廣泛應(yīng)用于大模型的訓(xùn)練、推理和知識(shí)庫(kù)補(bǔ)充等場(chǎng)景,是國(guó)內(nèi)首個(gè)從接入層、計(jì)算層、到存儲(chǔ)層提供全生命周期AI化的向量數(shù)據(jù)庫(kù)。
早在今年3月,英偉達(dá) CEO 黃仁勛就在其GTC大會(huì) 的主旨演講 中提到向量數(shù)據(jù)庫(kù),并強(qiáng)調(diào)這種數(shù)據(jù)庫(kù)在構(gòu)建專有大型語(yǔ)言模型組織中的重要性。
然而,什么是向量數(shù)據(jù)庫(kù),它是有真本事,還只是曇花一現(xiàn)?
事實(shí)上,向量數(shù)據(jù)庫(kù)并不是一個(gè)新的數(shù)據(jù)庫(kù)技術(shù),只是一直以來(lái)并沒有什么亮眼的技術(shù)突破,因此顯得有點(diǎn)“籍籍無(wú)名”。然而,當(dāng)向量檢索找到典型應(yīng)用場(chǎng)景,成為普遍需求后,向量數(shù)據(jù)庫(kù)的真正價(jià)值才日益凸顯。
云和恩墨創(chuàng)始人,中國(guó)數(shù)據(jù)庫(kù)聯(lián)盟(ACDU) 主席蓋國(guó)強(qiáng)表示,向量技術(shù)和相似度搜索可以回溯到Facebook在2017年開源的Faiss(基于向量的聚類和相似性搜索庫(kù)),Milvus數(shù)據(jù)庫(kù)就是基于Faiss發(fā)展而來(lái)。目前全球已有的向量數(shù)據(jù)庫(kù)產(chǎn)品主要包括 Pinecone、Milvus、Weaviate、Vespa 、Tencent Cloud VectorDB等。
“為什么Facebook早在2017年就能夠開源出Faiss?毫無(wú)疑問是真實(shí)需求推動(dòng)的關(guān)鍵創(chuàng)新。騰訊推出向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB,也是基于自身場(chǎng)景和業(yè)務(wù)需求,目的是實(shí)現(xiàn)對(duì)文本、圖片、音視頻等海量非結(jié)構(gòu)化數(shù)據(jù)的高效存儲(chǔ)和管理,從而為大模型的訓(xùn)練、學(xué)習(xí)等提供數(shù)據(jù)支撐?!鄙w國(guó)強(qiáng)如此說道。
中國(guó)人民大學(xué)信息學(xué)院副教授張延松表示,向量數(shù)據(jù)庫(kù)可以看作是一種專用數(shù)據(jù)庫(kù),主要用在AI和機(jī)器學(xué)習(xí)領(lǐng)域。在這些領(lǐng)域,數(shù)據(jù)通常以向量的形式呈現(xiàn),可以有效解決文本、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和查詢的難題。
在人工智能時(shí)代,目前對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理和處理的主流方法是,利用RNN或 Transformer 等嵌入模型(Embedding Model),將非結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義內(nèi)容轉(zhuǎn)化為多維向量,并直接對(duì)這些向量進(jìn)行存儲(chǔ)、處理。
“可以說,向量技術(shù)的出現(xiàn)為非結(jié)構(gòu)化數(shù)據(jù)的管理打開了一扇門。從概念上看,向量數(shù)據(jù)庫(kù)就是一種能夠?qū)?shù)據(jù)存儲(chǔ)為高維向量的數(shù)據(jù)庫(kù),作為一種數(shù)據(jù)結(jié)構(gòu),每個(gè)向量都包含多個(gè)維度,每個(gè)維度代表不同的特征或?qū)傩?,在保障信息完整的情況下,通過向量嵌入函數(shù)精準(zhǔn)描寫非結(jié)構(gòu)化數(shù)據(jù)的特征,能夠快速完成查詢、刪除、修改、元數(shù)據(jù)過濾等操作。因此相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)通過使用向量相似度算法,可以快速且精確地進(jìn)行相似度檢索?!鄙w國(guó)強(qiáng)如是說。
如下圖所示,在向量的世界里,你可以看到單詞“Cat”和一張“貓的圖片”距離很近,蘋果公司和Google相近,而不是和一個(gè)物理的蘋果“Apple”在一起。
不過,向量數(shù)據(jù)庫(kù)的技術(shù)優(yōu)勢(shì)并不局限于此:在擴(kuò)展性方面,向量數(shù)據(jù)庫(kù)可以輕松地通過添加更多節(jié)點(diǎn)來(lái)擴(kuò)展系統(tǒng)性能;在檢索規(guī)模方面,向量數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)低時(shí)延高并發(fā)檢索,據(jù)悉騰訊云向量數(shù)據(jù)庫(kù)最高支持10億級(jí)向量檢索規(guī)模,延遲控制在毫秒級(jí),相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫(kù)檢索規(guī)模提升10倍,同時(shí)具備百萬(wàn)級(jí)每秒查詢(QPS)的峰值能力;在兼容性方面,向量數(shù)據(jù)庫(kù)不僅支持多種類型和格式的向量數(shù)據(jù),還支持多種語(yǔ)言和平臺(tái)的接口及工具。
向量數(shù)據(jù)庫(kù)的技術(shù)優(yōu)勢(shì)使其更適合在AI場(chǎng)景下應(yīng)用,能夠?yàn)锳I的開發(fā)、增強(qiáng)內(nèi)容生成的準(zhǔn)確性提供重要的技術(shù)支撐。進(jìn)一步來(lái)講,向量數(shù)據(jù)庫(kù)也被看作是大語(yǔ)言模型的記憶與靈魂,對(duì)于解決大模型的“幻覺”問題至關(guān)重要。
由于大模型是基于已有數(shù)據(jù)訓(xùn)練而得出的,其具有一些典型缺陷特征,例如知識(shí)更新不足、提示詞工程復(fù)雜等。因此,在生成能力上,容易出現(xiàn)“幻覺效應(yīng)”。
Zilliz 合伙人兼產(chǎn)品負(fù)責(zé)人郭人通表示,當(dāng)下“AI 幻覺”是大模型的主要痛點(diǎn)之一,構(gòu)建知識(shí)庫(kù)是應(yīng)對(duì)此問題的有效方式,向量數(shù)據(jù)庫(kù)可以作為知識(shí)庫(kù)的擴(kuò)展插件為大模型進(jìn)行知識(shí)增強(qiáng),這也為 LLMs 時(shí)代構(gòu)建數(shù)據(jù)應(yīng)用提供了一種新的范式。
“ 業(yè)界有一個(gè)精準(zhǔn)的比喻:'大模型是容易失憶的大腦,向量數(shù)據(jù)庫(kù)就是海馬體’。這是因?yàn)榇竽P椭С值膖oken(指令牌)數(shù)總是有限的,其配合RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))可以擁有'短暫記憶’,但是'一本正經(jīng)胡說八道’的情況普遍存在,如果大模型可以具有'長(zhǎng)期記憶’,應(yīng)用范圍會(huì)很快從通用走向垂直領(lǐng)域?!鄙w國(guó)強(qiáng)如此說道。
向量數(shù)據(jù)庫(kù)的出現(xiàn)可以在一定程度上彌補(bǔ)這些不足,通過向量數(shù)據(jù)庫(kù)和大模型結(jié)合,可以降低大模型訓(xùn)練的成本,提高信息輸出的及時(shí)性和準(zhǔn)確度。最終大模型和向量數(shù)據(jù)庫(kù)的結(jié)合,會(huì)成為一種通用的呈現(xiàn)形態(tài),推動(dòng)數(shù)據(jù)庫(kù)技術(shù)走向多樣化。
從市場(chǎng)維度上看,盡管大模型帶火了向量數(shù)據(jù)庫(kù),多家初創(chuàng)公司受到資本市場(chǎng)青睞,但是其商業(yè)化落地和規(guī)?;瘧?yīng)用的前景仍不明朗:一方面,技術(shù)迭代慢,沒有新的突破。向量數(shù)據(jù)庫(kù)核心技術(shù)包括索引、相似度計(jì)算、Embedding等,這些技術(shù)早已出現(xiàn),時(shí)至今日并沒有實(shí)現(xiàn)大的創(chuàng)新突破;另一方面,向量數(shù)據(jù)庫(kù)并非不可替代,因?yàn)橄蛄繑?shù)據(jù)庫(kù)廣受關(guān)注也倒逼傳統(tǒng)數(shù)據(jù)庫(kù)加快原生向量詞嵌入和向量搜索引擎的研發(fā)和應(yīng)用。
“盡管向量數(shù)據(jù)庫(kù)的未來(lái)還不確定,但當(dāng)下能夠確定的是,向量數(shù)據(jù)庫(kù)為解決非結(jié)構(gòu)化數(shù)據(jù)的存算查帶來(lái)了福音,并找到了場(chǎng)景化的落地應(yīng)用?!鄙w國(guó)強(qiáng)表示,需求尋找產(chǎn)品,產(chǎn)品也在尋找需求。向量數(shù)據(jù)庫(kù)在AI時(shí)代找到了規(guī)?;瘧?yīng)用場(chǎng)景,因而成為當(dāng)下行業(yè)關(guān)注的熱點(diǎn),但也會(huì)很快趨于理性客觀,繼續(xù)回歸到尋找價(jià)值創(chuàng)造的道路上來(lái)。
那么,何處才是向量數(shù)據(jù)庫(kù)的真正歸屬?對(duì)此,蓋國(guó)強(qiáng)也闡述了自己的理解。他認(rèn)為,向量數(shù)據(jù)庫(kù)應(yīng)當(dāng)向不同行業(yè)的垂直大模型領(lǐng)域發(fā)展,找到更廣闊的應(yīng)用空間。在垂直領(lǐng)域,由于訓(xùn)練數(shù)據(jù)有限,大模型的知識(shí)深度、準(zhǔn)確度和時(shí)效性亟待增強(qiáng)。通過向量數(shù)據(jù)庫(kù),行業(yè)企業(yè)通過結(jié)合大模型和自有知識(shí)、行業(yè)Know How(技術(shù)訣竅),可以更科學(xué)的構(gòu)建垂直領(lǐng)域的AI能力,并且實(shí)現(xiàn)行業(yè)分工,加速AI能力的下沉應(yīng)用。
目前,通用大模型的熱潮正逐漸消退,行業(yè)企業(yè)都在行業(yè)大模型上默默耕耘。為了更好地理解行業(yè)語(yǔ)義和規(guī)范,并執(zhí)行專業(yè)性更強(qiáng)的任務(wù),行業(yè)大模型需要對(duì)垂直細(xì)分領(lǐng)域的數(shù)據(jù)進(jìn)行針對(duì)性的訓(xùn)練和調(diào)優(yōu),這將為向量數(shù)據(jù)庫(kù)發(fā)揮價(jià)值真正找到用武之地。
作者:路沙
編輯:高珊珊
監(jiān)制:劉晶
—End—
聯(lián)系客服