国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
萬字長文|知識圖譜之本體結(jié)構(gòu)與語義解耦——知識建??此蛪蛄?!
阿里妹導(dǎo)讀
本文總結(jié)了我們過去參與的知識圖譜項目中的一般問題和難點,沉淀為體系化的方法論,并針對不同復(fù)雜程度的知識建模問題,進行實操指南。
前言
過去兩年多的時間,針對螞蟻域內(nèi)業(yè)務(wù)場景和知識體系多樣、復(fù)雜,知識建模成本高導(dǎo)致圖譜項目啟動難的問題,我們提出了一種結(jié)構(gòu)與語義解耦的知識建模及schema設(shè)計方法,并在商家圖譜、事理圖譜、保險圖譜等多個項目中進行實踐。相關(guān)簡化schema設(shè)計及幫助對知識的屬性語義化、標準化的能力已經(jīng)集成到蜘蛛知識平臺。本文總結(jié)了我們過去所工作,沉淀為體系化的方法論,并針對不同復(fù)雜程度的知識建模問題,進行實操指南。
說明
本指南在背景部分對知識建模的發(fā)展歷程、相關(guān)問題、螞蟻場景下的挑戰(zhàn)進行書錄說明,如果對這部分已經(jīng)清楚或不感興趣可以跳過。在基礎(chǔ)篇、進階篇、高階篇,針對不同業(yè)務(wù)場景的建模需求,由淺及深講解知識建模的方法和案例,并涉及術(shù)語的解釋。本文檔所提出的建模方案,已經(jīng)在蜘蛛平臺做了對應(yīng)的能力支持實現(xiàn)(或開發(fā)迭代中)。獨立于蜘蛛平臺,讀者也可以按本文的方法論對自己的業(yè)務(wù)問題簡化抽象,實施對領(lǐng)域知識的建模及對已有常識圖譜的復(fù)用。如果你對知識圖片已有一定了解或?qū)嵺`,可跳過基礎(chǔ)篇(基礎(chǔ)篇的“屬性語義標化”依然值得一讀)。
如果你的圖譜,涉及對業(yè)務(wù)類目體系、常識概念(如“行政區(qū)劃”)的應(yīng)用,請仔細閱讀進階篇。
如果你的圖譜,涉及對帶有時空信息的行為事件的表達,或建模場景下的業(yè)務(wù)規(guī)則、專家經(jīng)驗,需要對所定義“概念”的內(nèi)涵和外延有計算機可處理可計算的邏輯語義解釋,高階篇中有你所需知道的一切。
由于高階篇的內(nèi)容有一定的閱讀門檻,如果你的場景只需要描述相對靜態(tài)的事實關(guān)聯(lián),不包含用戶行為、新聞事件的建模,沒有語義推理的需求,可以跳過高階篇,參考基礎(chǔ)篇和進階篇就夠用了。
背景
知識建模是解決將真實世界中的海量信息轉(zhuǎn)化為符合計算機處理模式的結(jié)構(gòu)化數(shù)據(jù),其中包括對真實世界中事物的屬性特征及其關(guān)系的共性的抽象,制定表示的規(guī)范,同時兼顧對常識或領(lǐng)域概念及概念層級體系的語義理解,即體現(xiàn)了對知識的認知過程。
相關(guān)工作
圖1 知識建模方法回顧
表1 知識建模方法對比
方法
特點
關(guān)系型數(shù)據(jù)庫
用實體及其屬性(關(guān)系也體現(xiàn)為外鍵)對數(shù)據(jù)結(jié)構(gòu)化,不包括語義的建模,容易存在大量的數(shù)據(jù)冗余,多跳跨表查復(fù)雜、效率低。
知識工程
本體表示:將知識表示為輯符號的形式,構(gòu)建特定領(lǐng)域概念類別及其層級細分關(guān)系,并用
一階謂詞邏輯、生產(chǎn)式規(guī)則表示領(lǐng)域?qū)<医?jīng)驗,支持知識的符合推理。
框架(frame)表示:強調(diào)將所描述的每類事物都抽象為出特定的slot-value的結(jié)構(gòu)化表示(例如目前百科詞條就是frame表示)。
弊端:人工構(gòu)建成本太高,知識獲取困難。
語義網(wǎng)
出發(fā)點是用文檔中的數(shù)據(jù)關(guān)聯(lián)+邏輯描述,讓計算機能認識和理解世界萬物。語義網(wǎng)發(fā)展過程中先后制定了基于描述邏輯的DAML、RDF、OWL、OWL2等語言,語義完備性的強調(diào),成為邏輯學家的游戲,無法工業(yè)化落地。
知識圖譜
以基本的SPO三元組,表示實體間的事實關(guān)系;但SPO對由多個要素(>2)共同決定的多元關(guān)系表示存在缺陷;圖譜schema的設(shè)計是主觀的,不同圖譜的異構(gòu)導(dǎo)致知識難以對齊融合。
事理圖譜
將事件以及事件之間的關(guān)系抽取并抽象出來,構(gòu)建描述事件之間演化規(guī)律和模式的事理邏輯知識庫。事件有frame框架表示、verb+nound表示等流派。
常識概念圖譜
圍繞常識性概念建立的實體以及實體之間的關(guān)系,幫助自然語言文本的理解。涵蓋“是什么”的概念Taxonomy體系結(jié)構(gòu),“什么樣”的概念屬性關(guān)系,“給什么”的概念承接關(guān)系。
知識超圖
超圖(Hypergraph):就是每一個邊可以包含兩個以上的點所構(gòu)成的圖,解決多元知識的表示。
?
業(yè)務(wù)問題
表2 螞蟻域內(nèi)常見建模問題
建模問題
現(xiàn)有解決方案及不足
商家資產(chǎn)等實體-關(guān)系schema設(shè)計
?
?
●無論是ER建模、本體、rdf、owl,都只是語法定義,不解決“設(shè)計模式”本身的問題。
●schema設(shè)計啟動難,難以決策屬性/關(guān)系的設(shè)計、實體類型的劃分。
●schema的設(shè)計是主觀的,導(dǎo)致不同圖譜間知識的異構(gòu)性(數(shù)據(jù)結(jié)構(gòu)不同),阻礙知識的復(fù)用。
常識、領(lǐng)域結(jié)構(gòu)化語義理解
?
●不同業(yè)務(wù)有各自體現(xiàn)業(yè)務(wù)語義的類目體系,同時螞蟻域內(nèi)的場景也涉及對常識的理解
●傳統(tǒng)的本體建模,在同一個分類體系上,既要對schema的擴展建模,又要對語義上的細分類建模,數(shù)據(jù)結(jié)構(gòu)定義和語義建模的耦合,導(dǎo)致工程實現(xiàn)及維護管理的復(fù)雜性,也增加了業(yè)務(wù)梳理和表示(認知)領(lǐng)域知識的困難。
跨圖譜融合場景
?
?
?
●不同業(yè)務(wù)部門構(gòu)建圖譜時先專注于自身領(lǐng)域的知識建模,但隨著業(yè)務(wù)的開展,需要引入其他領(lǐng)域的知識。
●跨圖譜融合,解決提高數(shù)據(jù)的復(fù)用性、提升數(shù)據(jù)治理能力,減少數(shù)據(jù)冗余重復(fù)及幫助發(fā)掘業(yè)務(wù)價值拓展。
●需要對領(lǐng)域內(nèi)有共有的實體,如:用戶、商家、POI等,提供統(tǒng)一的schema規(guī)范,并對域內(nèi)常識或公用類目,如:行政區(qū)劃、mcc類目等,沉淀為通用語義資產(chǎn)。
保險、黑產(chǎn)等業(yè)務(wù)邏輯表達需求
?
?
●保險產(chǎn)品運營、保險健告、黑產(chǎn)洞察等場景有著豐富的業(yè)務(wù)邏輯、業(yè)務(wù)規(guī)則沉淀
●需要支持業(yè)務(wù)規(guī)則、專家經(jīng)驗的形式化表達及推理能力
●一階謂詞、dsl等,對用戶有門檻,業(yè)務(wù)規(guī)則較多時,需要有更簡潔、快速的對規(guī)則建模的方法
用戶行為建模場景
?
?
?
?
多元關(guān)系建模問題
●用戶行為、金融事件、業(yè)務(wù)狀態(tài)流,都可以抽象為多元時空行為事件建模
●spo三元組表達多元關(guān)系是有損的
●超圖結(jié)構(gòu)的理解,對于非算法用戶有學習門檻,難以直接可視化
●行為時間事件之間,本身存在著時序、因果、共現(xiàn)的等關(guān)系
事理圖譜及事理關(guān)系建模
?
?
已有的研究或工作,都只解決了事件圖譜、事理(概念)圖譜或事理常識中特定一類的表示,螞蟻場景中需要對從實例到概念,從事實到常識的整體架構(gòu)
●每種事件的實例需要frame表示
●事件概念體系需要本體表示
●事件實例之間的事實關(guān)系需要spo表示
●事件概念之間的順承、因果等需要邏輯表達
?
方案概述
本體是偏哲學的學術(shù)概念,指“特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(formal representation)”。在知識工程、語義網(wǎng)時代,都用本體建模指代知識建模,利用rdf、owl等規(guī)范的語言,核心定義嚴格完備的邏輯。但這套方法不適合大數(shù)據(jù)時代知識的多樣性、跨領(lǐng)域復(fù)雜性,無法滿足數(shù)據(jù)的便捷迭代生產(chǎn)。
我們認為,“本體”在知識圖譜建模階段,存在誤用。換言之,知識圖譜建模,不需要“本體”,而應(yīng)該關(guān)注數(shù)據(jù)結(jié)構(gòu)上的“元數(shù)據(jù)”的定義,以及知識語義關(guān)聯(lián)的標簽概念體系及概念網(wǎng)絡(luò)。
基于MOF四層元模型框架,我們提出知識認知建模方法論,串聯(lián)了知識建模、知識生產(chǎn)、知識管理應(yīng)用的全生命周期流程。其中,元元概念指所定義的建模規(guī)范,如本文提出的MOF建模標準中的實體、概念、關(guān)系等建模要素就是元元概念,“元概念”對應(yīng)定義實體類型的schema,是對擁有同樣數(shù)據(jù)結(jié)構(gòu)的知識的結(jié)構(gòu)化定義,如“商家schema”、“事件schema”;“概念”是對實體的語義細分,如“螞蟻商家”、“外賣商家”,“白酒板塊事件”、“螞蟻高管變化事件”;實例對應(yīng)于現(xiàn)實中一個具體的事實,一般是ID化的,如id為2088xxxx的A空間肯德基商戶。
圖2 MOF知識建模方法?
提供統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)抽象及本體語義建模方法論,規(guī)范圖譜“設(shè)計模式”,降低知識認知的主觀偏差解決schema設(shè)計難、啟動成本高問題;
提出概念語義建模框架,將知識的結(jié)構(gòu)化表示與語義常識建模解耦,并用等價謂詞表達式支持概念的邏輯表示和推理,降低認知復(fù)雜度和工程實現(xiàn)難度;
定義核心實體schema及沉淀通用語義概念體系,幫助解決多元異構(gòu)知識的跨域融合;
定義多元關(guān)系、邏輯規(guī)則、事理關(guān)聯(lián)的建模方法,滿足復(fù)雜業(yè)務(wù)場景知識表達的需求。
?
基礎(chǔ)篇·實體關(guān)系設(shè)計
解決問題
解決數(shù)據(jù)的結(jié)構(gòu)化表示,包括實體各屬性字段的規(guī)范定義,及設(shè)計實體間的關(guān)系,以便將數(shù)據(jù)最終構(gòu)建為有別于傳統(tǒng)數(shù)據(jù)表的圖結(jié)構(gòu)形式,便于基于路徑的多跳關(guān)系查找。
適用場景
業(yè)務(wù)場景關(guān)注于靜態(tài)的,體現(xiàn)物理世界或業(yè)務(wù)流中客觀存在的“事實知識”;
已有結(jié)構(gòu)化數(shù)據(jù)為主(實體表、關(guān)系表、用戶行為數(shù)據(jù)等)的數(shù)據(jù)資產(chǎn);
已有數(shù)據(jù)資產(chǎn)及業(yè)務(wù)場景,能夠抽象出傳統(tǒng)ER關(guān)系圖的數(shù)據(jù)建模,可以直接套用實體-關(guān)系-屬性的建模范式;
業(yè)務(wù)對實體的類型存在劃分,如對用戶的細分或?qū)ι虘?、門店的細分;這種細分類是有限的(一般只有兩三種),每種細分有特定的屬性(如線下門店才有poi)。
業(yè)務(wù)對實體特定屬性有枚舉描述,如“商戶評級 = [S, A,B,C]”,業(yè)務(wù)應(yīng)用只需要使用確定值將數(shù)據(jù)查出來,但不需要基于屬性傳播。
術(shù)語定義
Schema
Schema是知識的“元數(shù)據(jù)”表達方式,定義了知識的概念的屬性,關(guān)系,屬性及約束。主要實現(xiàn)了實體的結(jié)構(gòu)化和實體間的關(guān)系的定義。
實體
物理世界或數(shù)字世界存在的事物是一個實體,實體對應(yīng)于數(shù)據(jù)表中的一行記錄。
實體類型,即實體的“schema”。它是對具有共同數(shù)據(jù)結(jié)構(gòu)(特征)的一類數(shù)據(jù)實例的“元數(shù)據(jù)”模式定義。因此每一個實體類型,都有自身特定的schema。同時,實體類型存在上下位關(guān)系,通過繼承,下位類擁有上位類已定義的屬性和關(guān)系及其約束。在知識圖譜平臺中,實體類型用于對具有共同數(shù)據(jù)結(jié)構(gòu)的個體進行分組管理??梢詫嶓w類型理解為,對知識結(jié)構(gòu)化表示的語法規(guī)范。如下表所示,是對自然人的schema定義。
自然人模型(Person)示意
屬性英文名
屬性中文名
屬性類型
屬性值
是否必填
id
id
String
12345xxx
name
姓名
String
張三
certId
證件號
String
330121xxx
certType
證件類型
枚舉類型
身份證
birthday
出生日期
時間類型
20230215
gender
性別
String
occupation
職業(yè)
String
白領(lǐng)
......
......
......
......
......
?
關(guān)系
描述實體-實體間的關(guān)聯(lián)。在基礎(chǔ)的實體關(guān)系設(shè)計時,只考慮滿足SPO(Subject-predicate-Object)表示的二元關(guān)系,既兩個實體間確定的關(guān)系。如定義一個關(guān)系:公司-法人->自然人,“法人”是關(guān)系謂詞,關(guān)系主體是“公司”這種實體類型,客體是“自然人”;注意,關(guān)系是有向的,則一個“公司”的實例擁有一個出邊到確定的“自然人”,且該自然人是這個公司的法人。
自然人相關(guān)關(guān)系定義
Subject
Predicate
Object
是否唯一
Company
法人
Person
Person
好友關(guān)系
Person
Person
夫妻關(guān)系
Person
Person
居住地
POI
......
......
......
......
屬性語義標化
屬性 vs 關(guān)系
在實體-關(guān)系建模時,對于實體的特性字段,到底應(yīng)該建模為屬性,還是應(yīng)該將特征key構(gòu)建為關(guān)系,特征值(value) 建模為實體,設(shè)計者經(jīng)常陷入兩難的抉擇。例如:
在對商戶建模的典型場景,一般商戶會有關(guān)聯(lián)的PID,在關(guān)系型數(shù)據(jù)表(odps)中,PID是一個id字段,pid本身也沒有特別的屬性,為了挖掘同pid的商戶、發(fā)現(xiàn)用戶對商戶的消費行為,pid應(yīng)該建模為實體,但Pid沒有任何屬性,這樣做合適嗎?
在例如對于商戶的發(fā)貨地址、所在省市區(qū)等特征,在數(shù)據(jù)表中一般是個string。但為了同地址、同地區(qū)的發(fā)現(xiàn),甚至特定業(yè)務(wù)場景本來就有地址實體庫。那么就需要對地址屬性建模為關(guān)系了。但這帶來兩個問題:1.商戶的發(fā)貨地址、用戶的收貨地址可能存在變動,特別是用戶收貨地址,在圖譜中維護時,需要在新增地址時,把歷史地址邊刪除;2. 對于所屬省、所屬城市、所屬區(qū)等,若都建為實體拉邊,將造成“熱點”(即某個點有巨量的邊),為路徑推理、采樣帶來困難。?
?
屬性:易維護(值覆蓋)、存儲量小、不傳播,難以發(fā)現(xiàn)關(guān)聯(lián)(屬性值相同的實體并沒有顯式的關(guān)聯(lián))
關(guān)系:有維護成本(修改需要刪邊再拉邊)、儲存量大、可傳播(可加強圖結(jié)構(gòu),發(fā)現(xiàn)節(jié)點間的共邊關(guān)系)、同關(guān)系類型的邊過多(例如,明星的社交關(guān)系,作為關(guān)注者只有幾百條邊,作為被關(guān)注者有千萬級的邊),對圖學習的關(guān)系采樣帶來干擾(對圖譜中的“熱點”,若采樣策略為不限定邊類型但對鄰邊限定數(shù)量隨機采樣時,可能采到的都是數(shù)量大但重要性不大的點)
屬性標化
為解決上述的屬性/關(guān)系難以抉擇,及提高知識管理的效率及降低存儲壓力,我們提出一種基于屬性語義標化的建模方法,并在蜘蛛產(chǎn)品功能上已經(jīng)交付可用。?
??
屬性語義標化能力體現(xiàn)為:
用戶在實體建模時,不必糾結(jié)實體特征需要定義為屬性or關(guān)系,統(tǒng)統(tǒng)建模為屬性;
在屬性類型選擇時,除了int、float、text三種基本類型外,提供具有語義傳播能力的語義類型(如內(nèi)置的概念類型、內(nèi)置的標準屬性類型、用戶自定義的實體類型或概念類型等)
在實例數(shù)據(jù)生產(chǎn)時,用戶當作屬性維護(如屬性一樣做知識導(dǎo)入的字段映射,屬性值修改直接覆蓋
根據(jù)所選擇的屬性語義標化類型,根據(jù)所填充的屬性值語義(以文本匹配、id匹配的方式)系統(tǒng)自動構(gòu)建“虛擬邊”;
系統(tǒng)自動創(chuàng)建及維護的虛擬邊,在查詢效率、圖算法鄰邊采樣時,與用關(guān)系建模、關(guān)系導(dǎo)入生產(chǎn)的物理邊效果一致;
當語義屬性為多值時(如一個user擁有多個手機號碼),用英文逗號分割。注意:對于實體的某特征,值是有限個(一般<10,如關(guān)聯(lián)郵箱、所屬業(yè)務(wù)類目、銀行賬戶等),可以用屬性語義標化建模來簡化知識的管理維護。當特征值數(shù)量極大時(如:用戶-消費->小程序id),依然建議使用關(guān)系建模。
表3 屬性語義標準化類型
屬性類型
類型細分
屬性定義
用法及示例
內(nèi)置類型
概念類型
通識概念
一個描述常識分類體系的樹狀知識庫,現(xiàn)覆蓋17個大類的2W+常識概念。
當實體的類型需要細粒度的分類,且該實體的細分類可以用常識知識體系描述時,定義描述實體細分類的屬性(如:對于BaikeEntry定義了子類型 subType),并將屬性類型選擇為“內(nèi)置類型-
概念類型-CKG.AntTermType”。
知識生產(chǎn)時,對實體實例的subtype賦值為常識知識樹上任意的概念的文本名稱,則平臺自動將該屬性轉(zhuǎn)為一個 BaikeEntry-subtypestd->常識概念 的邊。
則細粒度一樣的 BaikeEntry在圖結(jié)構(gòu)上能夠擁有共同的概念節(jié)點鄰居(如姚明、易建聯(lián)都是“籃球運動員”)
?
?
行業(yè)類目
●MCC類目
●POI類目
●門店類目等
●蜘蛛平臺上集成維護了螞蟻域內(nèi)常用的MCC2.0、高德POI類目和門店類目
●以往對相關(guān)商戶、門店、POI/AOI實體建模時,業(yè)務(wù)往往用多個字段維護各級類目的code和名稱
●現(xiàn)在對實體-特定類目的信息維護,只需定義一個屬性(如定義一個“所屬類目”屬性),并將屬性類型選擇為“內(nèi)置類型-概念類型-具體的某個類型體系”。
●知識實例生產(chǎn)時,將屬性值填充為類目的code或名稱(一般是葉子節(jié)點的類目),則平臺能力可以追溯類目的上級路徑,并自動拉邊,關(guān)聯(lián)具有同類目的實體實例。
●同時,平臺提供存量遷移的能力,對于歷史遺留的相關(guān)屬性,也能夠遷移為語義標化屬性,如圖為對螞蟻POI庫進行的遷移維護。
?
?
內(nèi)置類型
標準語義類型
(編碼id相關(guān))
虛擬地址
●郵箱
●網(wǎng)址等
●手機號碼
●Mac地址
●國內(nèi)電話號碼
●……
這類屬性標化類型是指,用戶選擇特定的“內(nèi)置類型-標準語義類型-特定可傳播的標準id類型”,則實例數(shù)據(jù)生產(chǎn)時,屬性字段值填寫對應(yīng)的id、url、電話號碼等(多值用英文逗號分隔),平臺提供:
●正則檢測:平臺會對郵箱、手機號碼、國內(nèi)號碼、銀行賬戶、2088賬戶等,對所填編碼的邏輯格式進行正則檢測
●ID鏈指:平臺會對每個語義類型下,每個存在的id構(gòu)建一個虛擬節(jié)點,并按照實例知識中實體-id的屬性值,構(gòu)建實體與該id所屬虛擬節(jié)點的邊關(guān)系;這項機制能夠幫助用戶發(fā)現(xiàn)及可視化同id、同電話號碼、同郵箱的實體。
?
?
?
ID屬性
●身份證號碼
●2088賬號
●支付寶PID
●銀行賬戶
●螞蟻POI
●……
內(nèi)置類型
標準語義類型
(時間相關(guān))
時間戳
1665476056
時間標準化及時間的計算比較
時間區(qū)間
[起始時間,結(jié)束時間]
時間戳是否落入時間區(qū)間的檢測,蜘蛛能力待開發(fā)
時間間隔
●一天
●一年
●24小時等
判斷兩個時間戳是否滿足時間間隔,蜘蛛能力待開發(fā)
內(nèi)置類型
標準語義類型
(空間類型)
行政區(qū)劃
國家-省-市-區(qū)四級(目前僅支持中國行政區(qū))
●蜘蛛平臺集成了四級標準行政區(qū)劃類目
●以往業(yè)務(wù)為了表示結(jié)構(gòu)化的標準多級地址,一般會構(gòu)建國家編碼/國家、省編碼/省、市編碼/市、區(qū)編碼/區(qū),共8個屬性字段,存在著屬性的冗余儲存。且plain text的文本屬性,不利于快速的發(fā)掘同地區(qū)的實體。
●利用語義標化,將表達實體行政區(qū)域特性的屬性,類型選擇為“內(nèi)置類型-概念類型-行政區(qū)劃”,數(shù)據(jù)生產(chǎn)時,將屬性值填充為能夠識別到的最細粒度的行政區(qū)劃單位(平臺提供兜底默認算子,幫助地址的結(jié)構(gòu)化理解及標準化)
●通過語義標化鏈指能力,對于填充的行政區(qū)劃屬性值,其上級類目是可追溯的(如所在區(qū)縣為“西湖區(qū)”時,西湖區(qū)-位于->杭州市-位于->浙江省-位于->中國,是已維護在“行政區(qū)劃”類目樹上的)
●平臺能夠自動拉邊,維護實體(如poi、aoi、門店等)到特定省、市、區(qū)縣的關(guān)系,并實現(xiàn)不同粒度下所屬行政區(qū)劃的查詢。
?
?
?
經(jīng)緯度坐標點(Position)
(經(jīng)度,緯度)
同POI計算發(fā)現(xiàn)(球面距離小于epsilon),蜘蛛能力待開發(fā)
?
經(jīng)緯度范圍
(Position1,Position2)地理區(qū)塊四邊形(左上-右下坐標)
判斷一position是否在該范圍內(nèi),蜘蛛能力待開發(fā)
自定義屬性類型
實體/概念
平臺內(nèi)置的概念類目體系、可傳播的語義屬性類型,無法完全滿足特定業(yè)務(wù)的建模需要;因此,用戶可以將屬性類型賦值為“內(nèi)置類型-自定義屬性類型”,則在高級配置頁面,選擇將屬性標準化為自定義的一個實體類型(默認用id鏈指)或概念類型(默認用概念名稱鏈指)。
如果所示,對于“公司事件”實體,擁有兩個語義標準化屬性的應(yīng)用——1.公司id,選擇為“工商機構(gòu)”實體,則能夠利用平臺id鏈指能力自動拉邊到確定的“工商機構(gòu)”實例;2.事件類型標簽,定義為“概念事件”(業(yè)務(wù)自定義的一套為金融事件分類體系,概念建模詳見進階篇),則能夠利用平臺的概念標化鏈指能力自動拉邊掛載到“概念事件”樹。
?
?
?
其他待開發(fā)
的屬性
數(shù)量類型
數(shù)額
●度量/指標類型+數(shù)值表示
●對度量/指標類型標準化
●同一數(shù)量類型的比較
●區(qū)間數(shù)值合法性檢驗
指標
區(qū)間數(shù)值屬性
●年齡
●年份
建模步驟及案例
實體關(guān)系設(shè)計,是為具有同樣結(jié)構(gòu)化特性(即有同樣的特征要素)的實體定義的實體類型的schema,并建立實體類型間的關(guān)系。實體schema包含實體類型的命名、屬性定義、屬性類型及屬性值的約束,關(guān)系schema約束關(guān)系主體和關(guān)系客體的實體類型。我們推薦在啟動一個新的圖譜項目時,按照以下步驟進行實體-關(guān)系建模:
1. CoreKG schema復(fù)用
schema的設(shè)計具有主觀性,為了消除這種主觀偏差,特別是降低跨圖譜知識融合的復(fù)雜性,我們從過去的業(yè)務(wù)圖譜設(shè)計經(jīng)驗中,總結(jié)了螞蟻場景下常見的實體類型schema,并商家到corekg核心圖譜;當業(yè)務(wù)涉及到這些實體數(shù)據(jù)時,可以直接對實體schema及數(shù)據(jù)引用/復(fù)用,減少重復(fù)建設(shè),快速啟動新的圖譜項目。
如果為了業(yè)務(wù)安全/數(shù)據(jù)隔離等的考慮,業(yè)務(wù)需要自定義及構(gòu)建自己的實例數(shù)據(jù),我們也推薦對于corekg已有的實體類型,用戶可以對其schema設(shè)計,特別是屬性的定義和命名參考借鑒。
圖3 corekg核心實體定義?
2. 實體關(guān)系設(shè)計
參考corekg中已有實體的schema,針對業(yè)務(wù)問題及數(shù)據(jù),構(gòu)建業(yè)務(wù)所需實體定義。
比如前文所述對螞蟻用戶定義的自然人模型,包括"姓名(name)"、"年齡(age)"、"身份證號(certNo)"、"家庭住址(homeAddr)"等基礎(chǔ)屬性,此外,定義"Person-好友關(guān)系-Person"、"Person-夫妻關(guān)系-Person"等關(guān)系。
自然人模型(Person)示意
屬性英文名
屬性中文名
屬性類型
屬性值
是否必填
id
id
String
101xxx
name
姓名
String
張三
certId
證件號
String
330121xxx
certType
證件類型
枚舉類型
身份證
birthday
出生日期
時間類型
20230215
gender
性別
String
occupation
職業(yè)
String
白領(lǐng)
......
......
......
......
......
?
?
不同業(yè)務(wù)因領(lǐng)域模型不同會有自己的業(yè)務(wù)知識,比如同樣一個用戶,由于歸屬的業(yè)務(wù)不同,在螞蟻會存在"支付寶用戶(AlipayUser)"、"財富用戶(FortuneUser)"、"網(wǎng)商用戶(MyBankUser)"、"保險用戶(BaoxianUser)"等用戶模型,雖然這些用戶模型背后指向的是同一個自然人模型,但在不同業(yè)務(wù)域有新增的屬性字段,則利用schema的繼承復(fù)用已定義的屬性/關(guān)系約束,并在此基礎(chǔ)上擴展新的特性。
支付寶用戶模型(AlipayUser)示意
屬性英文名
屬性中文名
屬性類型
屬性值
是否必填
id
AlipayId
編碼類型
2088
name
姓名
String
張三
memLevel
會員等級
枚舉類型
黃金會員
shoppingPref
購物偏好
物品概念
小吃
......
......
......
......
......
?
用戶統(tǒng)一模型示意
對于不同業(yè)務(wù)實體歸屬同一主體的情況,一是可以在Schema層歸類到統(tǒng)一實體模型上(深度繼承),二是可以在數(shù)據(jù)層在相同實例之間增加isA或sameAs謂詞關(guān)系(實體融合),達到主體分類一致的目的。
3. 語義標準化
參考“屬性語義標化”章節(jié)的內(nèi)容,優(yōu)化屬性/關(guān)系的定義,將可以標化的屬性選擇為標準屬性類型,對于適用id鏈指/概念鏈指的關(guān)系,轉(zhuǎn)化為語義屬性。例如,由于夫妻關(guān)系是唯一的,則可以將夫妻關(guān)系建模為語義屬性。而朋友關(guān)系是多對多的,一個人可能有上百個朋友,因此依然用關(guān)系建模朋友關(guān)系。
進階篇·概念語義建模
解決問題
在知識圖譜中,除了知識的元數(shù)據(jù)定義(即schema),通用常識和領(lǐng)域知識的語義關(guān)系、常識/業(yè)務(wù)類目的分類體系,體現(xiàn)了對語義的認知。為了將語義建模與知識的結(jié)構(gòu)化表示解耦,我們提出的方案是用“概念語義建?!眮韺ΤWR概念及常識關(guān)系建模,對特定領(lǐng)域知識的認知體系和經(jīng)驗規(guī)則建模。
如圖4所示,在概念建模中,構(gòu)建對常識/特定實體類型的分類體系。Root節(jié)點,代表“常識知識樹”的根結(jié)點,在這棵概念樹上,我們預(yù)定義了17種實體的分類體系,如“角色”、“物體與物品”、“組織機構(gòu)”、“品牌”、“事件”都是一個“元概念”(即一個分類體系的根結(jié)點),每個元概念作為起點的子樹,定義了對該類實體的語義細分,目前螞蟻知識樹上已經(jīng)有超過2W+的節(jié)點。此外,在常識概念圖譜中,我們還集成了高德poi類目、意圖圖譜、mcc2.0行業(yè)類目、行政區(qū)劃概念樹、hownet義原語義網(wǎng)絡(luò),作為跨領(lǐng)域可插拔的常識語義認知系統(tǒng),幫助各個業(yè)務(wù)圖譜深度實體類型理解及屬性語義標準化。
例如對于圖中所示的描述服務(wù)內(nèi)容結(jié)構(gòu)化理解的領(lǐng)域圖譜,在領(lǐng)域圖譜中,小米10-手機類型->“智能機”,“智能機”是結(jié)構(gòu)化抽取到的spo mention,通過概念鏈指標準化到知識樹上的概念“智能手機”,則通過知識樹的可追溯鏈路,能夠知道小米10同時也屬于手機、數(shù)碼產(chǎn)品、電子電器產(chǎn)品。同時,為了保障語義的內(nèi)聚性,盡量為用戶提供簡潔的描述并加強信息間的關(guān)聯(lián),“概念”也提供對關(guān)系謂詞(即屬性名稱、關(guān)系名稱)標準化的能力。如“所屬公司”這個謂詞,其實約束了尾節(jié)點的實體是一個公司。
圖4 概念語義建模
適用場景
除了將圖譜當作一個能具備增刪改查功能的數(shù)據(jù)庫,還希望對業(yè)務(wù)邏輯、領(lǐng)域經(jīng)驗進行管理;對文本屬性,不只是作為“符號”,還希望能理解文本背后的語義,挖掘知識間的隱含關(guān)聯(lián);
業(yè)務(wù)上對實體定義了非常詳細的分類類目,一般這種類目是以樹狀形式組織的;
實體的屬性字段的值是行政區(qū)劃、職業(yè)、行業(yè)類型等常識術(shù)語,并希望這些屬性在圖上是“可傳播”的(即通過這個值,可能關(guān)聯(lián)擴散到其它擁有同樣值的屬性節(jié)點),這些常識術(shù)語本身有層級蘊含關(guān)系(如:位置在西湖區(qū),則一定也位于杭州市)
業(yè)務(wù)定義的類目,不僅僅是一個用來區(qū)分實例的標簽值,還存在背后的定義邏輯(如:活躍人群 = 過去30天支付寶訪問超過1次的user)
希望表達領(lǐng)域常識(程序員有夜間出行偏好)并應(yīng)用,而不是記錄具體實例的事實(行為事實:小螞在x年x月x日晚上21:00在A空間打車;偏好事實:小螞的“偏好屬性”字段被打上了“夜間出行偏好”)。
術(shù)語定義
概念
把所感知的事物的共同本質(zhì)特點抽象出來,加以概括,是自我認知意識的一種表達,形成概念式思維慣性。概念的意思:思維的基本形式之一,反映客觀事物的一般的、本質(zhì)的特征。
概念建模,期望通過對實體分類體系和基于common sense的通用語義元素的定義,并以樹狀層級體系進行組織,自頂向下的體現(xiàn)實體語義的細分。其中我們將滿足以下任意一個特性的短語定義為一個概念(concept)。
?
圖5 概念是什么
元概念
meta-concept,即概念的概念,在蜘蛛上是指用來組織一個特定概念體系的規(guī)范。元概念定義,就是根據(jù)對特定領(lǐng)域/業(yè)務(wù)的認知或常識,定義該類型概念的結(jié)構(gòu),約定概念的屬性、層級結(jié)構(gòu)及表達層級結(jié)構(gòu)的語義謂詞。
當我們需要在語義上對實體類型細分時,實體類型的schema可以對應(yīng)一個元概念,以表現(xiàn)對該類型實體類型的分類體系。例如圖四中的“角色”、“物體與物品”、“組織機構(gòu)”、“品牌”、“事件”都是“元概念”,定義了對特定實體的語義細分體系。
概念 VS. 實體
表4 概念和實體的區(qū)別
概念
實體
什么是概念
●概念是對具有同樣特征的實例的抽象,是語義上/認知上能夠被“歸類”為同一類型的實例的集合。
●概念是符號化的,但領(lǐng)域內(nèi)的人對它這個符號的語義是有共識的。
●概念帶有領(lǐng)域/業(yè)務(wù)/常識的主觀或經(jīng)驗,是人為定義的,概念的內(nèi)涵/語義是相對恒定的。
●概念的符號體現(xiàn)了自身的語義,概念之間構(gòu)建的語義關(guān)系邊 (白酒板塊事件 -涉事產(chǎn)品-> 白酒,白酒-原料->糧食,豬瘟疫情事件-影響->豬肉價格上漲,形成了描述領(lǐng)域常識的語義網(wǎng)絡(luò)。以上舉例的三元組中的S和O都不是具體的、特定的實例,而是對同一類實體,及同類實體所具備共有特性的概括)
○可以先簡單粗暴的認為,“概念”是沒有“屬性”的(除了編碼、別名、描述)
○事件抽取出的mention,無法與實體庫對齊的文本類型要素(非時間、非數(shù)值),都可以認為是概念
●實體類型,是對擁有同樣數(shù)據(jù)結(jié)構(gòu)/論元要素的數(shù)據(jù)的定義
●實體實例,是id化的,唯一存在的實例。
●實體是客觀的存在,實體的特征是動態(tài)變化的。
●實體擁有特異的屬性/關(guān)系定義。例如:某個事件的發(fā)生事件、地點、主體、客體;某部手機的型號、屏幕、尺寸、內(nèi)存等參數(shù)。
什么應(yīng)該被定義為概念
●類目概念:對具有同樣特征的一類實體的語義抽象,可以來自業(yè)務(wù)類目、領(lǐng)域的taxonomy,比如POI類目、MCC類目等。
●常識概念:在特定領(lǐng)域(元概念)下,人們有共識的無歧義短語,比如杭州市、手機、中秋節(jié)。
●原子概念:一般存在于L0-L2級的概念,概念名是不可拆分的表達完整語義的核心詞,一般直接來源于領(lǐng)域常識術(shù)語。如:產(chǎn)業(yè)鏈事件、芯片、有色金屬。業(yè)務(wù)類目、領(lǐng)域的分類體系(職業(yè)分類、企業(yè)分類、品類、產(chǎn)業(yè)分類、NER_Label、實體類型、屬性名稱、邊關(guān)系類型、人群標簽、星座、血型、人種、民族、學歷、獎項、各種title,都是概念?!?div style="height:15px;">
●復(fù)合概念:在一個核心詞概念上增加語義修飾限定(該限定可以是概念, 也可能代表特定實例),例如:“白酒”+“產(chǎn)品價格上漲” = 白酒產(chǎn)品價格上漲 “杭州” + “互聯(lián)網(wǎng)”+“上市公司” = 杭州互聯(lián)網(wǎng)上市公司 "腰封偏好" +"高日活"+ "支付寶賬戶" = 高日活的腰封偏好支付寶賬戶“阿里巴巴”+“公司” = 阿里系公司“華為”+“手機” = “華為手機”復(fù)合概念 可以拆解為等價的謂詞邏輯表達式(見后文)
●品牌不是“概念”,它是特定廠商定義的一個IP,本身不具備認知的層級體系。如果品牌有類目體系,則品牌類型是概念。
●物理世界真實存在的一個個體,螞蟻內(nèi)部特定的一個賬戶、一個商家、一個供給內(nèi)容,是實例。
概念能夠表達那些語義
1.對實體進行細分類,完成schema無法體現(xiàn)的更詳細的語義
●通過邏輯表達式定義的規(guī)則,自動完成“復(fù)合概念”的生成及幫助推理屬于該集合的實例
2.提供屬性的標準化及語義化,則屬性值不再只是一個plain text,而是依靠概念語義網(wǎng)絡(luò),可關(guān)聯(lián)可追溯的子圖。
●對多跳上下游產(chǎn)業(yè)鏈關(guān)系、上下位產(chǎn)品品類的召回進行處理
●實體類型的schema是在知識管理的角度,來選則粗粒度的“類型”。
?
建模步驟及案例
我們以事理圖譜的概念語義建模為例,介紹用戶自定義概念體系并使用概念為實體做細分類的方法。
事件體系語義建
在事理圖譜場景下,需要金融事件相關(guān)的各種事件類型建模,包括宏觀的行業(yè)時間、國家政策事件,也有微觀的局部地區(qū)的牲畜疫情事件、個股漲跌事件、公司事件;宏觀事件可能影響微觀事件,微觀事件的發(fā)生可能引發(fā)另一個微觀事件。
金融場景下包含的事件類型十分龐大,每種事件在業(yè)務(wù)上所關(guān)注的事件要素是不同的。同時,業(yè)務(wù)會對同一大類的事件繼續(xù)語義細分以便套用業(yè)務(wù)邏輯去做風險預(yù)警、評級,例如圖6所示,公司事件下,會細分出工商信息變更事件、高管變動事件等,高管變動事件下又有實控人變更、股東跑路、實控人涉訴等。當事件類型語義細化到很細節(jié)的粒度時,不再涉及事件要素的新增(即元數(shù)據(jù)結(jié)構(gòu)上沒有變化)。
圖6 事件概念體系示意(局部)
?
因此,如圖7所示,在知識建模時,將事件的結(jié)構(gòu)化表示所需要的schema定義,和業(yè)務(wù)上的事件認知分類體系解耦為兩個獨立的樹狀體系,再使用標準謂詞、邏輯規(guī)則等構(gòu)建結(jié)構(gòu)與語義的對應(yīng)關(guān)系。具體步驟如下:
圖7 事件概念體系構(gòu)建及管理?
1.定義實體類型schema。
對于事件的結(jié)構(gòu)化表示,先構(gòu)建一個定義所有事件共有事件要素的schema:Event。
2.建立實體類型對應(yīng)的元概念。
實體類型的schema定義,只是對結(jié)構(gòu)化表示的約束。為了體現(xiàn)對實體的語義的認知,用概念建模來定義實體的細分類體系。對于事件的分類體系,定義EventConcept作為元概念。并在這個元概念下,類似決策樹一樣,根據(jù)特定場景/業(yè)務(wù)最重要、最有區(qū)分度的特征為度,按照樹狀層級,細分出細粒度層級的概念。
在元概念上,可以定義概念的屬性,如概念別名等。元概念上還需要定義該概念體系的謂詞,用于解釋這顆概念樹上下層級概念間的語義關(guān)系。一般默認為“isA”,體現(xiàn)上下位關(guān)系。但對于行政區(qū)劃等類目,需要重寫為locatedAt等特定謂詞,以更明確、恰當?shù)谋砻娓拍顦涞慕M織形式。
3.為實體類型schema設(shè)置專屬分類體系。
belongTo是蜘蛛平臺的保留謂詞,用于為一個實體類型schema設(shè)置專屬的概念分類體系。例如,建立Event-belongTo->EventConcept的關(guān)系,則定義了Event(及其子類型)的實例,由EventConcept為_Root的概念體系做細分類。
4.schema的結(jié)構(gòu)細化
由于不同事件可能需要抽取和結(jié)構(gòu)化的特有的事件要素,則通過schema的繼承,來定義一個子類的事件schema及增加要素定義。如companyEvent增加了“涉事公司”,LivestockEpidemicEvent增加了涉事牲畜、牲畜死亡規(guī)模、疾病類型等要素。對于schema上定義的屬性,能夠進行標準化或概念化的事件要素,屬性類型選擇為語義類型(需要提前定義概念體系)。
本方案所體現(xiàn)的建模方式是強schema約束(為了便于知識的規(guī)范管理)及語義標準化的。當細粒度的分類不涉及事件要素的新增時,則在對應(yīng)概念體系上增加概念事件來完成對語義的細化。如在圖7的概念樹上,對牲畜疫情事件,繼續(xù)細化為豬疫情事件、禽流感疫情事件等。
5.實例生產(chǎn)
實例生產(chǎn)有兩種模式:1.非結(jié)構(gòu)化數(shù)據(jù):基于schema約束的信息抽取,并將抽取到的信息標準化(依賴實體鏈指、概念鏈指)后,對schema定義的實體要素(屬性、關(guān)系)進行填充,完成實例知識的結(jié)構(gòu)化;2.結(jié)構(gòu)化數(shù)據(jù):這類數(shù)據(jù)一般已經(jīng)是在odps表中,自身是有schema的,則對odps表和實體類型schema的知識結(jié)構(gòu)映射,完成數(shù)據(jù)實例化及入圖譜。
如圖8所示,描述了受schema結(jié)構(gòu)約束和最終語義標準化的事件實例的生產(chǎn)過程推演?
6.語義網(wǎng)絡(luò)構(gòu)建
每個概念體系本身是樹狀結(jié)構(gòu),但概念之間還可能存在豐富的常識語義關(guān)聯(lián),概念建模也包含著對常識/領(lǐng)域語義網(wǎng)絡(luò)的構(gòu)建。如圖7中,在事件概念樹上,選擇將“豬口蹄疫事件”的上級概念設(shè)置為“豬疫情事情”;同時“豬口蹄疫事件”也是一種“口蹄疫事件”,則定義事件概念間的subtype語義關(guān)系(與實體關(guān)系建模類似的方式),來構(gòu)建細粒度語義概念與其關(guān)聯(lián)的其他概念間的關(guān)系。
圖8中,白酒-原料->小麥,白酒-上游產(chǎn)業(yè)->糧食,也體現(xiàn)了概念間的常識語義關(guān)系建模。
事件生產(chǎn)鏈路
1.使用一個統(tǒng)一的模型/框架進行所有類型事件的抽取
2.抽取完成,相關(guān)事件要素及所屬的粗粒度事件類型(schema類型)變成已知
3.拿到schema后,完成抽取的槽位跟schema定義的論元的映射,則該槽位值是實體(及其EntityType)還是概念(及其元概念)是已知的
4.根據(jù)schema映射,進行相關(guān)要素的實體鏈指、掛念掛載
5.完成要素的標化及鏈指后,用規(guī)則謂詞推理其belongto的概念事件類型
6.最終完成子圖構(gòu)建(圖中圍繞實例事件e1、e2及其關(guān)聯(lián)實體、概念組成的子圖)
圖8 強schema、強語義約束的事件實例生產(chǎn)
通用常識語義建模
基于對螞蟻內(nèi)部常見主體及其相關(guān)類目、屬性字段的分析,并參考百科詞條分類體系、Hownet、termtree體系,我們定義了覆蓋17個“元概念”類型的常識知識樹的主干框架。
L0-元概念(概念類型)
對應(yīng)為實體類型。例子:品牌、術(shù)語、事件、組織機構(gòu)。即一個特定的schema實體類型,對應(yīng)擁有一個概念類目體系,則L0為該體系的root節(jié)點。
L1-概念分型的模式
決定了概念類目細分的方式。這里就像是決策樹一樣,先選擇最有區(qū)分度、子概念類型不重合的方向細分。在L1定義的概念,是概念類型在不同緯度、行業(yè)、領(lǐng)域、應(yīng)用場景的類目樹的根節(jié)點。
L2-類目細分
L2-Ln,為概念類型在確定子領(lǐng)域/場景下的細分。
在螞蟻常識知識圖譜,我們集成了常識知識樹、行政區(qū)劃類目樹、MCC2.0、高德POI、意圖知識樹等螞蟻域內(nèi)通用的常識認知體系和領(lǐng)域分類體系,來幫助跨業(yè)務(wù)的概念類目集成和內(nèi)容理解。?
圖9 常識概念建模及應(yīng)用(清晰大圖可后臺回復(fù)“圖9”獲?。?div style="height:15px;">
保險語義網(wǎng)絡(luò)建模
保險產(chǎn)品圖譜,是為了將保險業(yè)務(wù)中對保險產(chǎn)品的業(yè)務(wù)分類類目、領(lǐng)域標準分類、保險產(chǎn)品的各個重要特性建模,并將對每個業(yè)務(wù)自定義的產(chǎn)品標簽概念(如“心血管保障好”)背后關(guān)聯(lián)的產(chǎn)品特性、產(chǎn)品分類的邏輯固化到圖譜中,進而使用圖譜的路徑推理能力幫助具體保險產(chǎn)品實例所屬類型的判斷。
如圖10中,顯示了對保險產(chǎn)品的schema定義,業(yè)務(wù)對“產(chǎn)品渠道”、“保障風險項”、“人群特征”、“產(chǎn)品分類”、“特色保障”等屬性都做了語義標準化,即這些屬性的取值都受到某個元概念體系的約束,而這些元概念體系是業(yè)務(wù)根據(jù)自身領(lǐng)域的各個類目樹預(yù)先定義的。
圖11中,在模式層定義了保險產(chǎn)品schema專屬的分類體系——“產(chǎn)品類型”元概念;在概念層,構(gòu)建了各個業(yè)務(wù)概念類目體系及這些概念間的語義關(guān)聯(lián)。最終在實例層,演繹了如何準對一個具體保險產(chǎn)品的語義字段,套用概念語義網(wǎng)絡(luò)及邏輯規(guī)則,實現(xiàn)對實例產(chǎn)品類型的推理。
圖10 保險產(chǎn)品語義網(wǎng)絡(luò)構(gòu)建及應(yīng)用
圖11 保險產(chǎn)品語義網(wǎng)絡(luò)構(gòu)建及應(yīng)用
意圖語義網(wǎng)絡(luò)建模
意圖圖譜的核心本體主要共包含四類節(jié)點(意圖,功能詞,產(chǎn)品詞,義原)和三類關(guān)系(isA,Consist,Has),如圖所示。具體來說,“意圖”描述了用戶需求背后的動機,主要由一個功能動詞(動詞)和一個產(chǎn)品實體(名詞)組成動賓結(jié)構(gòu),例如“打網(wǎng)約車”、“買咖啡”和“維修家電” 等。此外,“功能動詞”和“產(chǎn)品實體”可以用更細粒度的Hownet義原表示,拆分為最基本的語義單位,如“movie ticket|電影票 = {coupon|票證, look|看, shows|表演物}”。
構(gòu)建意圖圖譜,主要有兩個作用:1.功能詞、產(chǎn)品詞、義原實體可以豐富意圖的語義信息;2.擁有相同功能詞/產(chǎn)品詞/義原的意圖之間建立起新的關(guān)聯(lián)關(guān)系。?
圖12 意圖概念圖譜構(gòu)建及應(yīng)用
高階篇·多元關(guān)系架構(gòu)
術(shù)語定義
多元知識
根據(jù)論元個數(shù)把關(guān)系分為:一元關(guān)系、二元關(guān)系和多元關(guān)系
一元關(guān)系:表示實體/概念的性質(zhì)、屬性等,有翅膀(鳥)
二元關(guān)系:表示兩個實體之間的關(guān)系。例如:中國-首都->北京
多元關(guān)系:多個論元共同決定的事實
傳統(tǒng)的知識圖譜建模,主要解決靜態(tài)事實、常識的表示,以三元組表示兩個實體間的二元關(guān)系為主。但現(xiàn)實中的事件、規(guī)則、場景知識,是多元關(guān)系。即一個事實的成立,是由多個元素共同決定的(如用戶交易行為,是對用戶在確定時間、地點下對產(chǎn)品的交易行為的描述)
超圖
超圖(hypergraph)是一種更加抽象的圖,與傳統(tǒng)圖的區(qū)別主要在于超邊可以同時包含多個(>2)結(jié)點。超圖通過引入超邊關(guān)系,能夠完整表達各種復(fù)雜的關(guān)系類型。
事件
事件是加入時間、空間,區(qū)分行為主體、客體的實體類型,以事理圖譜和用戶行為事件為典型應(yīng)用場景,是對動態(tài)行為的建模,需要反應(yīng)在不同時間點、時間區(qū)間上事物的狀態(tài)。事件類型對實體類型補充了“隨時空動態(tài)變化”的信息和“事物發(fā)展的規(guī)則”(因果、順承等關(guān)系),是一種多元知識。可以回答諸如“怎么了”,“接下來會怎么樣?”,“為什么”,“怎么做”的一系列問題;例如表達“用戶在工作日點外賣,在周末用叮咚買菜”——“那么可以在工作日推薦外賣品牌,在周末推薦廚具品牌”。
概念的內(nèi)涵與外延
概念的內(nèi)涵就是指反映在概念中的對象的本質(zhì)屬性或特有屬性。概念的外延是指具有概念所反映的本質(zhì)屬性或特有屬性的對象,即概念的適用范圍。
在進階篇的概念建模,我們主要描述了如何基于領(lǐng)域常識或業(yè)務(wù)知識,構(gòu)建樹狀的概念類目,以便于概念的復(fù)用、加強實體間語義關(guān)聯(lián)。同時我們應(yīng)該注意到,如果沒有定義概念的內(nèi)涵與外延,那么“概念”只是一個人工定義的符號,無法起到語義上的可解釋、推理的能力。對于概念的等價語義表達式,在owl、rdf等框架中,一般使用一階邏輯表達式實現(xiàn)。同樣,我們也在蜘蛛平臺上實現(xiàn)了對“分類概念的等價邏輯表達式”的實現(xiàn)。概念的等價邏輯表達式,體現(xiàn)為當實例知識的多個特征要素滿足一定值約束時,該實例可以被推斷屬于某個概念。概念的等價語義表達式的定義,也屬于一種多元關(guān)系。
解決問題
如圖13,是一個在支付寶賬單中典型的用戶出行行為事件。每個出行行為,體現(xiàn)為特定用戶在特定的出發(fā)時間從出發(fā)地點起始并在特定到達時間抵達特定地點的行為事件。因此每一個行為事件記錄,都是一個多元關(guān)系。在數(shù)據(jù)表中的行為表達是完整無歧義的。但如何將它圖結(jié)構(gòu)化呢?
如前文提到,超圖是解決多元關(guān)系表示的圖結(jié)構(gòu),但顯然,超圖不是一種直觀的對數(shù)據(jù)結(jié)構(gòu)化和可視化的方法。而直接將超圖表示轉(zhuǎn)換為行為事件要素間的三元組關(guān)聯(lián),可能是有損的轉(zhuǎn)換,例如小螞并沒有從靈隱寺出發(fā)并到達浙江大學的行為。但傳統(tǒng)的圖譜三元組表示卻可能導(dǎo)致這樣的歧義。
因此我們提出兼容與超圖結(jié)構(gòu)互相無損互轉(zhuǎn)?的時空行為事件表示方法,主要體現(xiàn)為將時空多元關(guān)系(即事件或行為)本身抽象為一個事件節(jié)點,并定義事件節(jié)點與其各事件要素間的關(guān)聯(lián)。則事件節(jié)點本身即為超邊的具像化,能夠的在spo表示與超圖表示間進行結(jié)構(gòu)化知識的無損轉(zhuǎn)換。
同時,對于規(guī)則的表示,體現(xiàn)概念語義內(nèi)涵和外延的邏輯表示,都有提供了相應(yīng)的解決方案。在本篇中,我們將介紹如何綜合使用實體關(guān)系建模、概念語義建模及多元關(guān)系建模,來對一個領(lǐng)域內(nèi)的知識做整體的認知和架構(gòu)。
?
圖13 多元關(guān)系建模難點
適用場景
多元時空事件:對用戶行為、金融事件、保險理賠、業(yè)務(wù)流程等,受時間和空間(具體的地點、poi、業(yè)務(wù)流程工段位等)約束,由多個(>2)要素共同確定的事實,提供簡潔而統(tǒng)一建模范式,在蜘蛛平臺,對該類知識的儲存管理、結(jié)構(gòu)化抽取、查詢、可視化、包含時空信息的圖學習等進行了支持和優(yōu)化。
概念的語義定義:目前對事件/實體的分類仍然較黑盒,往往業(yè)務(wù)類目體系是領(lǐng)域?qū)<?運營自定義的類目體系,導(dǎo)致只有定義者/生產(chǎn)者自己才能理解標簽類目的內(nèi)涵,專家經(jīng)驗沒有存在圖譜中,當要跨域復(fù)用時消費者需線下咨詢生產(chǎn)者。因而定義概念的等價邏輯規(guī)則,結(jié)合概念層類目體系+概念的語義規(guī)則定義,幫助具體業(yè)務(wù)場景下的知識決策管理。
多視角的知識建模架構(gòu):如背景章節(jié)所述,已有的研究或工作,都只解決了事件圖譜、事理(概念)圖譜或事理常識中特定一類的表示,它們要么專注于對單個實例事件、實例知識及其關(guān)聯(lián)的事實關(guān)系的刻畫;要么在相對抽象的層次,描述基于常識的事理關(guān)系。螞蟻場景中需要對從實例到概念,從事實到常識的整體架構(gòu)。本章介紹的時空多元知識建模,也從事件實例表示、事件概念表示,事件實例所關(guān)聯(lián)客觀事實關(guān)系及事件實例關(guān)聯(lián),事件概念關(guān)聯(lián)常識及事件概念間因果順承等事理關(guān)系的表示,等視角的知識建模架構(gòu)解決方案。使用該方案建模,能夠快速的幫助從概念事件/時間區(qū)間/空間范圍的約束或約束的組合查詢實例事件,從實例事件的關(guān)聯(lián)中發(fā)掘抽象事理關(guān)系,從事理關(guān)系反向推理預(yù)測事件的發(fā)展。
建模步驟及案例
事件表示
支付寶覆蓋的數(shù)字生活場景及新聞事件中的金融事件有不計其數(shù)的事件類型;導(dǎo)致在知識抽取和管理時,每新增一類事件就需要設(shè)計一個新的Schema。算法上計劃通過統(tǒng)一的SPO抽取來解決這個問題。但因為數(shù)據(jù)入圖譜仍然需要依賴Schema,所以產(chǎn)品上需要有一套通用的事件建模規(guī)范來簡化事件建模的復(fù)雜性。
如表5所示,我們對多元時空行為事件定義了統(tǒng)一的建??蚣?,將事件的屬性分為基本要素、時間要素、空間要素、主體要素和客體要素。
基本屬性:定義一個新的事件類型時默認的屬性,不能刪除,包括:主鍵id、name、description。
時間要素:對事件發(fā)生時間、報道時間、起始時間、終止時間、狀態(tài)變化時間等的定義,時間一般被標準化為時間戳類型。
空間要素:對事件發(fā)生地點、起始地點、終止地點等的空間要素的定義,螞蟻場景下的空間要素一般為確定的AOI/POI實體,標準化的行政區(qū)劃概念或格式化表示的經(jīng)緯度坐標點。
主體要素:事件的主體要素是指事件的執(zhí)行者、行為人;如公司事件的主體是一個工商企業(yè),用戶行為事件的主體是2088開頭的支付寶賬戶id所代表的支付寶用戶。
客體要素:事件的客體是事件的被執(zhí)行對象。例如:“北向資金凈買入賽托生物526.97萬元,赫美集團62.79萬元 ”中,主體為:北向資金,客體為:賽托生物,赫美集團。一般金融事件的客體可能為:公司、板塊、股票、基金等,用戶行為事件的客體可能為:產(chǎn)品、品牌、意圖、服務(wù)、門店等。需要注意,一個事件的主體或客體可能有多個,且可能屬于不同的實體/概念類型(見圖14)。
表5的框架,介紹了能夠覆蓋螞蟻場景下大部分事件/行為建模的要素定義;在面向特定業(yè)務(wù)場景的行為事件建模時,建模者根據(jù)需要選擇表5中預(yù)定義的要素及增加各種需要的要素定義,如表6和表7分別給出了在對金融事件和用戶行為事件建模的案例。?
表5 事件定義框架
要素類型
事件要素
解釋
事件要素值類型(實體)
事件要素值類型(概念)
基本要素
id
事件唯一id
概念事件的名稱即為其id
基本要素
name
事件標題,行為事件可以沒有名稱
基本要素
description
事件描述摘要
時間要素
happenTime
發(fā)生時間
年份、時間點
年份、時間點
年份、時間點
時間段標簽(如:上午、傍晚、下午、周末)
特殊節(jié)日概念(如:清明節(jié)、國慶節(jié))
時間要素
startTime
起始時間
時間要素
endTime
終止時間
空間要素
happenLoc
發(fā)生位置
經(jīng)緯度坐標點、POI、AOI
行政區(qū)劃概念
行政區(qū)劃概念
行政區(qū)劃概念
空間要素
startLoc
起始位置
經(jīng)緯度坐標點、POI、AOI
空間要素
endLoc
終止位置
經(jīng)緯度坐標點、POI、AOI
主體要素
eventSubject
事件主體
uid、公司id等
公司類型、品類等概念
客體要素
eventObject
事件客體
產(chǎn)品、門店、小程序、公司、品牌、股票、基金等
公司類型、品類、基金板塊、常識概念等
客體要素
intent
行為意圖
意圖概念
意圖概念
客體要素
behavior
行為類型
交易|搜索|點擊|使用|出行
交易|搜索|點擊|使用|出行
表6 金融事件-產(chǎn)業(yè)鏈事件定義
產(chǎn)業(yè)鏈事件schema模型(EL.IndustrialChainEvent)示意
要素類型
屬性英文名
屬性中文名
屬性類型
屬性值舉例
是否必填
基本要素
id
id
String
85869e7bf616a21a628e25331754156b
基本要素
name
事件名稱
String
汽車整車銷量預(yù)計上漲50%
基本要素
belongTo
所屬類型
Concept
EventConcept
基本要素
docSentList
相關(guān)內(nèi)容
String
23594049:&lt;p&gt;6月3日,中國汽車工業(yè)協(xié)會根據(jù)重點企業(yè)上報的周報數(shù)據(jù)推算,5月汽車行業(yè)銷量預(yù)計完成176.65萬輛,環(huán)比增長49.59%,同比下降17.06%;……
基本要素
eventState
狀態(tài)
枚舉類型
預(yù)計發(fā)生
基本要素
eventInfo
事件要素
String
汽車整車,銷量,上漲,50%,預(yù)計發(fā)生
時間要素
pubDate
發(fā)布日期
時間類型
20220601
空間要素
happendIn
發(fā)生區(qū)域
行政區(qū)劃
主體要素
eventProduct
產(chǎn)品
產(chǎn)品
汽車整車
主體要素
eventIndicator
指標
指標
銷量
客體要素
eventTrend
趨勢
趨勢
上漲
客體要素
eventExtent
幅度
百分數(shù)
50%
......
......
......
......
表7 用戶行為事件-用戶出行事件定義
用戶出行行為schema模型(TrafficBehavior)示意
要素類型
屬性英文名
屬性中文名
屬性類型
屬性值舉例
是否必填
基本要素
id
id
String
xxxxx
主體要素
user_id
行為主體
支付寶賬號
2088xxxxx
客體要素
opposite_user_id
服務(wù)方
支付寶賬號
2088xxxxx
基本要素
consume_title
事件描述
String
地鐵-古墩路-正常行程扣費
基本要素
consume_fee
交易金額
float
5.00
時間要素
gmt_biz_create
發(fā)生時間
時間戳
2023-03-22 9:41:57
空間要素
start_station
起始poi
poi
鳳起路地鐵站
空間要素
end_station
終止poi
poi
古墩路地鐵站
時間要素
start_time
起始時間
時間戳
2023-03-22 9:24:32
時間要素
end_time
結(jié)束時間
時間戳
2023-03-22 9:41:57
空間要素
city_name
涉事城市
行政區(qū)劃
杭州
基本要素
trip_ext
出行信息
String
客體要素
od_biz_type
交通工具
枚舉字段
metro
多要素建模鏈指
無論是在金融事件還是用戶行為事件,其事件要素及同一個事件要素所關(guān)聯(lián)的實體/概念都可能是多值的。如圖14展示的“3月20日永安林業(yè)領(lǐng)漲”事件,其關(guān)聯(lián)的事件客體有“林業(yè)”和“永安林業(yè)”兩個節(jié)點,其中“林業(yè)”是一個“板塊”概念,“永安林業(yè)”是一個股票實體;再例如“張三購買咖啡”行為事件,其客體屬性有“少糖星冰樂”和“抹茶拿鐵”兩個實體。為了滿足對事件多要素、要素多值類型的建模要求,在蜘蛛平臺提供以下能力:
多要素建模:每種時間要素可以定義多個屬性,如對時間要素定義發(fā)生時間、結(jié)算時間等;
要素的多值類型定義:對于同一個要素,可以將其語義屬性類型選為多個類型。例如個股/上市公司上漲事件,所關(guān)聯(lián)的客體值域可選[板塊、股票]。
多值鏈指能力:在確定的屬性上(如“個股/上市公司上漲”的“關(guān)聯(lián)”屬性,“用戶消費行為”的“商品”屬性)綁定鏈指算子,并在算子的實現(xiàn)邏輯中,支持對多類型值的鏈指。例如,對于“3月20日永安林業(yè)領(lǐng)漲”,結(jié)構(gòu)化抽取結(jié)果中包括:{關(guān)聯(lián): 林業(yè)@板塊, 永安林業(yè)@股票},則事件節(jié)點本身通過鏈指拉邊,關(guān)聯(lián)到屬性值對應(yīng)的實體對象、概念節(jié)點上。
語義關(guān)聯(lián):依托基礎(chǔ)篇中所提到的屬性語義標化能力,能夠在事件實例間建立廣泛的語義關(guān)聯(lián)。例如,對于“張三購買咖啡事件”,其發(fā)生時間是一個標準化的時間戳值。在物理上,它并不是一個數(shù)據(jù)上存在的節(jié)點,而是利用時間語義標準化能力,能夠發(fā)掘發(fā)生時間在一定時間范圍內(nèi)的事件,進而建立其事件間的“同時間”共邊關(guān)系(同理,時間間也可建立“同人”、“同地點”、“同商戶”等關(guān)系)。事件之間的語義共邊關(guān)系是不勝枚舉,難以窮極的,用本文建模方式重的語義標準化拉虛擬邊的方式,既能廣泛的構(gòu)建和挖掘事件的語義關(guān)聯(lián)并用于圖算法的子圖特征采樣,又能降低物理儲存的壓力。
?
圖14 事件多要素多主體鏈指
概念語義定義
1.分類定義沒有顯示化:目前對事件/實體的分類體系建模仍然是較黑盒的符號性的定義,只有建模者自己才能理解和解釋概念的意義。因此,結(jié)合蜘蛛的產(chǎn)品功能實現(xiàn),定義了用于概念管理的標準謂詞,及概念等價語義規(guī)則表達方法。
2.建模門檻高:由于“概念語義建?!笔俏覀兊慕7椒ㄖ袨榱伺c結(jié)構(gòu)化表示解耦而提出的一種解決方案,在涉及多元時空知識的表示時,需要與事件建模搭配使用,導(dǎo)致對新用戶有一定復(fù)雜性。為此,我們以事理圖譜的概念定義、概念語義演繹推理為例,介紹實體schema與概念體系及邏輯規(guī)則的結(jié)合應(yīng)用,一起完成多維度的知識認知架構(gòu)。
事件概念管理
即通過對實體分類體系和領(lǐng)域知識/常識中的通用語義元素的定義,以樹狀層級體系進行組織,自頂向下的體現(xiàn)實體語義的細分。?
表8 概念建模相關(guān)語義謂詞定義
謂詞定義
謂詞語義
舉例
實體類型-belongTo-> 概念
在實體類型Schema上指定該類型的實例belongTo概念c(概念c是元概念樹T上的一個概念),其語義為該實體類型下的實例可以被分類為以c為根結(jié)點的子樹上的概念。
# 任意事件的實例可被分類為事件概念樹上的一個概念事件
EL.Event-belongTo-> EventConcept
?
#趨勢事件的實例,可以被分類為趨勢概念事件下的子類型
EL.TrendEvent -belongTo->TrendEventConcept
實體實例-belongTo-> 概念
該實體的屬于概念所指的grained type
x年x月alibaba股價上漲 5%-belongTo->股票價格上漲事件
概念-isTypeOf->元概念
一個元概念下的概念,都是該體系下的類型。
趨勢事件-isTypeOf->事件概念
概念-特定語義->概念
定義概念上下層級間的語義關(guān)系
股票價格上漲事件-isA->價格上漲事件
價格上漲事件-isA->趨勢事件
西湖區(qū)-LocatedAt->杭州市
概念事件的邏輯語義
對于一個“分類概念”,即在元概念上限制了該概念體系特定的用于某個schema約束的實體類型的語義細分,支持定義等價的邏輯表達式,定義該概念的語義內(nèi)涵。當概念定義了邏輯表達式后,可以根據(jù)邏輯表達式進行雙向推理:
基于規(guī)則的實例細分:當算法分類只分到較粗粒度,或沒有接概念類細分算子,可以使用邏輯表達式根據(jù)實例數(shù)據(jù)各屬性/關(guān)系的值,幫助推斷出實例的細分類型
一致性檢測:對于已知所屬概念細類的實例,用邏輯規(guī)則幫助檢驗其個字段屬性是否滿足概念的定義。
例如,下例是對“汽車整車銷量事件”的語義內(nèi)涵的定義(通過dsl語言)
汽車整車銷量事件(Concept) <=>  if s isInstanceOf IndustrialChainEvent  and s.產(chǎn)品 == 汽車整車 and s.指標 ==銷量
Define (s:EL.IndustrialChainEvent)-[p:belongTo]->(o:汽車整車銷量事件) {  GraphStructure {  s : Event    Rule {     p: s.eventProduct == '汽車整車' and s.eventIndicator == '銷量'       }    }}概念演化挖掘
在具體業(yè)務(wù)場景中,概念類目樹隨著業(yè)務(wù)語義的細分,可能無限膨脹。此時人工對概念進行定義,特別是定義概念的等價邏輯,變得繁瑣。當分類概念所服務(wù)的實體類型schema的論元已知且約束了取值范圍(實體類型、概念類型)時,對于概念及其邏輯表達式的自動挖掘和生成提供了可能。下面以“產(chǎn)業(yè)鏈事件”的語義概念細分為例,探索在業(yè)務(wù)場景下如何自動做概念語義演化及沉淀業(yè)務(wù)規(guī)則。
IndustrialChainEvent{eventState 事件狀態(tài) 枚舉值       [example:預(yù)計 發(fā)生]eventProduct 涉事產(chǎn)品 產(chǎn)品概念 [example:白酒 生豬 糧食 有色金屬 ……]eventTrend 發(fā)生趨勢 趨勢(枚舉值) [example:上漲 下降 由漲轉(zhuǎn)跌 ……]eventExtent 發(fā)生幅度 百分數(shù)(枚舉值) [example:大幅 小幅 緩慢 ]eventIndicator 涉事指標 指標 (概念) [example:價格 銷量 產(chǎn)量 庫存 成本 ……]}
1.概念自動生成
對產(chǎn)業(yè)鏈事件設(shè)置分類層次,即自頂向下類型細分的優(yōu)先級:
涉事指標->發(fā)生趨勢->發(fā)生幅度->涉事產(chǎn)品->事件狀態(tài)
定義概念事件生成命名模版 :
[產(chǎn)品][指標][事件狀態(tài)][幅度][趨勢] + '事件'
如圖15所示,按照分類層次優(yōu)先級的順序,對已經(jīng)抽取沉淀的事件實例的論元要素值進行統(tǒng)計,能夠?qū)⒕哂型瑯犹卣鞯氖录嵗龤w納為一個概念事件。例如先根據(jù)指標類型,將產(chǎn)業(yè)鏈事件細分為:產(chǎn)能事件、銷量事件、價格事件等。當每類事件積攢到一定規(guī)模時,根據(jù)變化趨勢、發(fā)生幅度、產(chǎn)品類型等要素值,對概念進一步細分。注意在基于實例的統(tǒng)計對概念細分時,要注意剪枝,避免概念樹過于龐大及擁有無實例的概念。
該模版在概念挖掘時,與“分類層次”結(jié)合應(yīng)用,并需要排除可能生成的沒有意義的概念如:“白酒小幅事件”?
圖15 事件概念演化
2.概念事件邏輯表達式
如下面定義的dsl模版所示,可以在一定層級的概念上定義“概念等價式模版”,幫助子樹上細分語義概念演化的同時,自動生成其邏輯語義表達式,用于對實例的推理和分類。
給定規(guī)則表示模版生成邏輯表達式
if existed &conceptEvent = [產(chǎn)品][指標][事件狀態(tài)][幅度][趨勢] + '事件'
&conceptEvent.name =  [&產(chǎn)品][&指標] + '事件'Define (s:EL.IndustrialChainEvent)-[p:belongTo]->(o: &conceptEvent ) 3  GraphStructure {  s : Event    Rule {     p: s.eventProduct == &產(chǎn)品 and s.eventIndicator == &指標       }    }}3.概念語義應(yīng)用
通過上述的概念挖掘模版,可以用同種方法對概念細化、概念語義關(guān)系中的論元要素槽位值進行替換,以演化生成其他概念間的語義關(guān)系,用于輔助事件實例間的關(guān)系挖掘。
已知:白酒價格大漲事件 -引發(fā)-> 白酒板塊股價變化事件
白酒板塊(板塊概念) -關(guān)聯(lián)產(chǎn)品-> 白酒(品類概念)?
定義規(guī)則(其中 X、Y為可替換的事件要素槽位值):X價格大漲事件 -引發(fā)-> Y股價變化事件
iif Y[板塊概念] -關(guān)聯(lián)產(chǎn)品-> X[品類概念]?
演繹規(guī)則(X=有色金屬,Y=有色金屬板塊):
有色金屬價格大漲事件 -引發(fā)-> 有色金屬板塊股價變化事件
應(yīng)用:已知:x年x月黃金價格上漲 -belongTo->有色金屬價格大漲事件
推論:有色金屬板塊股價變化事件
多元時空認知架構(gòu)
多元時空認知架構(gòu),是對基于schema的實體關(guān)系定義,概念語義建模及事件行為的多元關(guān)系定義的綜合應(yīng)用,主要用于事理圖譜、用戶行為等場景。如保險產(chǎn)品、黑產(chǎn)等需要沉淀領(lǐng)域?qū)<抑R及通過領(lǐng)域知識對特定實例進行判例的場景,也可以運用多元時空認知架構(gòu)的思路來描述其業(yè)務(wù)問題。
如圖16所示,多元時空認知架構(gòu),體現(xiàn)在以下三個方面:
1.在模式層,定義知識的結(jié)構(gòu)化表示(即schema)、語義規(guī)則、事理關(guān)系。其中將語義規(guī)則和事理關(guān)系也定義在模式層,是因為對于概念的等價邏輯,可以認為是對實例推理的一種模式、規(guī)則,而事理關(guān)系也是對具有共性的事件見關(guān)系的抽象,因此認為屬于模式層。
2.在概念層,定義知識的語義認知體系,及對業(yè)務(wù)中所設(shè)計的常識或關(guān)于特定領(lǐng)域術(shù)語的概念體系建模,其中也包含了概念之間的二元常識關(guān)聯(lián)。
3.在實例層,首模式層的約束,對非結(jié)構(gòu)化文本做信息抽取,對于結(jié)構(gòu)化的信息,也受概念層的語義約束,標準化、語義化為規(guī)范的屬性值表示,以建立實體-實體、實體-概念間的語義關(guān)聯(lián)。在實例知識標準化、結(jié)構(gòu)化到圖譜后,受模式層的語義規(guī)則、事理關(guān)系、業(yè)務(wù)邏輯的約束,對知識進一步挖掘和推理。
整個多元時空認知架構(gòu),將展示特定領(lǐng)域知識的結(jié)構(gòu)范式、邏輯語義,并對該領(lǐng)域的概念常識和實例間的客觀事實進行多維度的建模展示。?
圖16 知識的多元時空認知架構(gòu)(清晰大圖可后臺回復(fù)“圖16”獲?。?div style="height:15px;">
圖17、圖18展示了在前文所屬實體關(guān)系定義、概念語義建模對多元行為知識結(jié)構(gòu)化、語義化后,對于用戶行為知識多視角的建模表示。
多元時空知識可包含多元時空事件實體以及多元時空概念事件。多元時空事件實體對應(yīng)于客觀存在的多元知識,而多元時空概念事件是對客觀存在的具有共性的多元知識的抽象。以用戶行為為例,“張三下午3點在星巴克購買了一杯咖啡”這是一個多元事件實體,“年輕白領(lǐng)在工作日的下午點咖啡”這是一個概念事件,是基于大量的相似的實體多元知識抽象而來。事件實例的至少一個論元對應(yīng)客觀存在的事物,如行為主體對應(yīng)具體的某個人,而如圖18,概念事件的論元均對應(yīng)抽象知識。
可以將多元知識建模為一個“超邊”節(jié)點,體現(xiàn)其多個論元要素的關(guān)聯(lián)。以圖17中的“觀影事件”為例,其行為主體論元的實例值為“李四”,而圖譜中已經(jīng)具有節(jié)點李四(即自然人實體節(jié)點實例),則將“觀影事件”這一事件實例與節(jié)點李四進行邊連。又例如,該事件的行為類型要素的值為“觀影”,而圖譜中已經(jīng)存在行為類型的各種概念節(jié)點,則可以將“觀影事件”關(guān)聯(lián)到“觀影”概念節(jié)點。同時,“觀影”概念節(jié)點又存在與其他事件間的關(guān)聯(lián),進而建立起了相同行為事件實例間密集的鄰居關(guān)系。
多元知識節(jié)點實例之間也可以具有邊連。以事件為例,多元知識節(jié)點實例間的邊可以表示以下關(guān)系中的一種或多種:順承、因果、伴隨以及組成。其中,順承表示頭節(jié)點事件時間上先于尾節(jié)點事件發(fā)生。因果表示頭節(jié)點事件是導(dǎo)致尾節(jié)點事件發(fā)生的原因。伴隨表示頭節(jié)點事件和尾節(jié)點事件通常伴隨、共現(xiàn)發(fā)生。組成表示頭節(jié)點事件是尾節(jié)點事件的一部分。
通過對多元時空行為知識的概念化,有助于進一步挖掘多元知識中的規(guī)律,進行信息預(yù)測。概念事件間的邊與事件實體類似,可以是順承、因果、同主體等等。以圖18為例,圖中的下午茶事件以及觀影事件為兩個概念事件,其具有順承關(guān)系,進而構(gòu)成一個反應(yīng)概念事件間關(guān)聯(lián)的子圖。需要說明的是,實體事件間的關(guān)系體現(xiàn)的是單個具體事件間的關(guān)聯(lián),而概念事件間的關(guān)系體現(xiàn)的是通用知識或常識的沉淀。
?
圖17 多元時空事件實體及關(guān)聯(lián)
圖18 多元時空概念事件及關(guān)聯(lián)
?由于在多元知識的模式層進行schema定義時,對各個事件要素的類型和格式做了約束,因此對于時空信息標準化后,能夠方便的基于數(shù)值計算或行政區(qū)劃的概念層級進行推理,確定事件實例之間的“同主體”、“同地點”、“同時間”等語義關(guān)系,這些語義關(guān)系也可以作為圖采樣結(jié)果中的邊關(guān)系。蜘蛛提供了對各種組合條件下的子圖查詢和子圖采樣,并得到查詢結(jié)果的可視化子圖。
由于事件間的語義關(guān)系是難以窮盡的,因此在工程實現(xiàn)上,并不對事件間的同主體、同時間、同地點等關(guān)系邊做物理存儲(同樣對于標準化的語義屬性值其實也并不存在物理節(jié)點),而是基于查詢條件進行圖采樣,并實時或按需進行語義化計算確定采樣結(jié)果中各事件間的語義邊,有效避免了圖譜中邊“爆炸”的問題,節(jié)約了存儲空間。
未來展望
在大模型的沖擊下,知識圖譜與大模型的融合成為一個有意義的探索方向。圖譜本身是對數(shù)據(jù)/文本的壓縮,通過知識建模定義的知識的結(jié)構(gòu)規(guī)范,提煉出知識最本質(zhì)的特征和語義。因此,schema本身可以作為一種強范式的instruction。結(jié)合大模型和in-context learning,很自然的能夠想到,讓大模型來幫助我們自動生成常識知識的schema定義(領(lǐng)域、業(yè)務(wù)實體特有schema仍然需要人工定義)、以schema作為prompt約束,生成高質(zhì)量的結(jié)構(gòu)化知識并沉淀到知識圖譜。我們嘗試了在知識建模、知識抽取、知識探測三個方向上圖譜結(jié)構(gòu)化數(shù)據(jù)與大模型的互動。?
知識建模
知識抽取
知識探測
?
?
參考文獻:
1. 知識圖譜綜述——表示、構(gòu)建、推理與知識超圖理論?https://www.cnki.com.cn/Article/CJFDTotal-JSJY202108002.htm2. ASER: Towards large-scale commonsense knowledge acquisition via higher-order selectional preference over eventualities?https://www.sciencedirect.com/science/article/pii/S00043702220008073. Atomic: An atlas of machine commonsense for if-then reasoning?https://ojs.aaai.org/index.php/AAAI/article/view/41604. AliCoCo2: Commonsense knowledge extraction, representation and application in E-commerce?https://dl.acm.org/doi/abs/10.1145/3447548.3467203阿里云開發(fā)者社區(qū),千萬開發(fā)者的選擇
阿里云開發(fā)者社區(qū),百萬精品技術(shù)內(nèi)容、千節(jié)免費系統(tǒng)課程、豐富的體驗場景、活躍的社群活動、行業(yè)專家分享交流,歡迎點擊【閱讀原文】加入我們。
?
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
知識圖譜之本體結(jié)構(gòu)與語義解耦——知識建模看它就夠了!
項目實戰(zhàn):如何構(gòu)建知識圖譜
技術(shù)總結(jié):DBpedia、Freebase百科圖譜項目構(gòu)建技術(shù)解析
OWL相關(guān)概念
行業(yè)知識圖譜的構(gòu)建及應(yīng)用
數(shù)據(jù)庫設(shè)計 Step by Step (8)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服