cos 足交 面向聚合预测的常识图谱清楚学习步调综述
频年来, 云诡计、迁徙互联网、物联网等信息本领的迅猛发展, 激发了收罗数据爆炸式增长. 大数据时间的到来鼓舞了以群众常识为中枢的常识工程向以数据驱动为中枢的大数据常识工程的转机[1]. 常识图谱 (knowledge graph, KG) 恰是这一新式常识工程的典型代表. 常识图谱所以图的样子表现客不雅天下中的实体过甚之间关系的常识库[2], 由实体和关系构成. 实体行动图节点, 清楚确切天下中的物体或抽象的倡导; 关系行动图边, 清楚实体之间的计划. 行动直不雅的结构化常识抒发方式cos 足交, 常识图谱大略从海量数据源中抽取并存储丰富的常识, 并通过常识清楚与推理本领将可处理的先验常识提供给智能系统, 栽培系统的知道智能. 因此, 常识图谱被平常应用于信息检索[3-5]、问答系统[6-10]和保举系统[11-13]等广宽应用规模.
面前, 较为常用的常识图谱有 FreeBase[14]、Wikidata[2]、DBpedia[15]、Yago[16], 以及 Google Knowledge Graph[17]等, 关联词这些常识图谱都存在不同进程的信息缺失. 以 FreeBase[14]为例, 70%的东谈主物实体缺失诞生地信息, 99%的东谈主物实体缺失种族信息[18,19]. 为措置常识图谱构建欠完满性问题, 齐备常识图谱自动补全, 需要借助清楚学习 (representation learning, RL) 与聚合预测 (link prediction, LP)[20]. 由于实体和关系在常识图谱中时常以符号化的样子清楚, 因此要诓骗面前先进的深度学习本领来发现海量实体之间的笼罩关系, 就需要将实体和关系调遣为数值样子的清楚[21]. 这一过程恰是清楚学习, 即从原始常识图谱中自动学习出每个节点和边的有用特征, 并以低维向量的样子齐备对实体和关系语义的清楚[22]. 聚合预测行动隐关系发现的进军任务, 也称链路预测. 面前较为先进的模子大多都采纳在清楚学习的基础上, 通过常识图谱中已有的事实常识预测缺失的实体与关系[23]. 一方面, 常识图谱清楚学习通过不同的建模方式学习实体和关系的向量清楚, 从而诓骗数值诡计更好地预测缺失聚合; 另一方面, 聚合预测是清楚学习的获胜应用, 其准确性往往被用作念清楚学习步调的评测诡计, 因此二者有着不可分割的关系.
本文将从常识清楚样子、清楚学习建模方式两个维度对面向聚合预测的常识图谱清楚学习步调计划进展进行叙述. 图1按照时间章程列出了本文所综述的3种常识清楚样子下4类清楚学习步调的主要模子, 具体包括了从2012–2021年这10年内无情的35种清楚学习模子. 此外, 图1中还展示了不同模子之间的演化关联与每个模子所触及的优化方式.
图 1 常识图谱清楚学习本领分离框架面前, 基于各样常识清楚样子的清楚学习步调均开展了计划, 但现存综述主要聚焦于二元关系的常识清楚学习, 且对于图神经收罗模子的先容不够充分. 基于此, 本文详细整理追念了4种面向聚合预测的清楚学习步调在常识图谱关系多元化发展趋势下的演化历程过甚往日计划主张. 具体地, 本文第1节主要先容面前常识图谱清楚学习步调的布景与关连责任. 第2节主要先容聚合预测任务的主张与问题的基本措置经过, 并对二元关系、多元关系和超关系下的聚合预测问题进行了数学建模. 在此基础上, 第3节和第4节具体综述平移距离、张量判辨、传统神经收罗和图神经收罗这4类算法在不同常识清楚样子下的瞎想想路、代表模子过甚发展过程. 第5节先容聚合预测实验常用的数据集和评估诡计, 并基于此给出了上述模子的实验收尾和对比分析. 第6节运筹帷幄该规模面前遭受的一些挑战与往日可能的发展主张, 临了追念全文.
1 常识图谱清楚学习布景及关连责任常识图谱清楚学习的计划可以从常识清楚样子、清楚学习建模方式两个维度进行运筹帷幄.
从常识清楚样子的角度看, 面向聚合预测的清楚学习计划可以被细分为3个主张: 基于二元关系 (binary relations)、基于多元关系 (N-ary relations) 和基于超关系 (hyper-relations) 的计划 (详细界说见第 2.2 节).
早期的常识清楚主要基于二元关系, 即诓骗三元组$ \left(h, r, t\right) $清楚事实常识. ${h}$和${t}$分别代表头尾实体, r代表头尾实体间的关联关系. 二元关系是面前常识图谱规模大范围应用的主要清楚样子, 其在数据集抽取与常识建模上使用更为平常, 在此基础上的计划也最为完善.
二元关系固然毛糙通用、使用粗略, 但也存在表现力不及、难以清楚复杂常识的问题. 复杂常识中包含多个关系和3个及以上的实体, 若将此类常识拆分为多个三元组, 将导致大都语义关联信息在构建常识模子时丢失, 从而影响后续清楚学习与聚合预测效果. 为措置这一问题, 多元关系清楚样子与超关系清楚样子应时而生. Wen等东谈主[24]和Rosso等东谈主[25]分别在2016年和2020年无情基于多元关系和超关系的聚合预测步调. 多元化的常识清楚样子通过更准确的常识清楚与更全面的信息覆盖, 权贵提高了聚合预测的准确率.
基于上述, 这3种常识清楚样子并非互相孤独, 而是冉冉递进的关系. 如何将现存面向聚合预测的常识清楚学习算法彭胀到多元化关系上成为面前该规模的进军计划内容.
从清楚学习建模方式的角度看, 面向聚合预测的常识清楚学习本领可以被细分为4类模子: 平移距离模子、张量判辨模子、传统神经收罗模子和图神经收罗模子 (详细界说见第3节).
从合座上看, 前两者针对常识清楚样子与聚合预测任务进行了基于明确语义的数学建模, 因此具有强解释性. 神经收罗模子是传统神经收罗在常识图谱规模的应用模子, 固然可解释性较差, 但在不同常识清楚样子更易泛化与扩充, 且更易与其他常识清楚学习步调结合, 以栽培模子性能; 图神经收罗模子借助其刚劲的图数据清楚才能与局部结构建模才能, 如故无情坐窝在图清楚学习规模展示出惊东谈主的后劲, 频年来被越来越多地用于聚合预测任务. 从具体齐备方式上看, 前三者的清楚学习与预测过程通过统一评分函数$\phi$精细相连, 何况平常使用端到端的模子进行聚合预测; 而图神经收罗模子的清楚学习与预测过程相对孤独, 平常以编码-解码(encoder-decoder)结构进行聚合预测.
面前, 基于各样常识清楚样子的清楚学习步调均开展了计划, 但现存综述主要聚焦于二元关系的常识清楚学习. 文件[26]从常识推理的角度开赴, 概述了面向常识图谱的常识推理计划进展. 固然触及部分二元关系常识清楚学习模子在常识推理中的应用, 但文章破耗大都篇幅先容基于逻辑与规则的传统推理步调与常识推理当用, 繁难对清楚学习本领细节的展示. 文件[27,28]重心综述了常识图谱镶嵌步调, 文件[28]相较于文件[27]愈加全面, 何况戒备分析了基于旅途和图神经收罗的模子, 但他们繁难多元化常识清楚样子下常识镶嵌的模子. 文件[22,23]对频年来面向常识图谱聚合预测的清楚学习模子进行了较为全面的综述, 但文章雷同侧重于二元关系下的模子, 何况繁难基于图神经收罗的常识清楚学习模子先容. 文件[20]从常识的清楚、构建与推理几个方面对常识图谱进行了较完满的综述. 文章固然提到了多元化关系下的图谱清楚与推理, 但主要从常识超图的角度对其进行分析, 未对多元关系与超关系进行区分, 何况关连内容先容也较为粗略.
2 聚合预测任务概述与建模本节主要对聚合预测这一主张任务进行了系统概述, 同期针对不同的常识清楚样子, 将与之对应的聚合预测任务进行数学建模.
2.1 聚合预测任务概述聚合预测即诓骗常识图谱中已有的事实常识对图谱中缺失的实体或关系进行预测, 具体包括实体预测和关系预测. 如图2所示, 实体预测即预测一条常识中缺失的头实体或尾实体类型; 关系预测即预测一条常识中缺失的关系类型.
图 2 聚合预测清楚图在齐备聚合预测任务时, 基于传统清楚学习的聚合预测(包括基于平移距离模子、张量判辨模子和传统神经收罗模子的聚合预测)和基于图神经收罗的聚合预测有所区别.
传统聚合预测的齐备经过可以分为清楚学习和预测两部分. 聚合预测模子平常会界说一个评分函数$\phi$, 用于评测每条常识的合感性. 评分函数与模子在进行清楚学习时的亏本函数精细相连, 其数学清楚取决于常识清楚样子和模子对常识的语义建模方式. 一般来说, $\phi$得分越高, 模子亏本函数越小, 常识正确的可能性越大. 在模子的覆按过程中, 覆按集平常是现存常识图谱中存储的常识元组, 这些常识元组被看作正确样本集. 此外, 预处理阶段还通过立时替换部分常识元组中的实体或者关系的方式, 得回部分极度样本, 以便与正确样本进行对比覆按, 栽培覆按效果.
在清楚学习过程中, 实体和关系的低维向量清楚字据优化主张进行学习. 其优化主张即最大化总共正确样本评分函数得分的同期, 最小化极度样本的评分函数得分. 模子的实体镶嵌向量和关系镶嵌向量清楚可以立时运转机, 也可以诓骗预覆按模子进走运转机, 之后基于主张函数通过不同的优化算法赈济调动. 若是模子中包含除了实体和关系向量清楚外的其他参数(如神经收罗模子中的权值${W}$和偏差${b}$), 则需要将之行动分享参数[23]与常识镶嵌一同学习. 插足预测要道之前, 需要将清楚学习过程中覆按得到的参数收尾保存到模子中.
在预测过程中, 模子将数据汇聚存在的总共实体或关系循序填补进待预测的常识空白位置中, 以评分函数行动评测诡计, 诡计每个实体或关系行动正确缺失信息的可能性得分. 候选实体或关系的得分越高, 其行动聚合预测的主张实体或关系的可能性越大. 在通盘过程中, 常识镶嵌的清楚学习过程与预测过程共用统一个评分函数$\phi$. 因此, 传统清楚学习模子的瞎想本人就与聚合预测任务精细相连, 清楚学习模子瞎想的初志也大多接洽到了聚合预测这一卑劣任务.
不同于传统聚合预测, 在基于图神经收罗的聚合预测中, 常识清楚学习过程和预测过程相对孤独. 面前的图神经收罗模子均以编码-解码的结构进行预测. 编码过程对应于常识清楚学习部分, 解码过程对应于预测部分, 两部分可以分开进行. 在诓骗不同的图神经收罗进行常识图谱的图清楚学习之后, 模子既可以使用传统聚合预测步调中已经无情的评分函数行动预测诡计, 也可以诓骗现存的其他规模模子行动解码器, 字据编码阶段学习好的常识向量清楚, 再进行评测模子的学习和预测. 因此, 基于图神经收罗的常识清楚模子的无情不一定针对聚合预测任务, 但由于图神经收罗的先进性, 基于此类模子进行的聚合预测效果相配权贵.
2.2 聚合预测任务建模平常, 常识图谱规模下的常识库被构建为${G}=\left(E, R, S\right)$, 其中${E}$代表常识图谱中的实体蚁集, ${E}=\{{{e}}_{1}, {e}_{2}, \ldots , {e}_{\left|{E}\right|}\}$; R代表常识图谱中的关系蚁集, ${R}=\{{{r}}_{1}, {r}_{2}, \ldots , {r}_{\left|{R}\right|}\};\;\mathrm{ }{S}$代表常识的清楚样子, 由实体和关系构成的常识元组清楚, 在本文中被分为二元关系、多元关系和超关系3种清楚样子. 常识的清楚样子获胜影响聚合预测所预测的内容和评分函数的清楚样子. 因此, 本节将分别针对基于不同常识清楚样子${S}$的聚合预测问题进行数学建模方式的发达. 为更直不雅地展示不同常识清楚样子的区别, 图3对比了不同常识清楚样子对统一申诉的常识建模.
图 3 不同常识清楚样子对比清楚图(1) 基于二元关系的聚合预测
三元组是常识图谱中最常见的常识清楚单元, 平常被判辨为(头实体, 关系, 尾实体), 分别对应一条常识姿色的(主语, 谓语, 宾语). 本文用$ \left(h, r, t\right) $清楚基于二元关系的常识清楚${S}$. 当一个申诉出现中出现多个实体和关系时, 可以用多个三元组对其进行清楚. 如图3(a)所示, 对于四元关系的申诉“在电影《师法游戏》中上演阿兰·图灵这一变装的本尼迪克特·康伯巴奇得回了奥斯卡最好男主角提名”, 咱们可以用3个三元组对其进行清楚. 在进行预测时, 聚合预测会针对$ \left(?, r, t\right) $, $ \left(h, r, ?\right) $, $ \left(h, ?, t\right) $这3种类型的三元组进行补全预测, 分别对应聚合预测中的头尾实体预测和关系预测.
(2) 基于多元关系的聚合预测
为更好地姿色包含多个实体和关系的事实常识, 多元关系常识清楚样子被无情. 多元关系清楚用一组变装-键值对(role-value pairs)姿色事实常识, 其中, 变装${R}$清楚一种关系; 键值${V}$清楚一个实体. 因此, “变装-键值”对也可以被领路为“关系-实体”对, 其个数${n}$等于常识的关系元数${N}$. 如图3(b)所示, 咱们可以将上述四元关系申诉转机为如下4个变装-键值对的组合: 演员: 本尼迪克特·康伯巴奇, 参演电影: 师法游戏, 参演变装: 阿兰·图灵, 提名: 奥斯卡最好男主角. 基于此, 咱们将一条N元关系的常识清楚为$\{{r}_{1}:{v}_{1}, {r}_{2}:{v}_{2}, \ldots , {r}_{n}:{v}_{n}\}$. 在进行聚合预测时, 预测模子可以对$\{{r}_{1}:{v}_{1}, \ldots , ?:{v}_{n}\}$, $\{{r}_{1}:{v}_{1}, \ldots , {r}_{n}:?\}$两种类型的不完满常识进行补全任务, 分别对应变装预测和键值预测.
(3) 基于超关系的聚合预测
多元关系的清楚样子固然一定进程上保留了多个实体与关系的关联信息, 但瑕疵也较为彰着. 一方面, 这种清楚样子彻底破碎了三元组的清楚结构; 另一方面, 总共的关系与实体以变装-键值对的样子被平行存储, 繁难主次关系的体现. 践诺上, 每条常识都有其骨干姿色信息, 这意味着对于多元常识, 也应该存在一个主三元组存储骨干信息, 其余的附加实体与附加关系都应该是这一主三元组的援手姿色信息. 在常识图谱中, RDF*图[29]和符号属性图LPG[30]均通过限定词键值对的样子将实体-关系对附加到主三元组中, 以进一步细化每条常识. 在常识图谱Wikidata中, 多元关系常识恰是通过该方式清楚; 从2018年起初, DBpedia的新版块也包含了与Wikidata近似的超关系常识; 而后, YAGO 4[31]也继承了RDF*的常识编码.
基于此, 为进一步提高多元关系常识清楚的准确性, 同期更好适当现存常识图谱的存储样子, 超关系的常识清楚样子被无情. 超关系清楚保留了三元组的结构, 将每条常识判辨为一个主三元组$ \left(h, r, t\right) $与附加信息${Q}$. 附加信息以近似于变装-键值对的限定词键值对(qualifier pairs)与主三元组一同进行存储. 因此, 超关系的常识清楚样子${S}$可以被清楚为$\left(h, r, t, Q\right), {Q}=\left\{\left({q}_{ri}, {q}_{vi}\right)\right\}$. 其中, 每个限定词键值$ \left({q}_{ri}, {q}_{vi}\right) $清楚一组关系和实体, 其个数${n}$与常识的关系元数${N}$存在等式${n}={N}-2$. 当${n}=0$时, 不存在限定词援手信息, 超关系退化为二元关系. 如图3(c)所示, 上述申诉在超关系常识清楚样子下可以被清楚为(本尼迪克特·康伯巴奇, 提名, 奥斯卡最好男主角, {参演电影: 师法游戏},{参演变装: 阿兰·图灵}). 在面前的超关系聚合预测中, 模子主要针对其主三元组进行实体预测, 即针对$ \left(h, r, ?, Q\right) $, $ \left(h, ?, t, Q\right) $, $ \left(?, r, t, Q\right) $这3种常识缺失情况进行补全预测.
此外, 还有部分计划者将超图(hypergraph)的计划应用于常识清楚规模[32-34]. 超图是一种特殊的图, 图中每条边可以勾通多个节点, 超图的边也被称为超边. 在常识超图的清楚样子下, 每条多元化常识中的全部实体节点被一条关系超边相连. 但这种结构在进行常识清楚时存在彰着流弊: 由于总共信息被不分主次地包含在一条常识中, 比较于超关系, 常识超图的清楚样子更接近于多元关系, 这意味着常识超图清楚也存在多元关系清楚的总共纰谬; 此外, 对于包含多个关系的多元常识, 常识超图的清楚限定更多. 因此, 常识超图的清楚样子面前仍不够练习, 现阶段还无法较好地应用于聚合预测规模.
要而论之, 面前进行常识建模的清楚样子主要有二元关系、多元关系和超关系3种. 二元关系(三元组)清楚样子最常见, 但其无法姿色包含多个实体和关系的事实常识; 多元关系固然保留了多个实体与关系的关联关系, 但总共的实体与关系以变装-键值对的样子被平行存储, 繁难主次关系的体现; 超关系用一个主三元组存储骨干信息, 其余关系与实体用限定词键值对的样子行动援手信息存储. 因此, 这3类清楚样子对常识清楚的准确性是循序递加的.
3 面向二元关系聚合预测的常识清楚学习步调本节主要先容上述4类常识图谱清楚学习步调的建模想路与齐备经过, 并面向二元关系聚合预测任务概述每类步调代表模子的演化过程与优瑕疵.
3.1 基于平移距离的常识清楚与预测平移距离模子在词向量(Word2Vec)[35]的启发下, 将常识图谱中的实体和关系映射到连气儿的向量空间, 诓骗头尾实体和关系的映射向量抒发原图中的语义信息和聚合关系. 行动最经典的常识图谱清楚学习模子, 平移距离模子的出现鼓舞了早期常识图谱清楚学习的快速发展, 同期也带动其卑劣任务——聚合预测的共同发展.
TransE模子[36]由Bordes等东谈主于2013年无情. 受到词向量空间平移不变情景的启发, 作家将TransE的语义信息进行如下建模:
$ \begin{array}{c}t\approx h+r\end{array} $ (1)行将三元组$ \left(h, r, t\right) $清楚为头实体向量${h}$到尾实体向量${t}$的变换过程, 令映射的头实体向量$ \mathit{h} $与关系向量$ \mathit{r} $之和尽可能汇聚尾实体向量$ \mathit{t} $. 平常, TransE模子用${L}_1$或${L}_2$范数臆测其汇聚进程, 评分函数界说如下:
$ \begin{array}{c}f\left(h, t\right)=|\mathit{h}+\mathit{r}-\mathit{t}{|}_{L_1/L_2}\end{array} $ (2)基于TransE模子的清楚学习想想和语义建模想路, 该系列繁衍出大都清楚学习算法, 其主要优化主张有拓展实体关系的映射空间或调动映射方式、区分镶嵌向量的清楚样子、加多实体关系连接以及增添附加信息(举例权值信息)等. 通过这些优化, 模子应尽可能抒发更多的原图语义信息, 同期摈斥不消要的语义歧义.
(1) 拓展实体关系的映射空间
在平移距离模子的映射空间发展过程中, 代表模子有TransH[37]、TransR[38]和TransD[39]. 其向量调遣过程与评分函数沿用TransE构造想想, 并在此基础上对实体和关系进行了映射空间的拓展.
TransH模子[37]的无情旨在调动TransE模子无法处理复杂关系(1-N, N-1和N-N)的纰谬. 由于每个实体和关系在清楚学习过程中仅对应特定的单一镶嵌向量, 导致TransE模子只可对1-1的关系建模. 平移距离模子中的复杂关系的建模需要模子为每个实体或关系构造不同的向量清楚. TransH将关系向量拆分为超平面范数向量$ {W}_{r} $和超平面上的平移向量$ {\mathit{d}}_{\mathit{r}} $, 并将实体映射到对应的不同超平面上, 以此构造出不同的向量清楚. 行将TransE中的头实体向量$ \mathit{h} $和尾实体向量$ \mathit{t} $沿法线$ {\mathit{W}}_{\mathit{r}} $投影到$ {\mathit{d}}_{\mathit{r}} $对应的超平面上, 倨傲:
$ \left\{\begin{array}{l} {\mathit{h}}_{\perp }=\mathit{h}-{\mathit{w}}_{\mathit{r}}^{{\rm{T}}}\mathit{h}{\mathit{w}}_{\mathit{r}}\\ {\mathit{t}}_{\perp }=t-{\mathit{w}}_{\mathit{r}}^{\rm{T}}t{\mathit{w}}_{\mathit{r}} \end{array}\right. $ (3)覆按过程中, TransH针对投影到不同超平面上的头实体向量$ {\mathit{h}}_{\perp } $、尾实体向量$ {\mathit{t}}_{\perp } $和关系平移向量$ {\mathit{d}}_{\mathit{r}} $, 以近似TransE模子的覆按方式进行覆按, 其评分函数界说为:
$ \begin{array}{c}{f}_{r}\left(h, t\right)=|{\mathit{h}}_{\mathit{r}}+\mathit{r}-{\mathit{t}}_{\mathit{r}}{|}_{2}^{2}\end{array} $ (4)TransR模子[38]将实体空间与关系空间区分开, 以进一步拓展平移距离模子的映射空间. TransH将实体投射到不同超平面后, 原实体空间中临近的实体在超平面中依然距离临近. 但由于神气的属性不同, 相似的实体可能存在皆备不同的语义. 举例, 当“苹果”实体行动“生果”解释时, “梨”实体应与之相似; 但当“苹果”实体行动“IT公司”解释时, “梨”实体则与之相去甚远. 为措置这一问题, TransR模子为每个关系$ \mathit{r} $缔造了投影矩阵$ {\mathit{M}}_{\mathit{r}} $, 并诓骗该投影矩阵将每个三元组中的实体向量投影到对应关系空间后, 再进行清楚学习, 其映射过程如下:
$ \begin{array}{c}{\mathit{h}}_{\mathit{r}}=h{\mathit{M}}_{\mathit{r}}, \;{\mathit{t}}_{\mathit{r}}=t{\mathit{M}}_{\mathit{r}}\end{array} $ (5)TransD模子[39]不绝拓展实体关系的映射空间, 在TransR的基础上将头尾实体的投影过程进行区分. 作家指出, 此前的平移距离模子均对三元组中的头尾实体向量进行了疏浚的映射操作, 关联词三元组中的头尾实体可能清楚不同的实体类别, 因此模子应该以不同的方式对其进行调遣. 基于此, TransD分别构造了$ {\mathit{M}}_{\mathit{r}\mathit{h}} $和$ {\mathit{M}}_{\mathit{r}\mathit{t}} $这两种映射矩阵党羽向量和尾向量分别进行映射, 具体映射过程如下:
$ \begin{array}{c}{\mathit{h}}_{\mathit{r}}=h{\mathit{M}}_{\mathit{r}\mathit{h}}, \;{\mathit{t}}_{\mathit{r}}=t{\mathit{M}}_{\mathit{r}\mathit{t}}\end{array} $ (6)为更直不雅地体现映射方式的演进过程, 图4展示了不同模子映射方式的对比图. 从不同超平面, 到不同空间, 再到将头尾实体向量分别映射到不同空间, 平移距离系列模子将实体映射到越来越广的空间区域中. 这一操作固然权贵提高了模子的抒发才能和预测准确率, 但也加多了算法的复杂度, 导致部分模子在践诺应用中难以用于大范围常识图谱.
图 4 平移距离模子映射方式对比图(2) 调动映射方式
除了拓展实体与关系的映射空间, 模子还可以通过加多旋转操作的方式调动映射方式.
TorusE模子[40]将三元组投影到一个环形曲面(torus)中, 并基于传统平移距离模子的优化主张${h}+{r}={t}$, 在该圆环空间中构造出以下3种评分函数:
$ \left\{\begin{array}{l} {f}_{{L}_{1}}\left(h, r, t\right)=2{d}_{{L}_{1}}\left(\left[\mathit{h}\right]+\left[\mathit{r}\right], \left[\mathit{t}\right]\right) \\ {f}_{{L}_{2}}\left(h, r, t\right)={\left(2{d}_{{L}_{2}}\left(\left[\mathit{h}\right]+\left[\mathit{r}\right], \left[\mathit{t}\right]\right)\right)}^{2}\\ {f}_{e{L}_{2}}\left(h, r, t\right)={\left({d}_{e{L}_{2}}\left(\left[\mathit{h}\right]+\left[\mathit{r}\right], \left[\mathit{t}\right]\right)/2\right)}^{2} \end{array}\right. $ (7)RotatE模子[41]将三元组投影到复数向量空间, 并将关系镶嵌界说为旋转矢量, 令三元组的映射操作等价于实体镶嵌沿坐标轴旋转的过程, 具体地, 作家界说如下评分函数:
$ \begin{array}{c}-|h\odot r-t|\end{array} $ (8)其中, $ \odot $代表元素乘积.
此类旋转连接通过愈加有用的空间变换进一步调动常识的向量清楚, 权贵提高了模子的抒发才能. 加多旋转操作后的映射模子清楚图如图5所示.
图 5 旋转映射模子清楚图(3) 区分镶嵌向量的清楚样子
在映射方式发展的同期, 部分计划东谈主员通过区分不同的关系镶嵌向量样子, 进一步优化模子.
在常识图谱中, 实体和关系存在异质性(heterogeneous)和不平衡性(unbalanced)[42], 导致实体在映射的向量空间内漫衍不均——部分实体之间的关系散乱有致, 部分实体相对孤单, 不同关系相连的头尾实体数目也有较大各异. 上述模子均使用相似的镶嵌向量样子清楚总共的实体和关系, 这可能导致对复杂关系欠拟合、对毛糙的关系过拟合的问题.
TranSpare模子[42]为措置这一问题, 无情使用不同荒芜进程的矩阵进行关系镶嵌表征的步调进行清楚学习. 该模子在TransR的基础上, 使用可变的荒芜矩阵$ {\mathit{M}}_{\mathit{r}}\left({\theta }_{r}\right) $代替TransR的高贵矩阵$ {\mathit{M}}_{\mathit{r}} $, 荒芜度$ {\mathrm{\theta }}_{r} $的界说如下:
$ \begin{array}{c}{\mathrm{\theta }}_{r}=1-\left(1-{\mathrm{\theta }}_{\min}\right){N}_{r}/{N}_{{r}^{*}}\end{array} $ (9)其中, $ {N}_{r} $代表关系${r}$勾通的实体对数目, 数目越多, 关系越复杂, 矩阵越高贵; 关系聚合的实体数目越少, 关系越毛糙, 矩阵越荒芜. 此外, 该模子沿用TransR党羽尾实体继承不同的映射矩阵的处理方式, 以措置头尾矩阵的不平衡性问题, 具体映射操作如下:
$ \begin{array}{c}{\mathit{h}}_{\mathit{p}}={\mathit{M}}_{\mathit{r}}\left({\theta }_{r}\right)h, \;{\mathit{t}}_{\mathit{p}}={\mathit{M}}_{\mathit{r}}\left({\theta }_{r}\right)t\end{array} $ (10)(4) 加多实体关系连接
除上述优化方式外, 还有部分计划东谈主员通过对实体镶嵌和关系镶嵌施加额外连接(如组连接和旅途连接)或附加信息(如加权等操作)的方式, 进一步匡助本系列模子增强抒发才能.
CTransR[38]是TransR的彭胀模子. 该模子先将不同的头尾实体对聚类成组, 再学习每个组对应的不同关系向量, 以获取每个关系类型下的实体关联关系.
PTransE[43]诓骗旅途规则行动额外连接对TransE模子进行调动. 通过对多跳关系旅途进行建模, PTransE无情了三元组的链式清楚, 使得该模子在常识推理规模施展出权贵述用[26].
TransC[44]为加强图谱中倡导实体关连的清楚才能, 无情了区分倡导(concept)和实例(instance)的常识清楚学习步调: 将倡导用球$ s $($ \mathit{p} $, $ m $)清楚, $ \mathit{p} $清楚球心, $ m $清楚半径; 实例用向量清楚, 对倡导与实例之间的“instanceOf”关系三元组$ (\mathit{i}, {\mathit{r}}_{\mathit{e}}, \mathit{c}) $和倡导与倡导之间的“subClassOf”关系三元组$ ({\mathit{c}}_{i}, {\mathit{r}}_{\mathit{e}}, {\mathit{c}}_{j}) $进行特殊建模:
$ \left\{\begin{array}{l} {f}_{e}\left(i, c\right)=|\mathit{i}-\mathit{p}{|}_{2}^{2}-m \\ {f}_{c}\left({\mathit{c}}_{i}, {\mathit{c}}_{j}\right)=|{\mathit{p}}_{i}-{\mathit{p}}_{j}{|}_{2}^{2}+{m}_{i}-{m}_{j} \end{array} \right.$ (11)其余关系三元组仍继承和TransE疏浚的评分函数.
TransF[45]为提高模子的泛化才能, 对评分函数中的优化主张进行调动. 不同于TransE要求严格实施$ \mathit{t}\approx \mathit{h}+\mathit{r} $的评分函数, TransF仅连接向量$ \mathit{h}+\mathit{r} $与尾实体向量$ \mathit{t} $的主张一致即可, 评分函数界说如下:
$ \begin{array}{c}{f}_{r}\left(h, t\right)={\left(\mathit{h}+\mathit{r}\right)}^{{\rm{T}}}t+{\mathit{h}}^{{\rm{T}}}\left(\mathit{t}-\mathit{r}\right)\end{array} $ (12)在实验过程中, Feng等东谈主[45]分别在TransE、TransH和TransR模子中加多了这一连接, 调动后的模子预测收尾准确率均有所栽培.
TransM[46]通过给每条常识加多权重$ {\mathit{W}}_{\mathit{r}} $的方式放宽TransE模子评分函数的要求, 以此加多模子的机动性, 提高模子对复杂关系建模的才能. $ {\mathit{W}}_{\mathit{r}} $的诡计方式如下:
$ \begin{array}{c}{w}_{r}=\dfrac{1}{\mathrm{log}\left({h}_{r}p{t}_{r}+{t}_{r}p{h}_{r}\right)}\end{array} $ (13)字据$ {\mathit{W}}_{\mathit{r}} $的诡计公式, 实体密度较大(参与大都复杂关系)的三元组将被赋予较小权重.
TransA[47]为措置传统模子中正确解集对应的球型等势面机动性不及问题, 使用马氏距离代替此前平移距离模子中的欧氏距离, 从而得出新的评分函数:
$ \begin{array}{c}{f}_{r}\left(h, t\right)={\left(\left|\mathit{h}+\mathit{r}-\mathit{t}\right|\right)}^{{\rm{T}}}{\mathit{W}}_{\mathit{r}}\left(\left|\mathit{h}+\mathit{r}-\mathit{t}\right|\right)\end{array} $ (14)作家诓骗关系${r}$对应的权重矩阵$ {\mathit{W}}_{\mathit{r}} $限度解集超平面(该超平面可能是球面, 也可能是椭球面). $ {\mathit{W}}_{\mathit{r}} $被设定为对称非负矩阵, 使用LDL判辨进行诡计, 倨傲${\mathit{W}}_{\mathit{r}}={\mathit{L}}_{\mathit{r}}^{{{\rm{T}}}}{\mathit{D}}_{\mathit{r}}{\mathit{L}}_{\mathit{r}}$.
3.2 基于张量判辨的常识清楚与预测张量判辨模子将通盘常识图谱看作一个三维贯串矩阵(三阶张量), 矩阵由无数更小的单元三阶张量构成, 每个单元三阶张量代表一个二元关系常识的三元组. 若该事实常识存在, 则该张量对应的元素值为1; 若不存在, 则对应的元素值为0. 张量判辨的旨趣是令每个三元组对应的单元三阶张量判辨为3个低维向量的乘积, 3个低维向量分别对应三元组中的头尾实体和关系的清楚向量, 乘积尽可能接近原单元张量值(即正确三元组样本接近1, 极度三元组样本接近0). 张量判辨清楚图如图6所示.
图 6 张量判辨清楚图由于触及大都头尾实体和关系的矩阵运算, 实体和关系的信息可以进行深档次交互, 这使得张量判辨模子具有较强的表现力. 同期张量判辨的过程对于头尾实体出现的章程莫得要求, 因此张量判辨模子很适当清楚对称关系. 此外, 除了TuckER模子, 该系列模子一般不需要使用分享参数[23], 这令其诡计复杂度平常较小, 也更容易覆按.
RESCAL[48]是最早出现的张量判辨清楚学习模子. 该模子将头尾实体镶嵌向量清楚为一维向量, 关系镶嵌向量清楚为二维向量, 是典型的双线性模子(bilinear models), 其评分函数的界说如下:
$ \begin{array}{c}\phi \left(h, r, t\right)=h\times r\times t\end{array} $ (15)其中, $ \times $代表矩阵乘积; $ \mathit{h} $代表头实体镶嵌向量, 倨傲${h}\in {\mathit{R}}^{\mathit{d}};\;\mathrm{ }{t}$代表尾实体向量, 倨傲${t}\in {\mathit{R}}^{\mathit{d}};\;\mathbf{ }{\mathit{M}}_{\mathit{r}}$是关系${p}$对应的双线性变换矩阵, 以满秩矩阵清楚, 需倨傲$ {\mathit{M}}_{\mathit{r}}\in {\mathit{R}}^{\mathit{d}\times \mathit{d}} $.
固然无情了一种全新的清楚学习模子, 但RESCAL模子仍存在彰着纰谬: (1)以满秩矩阵清楚关系向量带来大都的运算, 加多了覆按复杂度; (2) RESCAL的评分函数具有交换性, 即$\mathrm{\phi }\left({h}, {r}, {t}\right) = \mathrm{\phi }\left({t}, {r}, {h}\right)$, 这导致总共三元组的关系都被默许为对称关系, 这对于反对称关系的建模带来弘远限定.
为进一步发展张量判辨模子, 大都模子通过施加张量连接或调动判辨方式的步调对模子进行了优化.
(1) 施加张量连接
基于RESCAL的建模想想, DistMult[49]、ComplEx[50]、Analogy[51]、SimplE[52]等双线性张量判辨模子接踵无情. 每个模子都在之前模子的基础上施加了不同的连接, 以提高模子的抒发才能. 此类模子的判辨方式如图7所示.
图 7 双线性张量判辨模子清楚图DistMult[49]为缩短模子复杂度, DistMult要求$ {\mathit{M}}_{\mathit{r}}=\mathrm{d}\mathrm{i}\mathrm{a}\mathrm{g}\left(r\right) $, 即以对角矩阵代替RESCAL中的满秩矩阵清楚关系镶嵌, 减少了清楚学习的参数空间, 使得模子愈加容易覆按. 该模子无情后, Trouillon等东谈主[50]、Toutanova等东谈主[53]和Kadlec等东谈主[54]又接踵对DistMult模子的覆按超参数进行了赈济, 使得DistMult模子在多个数据集上均得回较好的实验收尾, 面前仍行动聚合预测任务的进军基准模子. 尽管如斯, DistMult仍存在纰谬: 施加对角矩阵连接后的评分函数依然存在交换性, 即该模子依然存在关系对称的问题.
ComplEx[50]为进一步措置关系对称问题, 诓骗尾实体向量的共轭转置向量$ \overline{\mathit{t}} $代替了传统的尾实体向量${t}$. 这一操作破碎了原先模子评分函数的交换性, 令ComplEx模子告捷为不合称关系建模. 此外, ComplEx也将关系镶嵌界说为对角矩阵, 并通过引入复值镶嵌将DistMult模子的想想扩充到复数空间中. 其中, 头实体镶嵌向量$ \mathit{h}\in {C}^{d} $, 尾实体向量$ \mathit{t}\in {C}^{d} $, 关系向量$ \mathit{r}\in {C}^{d\times d} $.
ANALOGY[51]通过类比推理的方式优化了张量判辨模子. 该模子不绝继承双线性评分函数, 并在此基础上调动了DistMult模子对关系镶嵌的连接, 在对称矩阵的基础上加多了两个可以齐备类比推理结构的连接: (1) ${r}$必须是正规则阵, 即必须倨傲${r}{\mathit{r}}^{{{\rm{T}}}}={\mathit{r}}^{{{\rm{T}}}}{r}$; (2)对于每一双关系$ {r}_{1} $, $ {r}_{2} $, 其向量组合必须可交换, 即倨傲$ {\mathit{r}}_{1}\circ {\mathit{r}}_{2}={\mathit{r}}_{2}\circ {\mathit{r}}_{1} $. 这种连接方式也被解释可以为不合称关系建模.
SimplE[52]通过党羽尾实体和关系的镶嵌向量进行关联彭胀的方式, 措置了之前模子的对称性问题. 在不绝沿用DistMult中关系镶嵌对角矩阵的基础上, SimplE进行了以下调动: (1)将每个实体${e}$关联为两个孤独的镶嵌, 分别是头实体镶嵌$ {\mathit{e}}_{\mathit{h}} $和尾实体镶嵌$ {\mathit{e}}_{\mathit{t}} $; (2)将每个关系${r}$关联为两个孤独的对角矩阵${r}$和$ {\mathit{r}}^{-1} $, 分别清楚其正主张和逆方朝上的关系. 基于此, 每条事实常识的评分函数得分是其正向常识评分函数与逆向常识评分函数得分的平均值:
$ \begin{array}{c}1/2\left({\mathit{h}}_{\mathit{h}}\times \mathit{r}\times {\mathit{t}}_{\mathit{t}}\right)+1/2\left({\mathit{h}}_{\mathit{t}}\times {\mathit{r}}^{-1}\times {\mathit{t}}_{\mathit{h}}\right)\end{array} $ (16)通过这种方式, SimplE不仅对不合称的关系告捷建模, 其抒发才能也权贵提高.
(2) 张量的判辨样子
除了上述双线性模子以外, 张量判辨模子还可以诓骗其他判辨样子表见常识.
HolE[55]诓骗实体向量的轮回关连性, 后果对三元组交互过程进行压缩, 有用减少了模子参数目. HolE将实体镶嵌${h}$与关系镶嵌$ \mathit{t} $斡旋界说为一维向量, 诓骗轮回关联运算(circular correlation)将头实体和尾实体的镶嵌向量合成一个组合向量$ \mathit{h}\mathit{*}\mathit{t}\in R $, 再对组合向量与关系镶嵌向量进行匹配, 因此其评分函数如下:
$ \begin{array}{c}\left(\mathit{h}\mathit{*}\mathit{t}\right)\times r\end{array} $ (17)由于轮回关联运算是完满矩阵乘积运算的压缩, 因此在时间和空间复杂度方面KolE均有彰着上风. 此外, HolE在数学上等效于ComplEx, 可以看作念ComplEx的泛化情况[56].
TuckER[57]是张量判辨模子中独一触及分享参数的模子. 该模子依赖于TuckER判辨[58], 行将一个常识三元组张量判辨为一组向量和一个分享中枢张量$ \mathit{W} $, 评分函数如下:
$ \begin{array}{c}W{\times }_{1}h{\times }_{2}r{\times }_{3}t\end{array} $ (18)${W}$是二元关系矩阵的分享池, 以不同的方式与每个镶嵌向量进行组合. 这意味果然体镶嵌和关系镶嵌的维度在TuckER中互相孤独, 即二者不处于统一向量空间, 实体镶嵌${e}\in {\mathit{R}}^{{\mathit{d}}_{\mathit{e}}}$, 关系镶嵌$\mathit{r}\in {\mathit{R}}^{{\mathit{d}}_{\mathit{r}}}.\;\mathit{W}$的样子取决于实体和关系的向量维度, $ \mathit{W}\in {\mathit{R}}^{{\mathit{d}}_{\mathit{e}}\times {\mathit{d}}_{\mathit{r}}\times {\mathit{d}}_{\mathit{e}}} $. TuckER判辨的清楚图如图8所示.
图 8 TuckER判辨清楚图不同于该系列其他模子含有大都连接条目, TuckER模子中的常识特征主要由分享核$ \mathit{W} $的学习体现, 这对于往日进一步将模子进行多元化关系聚合预测的扩充有着较大的上风.
3.3 基于神经收罗的常识清楚与预测神经收罗模子平常将聚合预测任务调遣为普通的深度学习任务, 字据输入的三元组信息, 诓骗神经收罗学习分享参数(如权重${W}$和偏差${b}$), 识别三元组之间的关联和进军模式. 进行聚合预测任务时, 常识镶嵌向量的清楚学习平常与神经收罗中的分享参数共同学习. 分享参数的加入一方面使得神经收罗模子在进行常识清楚学习时更有表现力, 但另一方面也带来时间复杂度高、可解释性差、难以覆按以及容易过拟合等问题, 这亦然面前神经收罗模子靠近的主要挑战.
在早期计划中, 常识图谱清楚学习规模代表性的神经收罗模子有MLP[18]和SLM[59]等. 跟着神经收罗的发展, 用于常识清楚学习和聚合预测的神经收罗不再古板于单一的神经收罗, 越来越多的收罗模子逐步被用于这一规模, 其中应用最平常的是卷积神经收罗(convolutional neural network, CNN)[60], 其优化主张主要在于模子对三元组信息的特征索求过程(卷积方式). 此外, 轮回神经收罗(recurrent neural network, RNN)[61]、重眼力机制(attention mechanism, AM)[62]和胶囊收罗(CapsNets)[63]等神经收罗模子也被逐步应用于该规模. 本节主要先容最新的神经收罗模子计划进展.
(1) 卷积神经收罗
ConvE[64]是第1个使用多层卷积神经收罗措置聚合预测任务的模子, 在进行聚合预测时, 该卷积神经收罗的结构可以被看作一个分类器, 分类的类别个数即该数据集的总实体数$ \left|E\right| $, 通过对每个尾实体镶嵌的评测打分, 齐备该常识缺失的尾实体预测, 其评分函数如下:
$ \begin{array}{c}{f}_{r}\left(h, t\right)=g\left(\mathit{W}\times g\left(\left[\mathit{h};\mathit{r}\right]{\text{⊛} }\mathrm{\omega }\right)+{b}\right)\times t\end{array} $ (19)ConvE的收罗构成部分包括一个单层的卷积收罗, 一个投影层和一个内积层. 该模子将三元组中的实体和关系均清楚为一维的镶嵌向量, 当诡计一条常识的评测得分时, 模子将头实体镶嵌向量$ \mathit{h} $和关系镶嵌向量$ \mathit{r} $勾通并重塑为$ \left[\mathit{h};\mathit{r}\right] $, 并对该向量进行二维堆叠(Convolutional 2D), 进而得到一个尺寸为${p}$的输入向量. 该输入的二维向量先通过一个带有${m}\times n$的过滤器卷积层, 之后通过带有${d}$个神经元和一组权值${W}$的全勾通层, 临了使用点积将输出与尾实体镶嵌向量$ \mathit{t} $结合, 得到该二元关系常识三元组的评测得分.
尽管独创性地无情二维卷积神经收罗模子并将其应用于常识清楚学习规模, 但由于只党羽实体向量和关系向量进行了卷积操作, ConvE依然难以很好地索求通盘三元组的关联特征. 这一纰谬在后续无情的模子中得到了调动.
ConvKB[65]延续了卷积的特征索求操作, 但不同于ConvE仅党羽实体向量和关系向量进行卷积操作, ConvKB将三元组中头尾实体和关系对应的镶嵌向量同期进行卷积操作, 使得三元组中全部实体关系的特征被一同索求. 在ConvKB中, 实体和关系均被构建为疏浚大小的一维向量, 头实体向量$ \mathit{h} $、关系向量$ \mathit{r} $和尾实体向量$ \mathit{t} $被勾通成一个${d}\times 3$的输入矩阵$ \left[\mathit{h};\mathit{r};\mathit{t}\right] $, 之后该输入矩阵被传递到一个带有尺寸为$1\times 3$的过滤器的卷积层. 此外, 其余的收罗结构与ConvE近似. 固然告捷索求出三元组的合座特征, 但该模子仅适用了普通的一维卷积, 使得模子对三元组向量之间的交互关系捕捉才能有所着落.
ConvR[66]基于卷积神经收罗模子进一步对三元组信息的处理进行调动. ConvKB中的一维卷积仅能捕捉向量拼接处的交互关系, ConvE使用的二维卷积固然比一维卷积获取了更多的交互信息, 但捕捉的交互关系依然有限, 仅限于矩阵堆叠相接行的交互信息. 为进一步挖掘三元组之间的语义信息, 则需要令实体向量与关系向量更充分地进行交互. 基于此, ConvR将关系的镶嵌获胜行动卷积核, 党羽实体的镶嵌向量进行卷积, 从而得回头实体与关系皆备的交互. 对于任何常识三元组$ \left(h, r, t\right) $, 头实体向量$ \mathit{h} $率先被重塑为一个$ {d}_{{e}_{m}}\times {d}_{{e}_{n}} $的矩阵, 之后将关系${r}$的镶嵌向量重构为${m}\times n$的过滤器, 以代替ConvE中外加的全局过滤器.
InteractE[67]雷同通过加多实体和关系向量之间的交互对ConvE进行调动. 但不同于ConvR获胜将关系镶嵌行动卷积核, InteractE主要在向量堆叠过程中进行了优化. 对输入的头实体向量$ \mathit{h} $和关系向量$ \mathit{r} $分别进行堆叠、轮回轮流和元旧交叉排列3种堆叠方式. 此外, InteractE还诓骗轮回卷积代替普通卷积以进一步增强交互. 图9展示了InteractE无情的3种向量堆叠方式.
图 9 InteractE向量堆叠方式从上述模子的调动过程中可以看出, 基于卷积神经收罗的聚合预测模子发展主要体当今不同收罗对三元组常识向量的处理方式, 即用于索求三元组特征的卷积操作上. 为了更好地对比不同卷积神经收罗模子对三元组的卷积方式, 咱们将上述模子的卷积层在图10进行对比展示. InteractE模子同ConvE模子卷积处理相似, 只不外图像堆叠部分继承了图9所示的堆叠方式.
图 10 卷积处理对比图(2) 其他神经收罗
ParamE[68]获胜将神经收罗的参数行动关系的镶嵌向量$ \mathit{r} $, 即针对不同的关系覆按了不同参数的收罗. 收罗的输入是头实体镶嵌向量$ \mathit{h} $, 收罗输出与ConvE近似, 临了使用点积将输出与尾实体镶嵌向量$ \mathit{t} $结合得到三元组的评测得分, 评分函数见公式(20). 诓骗上述架构, ParamE可以彭胀到各样收罗结构中, 文件[68]分别诓骗了多层感知机、卷积神经收罗和门控收罗进行了实验.
$ \begin{array}{c}{f}_{r}\left(h, t\right)=\sigma \left(\mathit{W}\times {{f}}_{{n}{n}}\left(\left[\mathit{h};\mathit{r}\right]\right)+{b}\right)\times t\end{array} $ (20)CapsE[69]诓骗胶囊收罗对三元组特征进行编码, 其孝顺主要在于初度将胶囊收罗的结构引入常识清楚学习中. 胶囊收罗由被称为胶囊的神经元组构成, 每个胶囊神经元输出一个向量, 层间胶囊的勾通通过路由战术进行. 比较于普通神经收罗中的神经元只可输出一个具体的值, 胶囊神经元的上风在于其输出的向量可以更好地清楚一类模式, 这使得胶囊收罗比起普通神经收罗有着更好的特征索求才能和泛化才能. CapsE模子在ConvKB的特征索求过程基础上加入两个胶囊层, 进一步捕捉三元组相应维度中的特征, 其评分函数具体界说如下:
$ \begin{array}{c}{f}_{r}\left(h, t\right)=\left|capsnet\left(g\left(\left[\mathit{h}, \mathit{r}, \mathit{t}\right]* \mathrm{\omega }\right)\right)\right|\end{array} $ (21)RSN[70]是首个基于轮回神经收罗的常识清楚学习模子, 作家将轮回神经收罗与残差学习相结合, 以有用地拿获常识图谱里面和常识图谱之间的历久关系依赖性. 固然轮回神经收罗索求局部特征的才能不如卷积神经收罗, 但这类模子在常识清楚学习与聚合预测中, 可以使用多个轮回层分析从覆按汇聚索求的全部常识序列, 并以实体-关系链的旅途信息存储, 从而对通盘常识图谱的关联关系特征有更好的主办. 齐备过程中, 作家先使用偏置立时游走对常识图谱的旅途进行采样, 之后再诓骗RSN对关系旅途进行建模, 其评分函数具体界说如下:
$ \begin{array}{c}\sigma \left(rsn\left({\mathit{h}}_{\mathit{p}}\mathit{r}\right)\times \mathit{t}\right)\end{array} $ (22) 3.4 基于图神经收罗的常识清楚与预测图神经收罗(graph neural network, GNN)[71]是一种有益对图结构数据进行清楚学习的神经收罗模子. 由于现实糊口中大都信息以图数据的样子存在, 如交通收罗、应对收罗、用户与家具交互信息等, 为更准确和机动地对这类数据建模, 计划者们将具有刚劲建模才能的神经收罗引入图结构中, 构造了图神经收罗. 行动勾通主义与符号主义的有机结合产物, GNN不仅使深度学习模子大略应用在图这种非欧几里德结构上, 还为深度学习模子赋予了一定的因果推理才能[72]. 因此, 如故无情, 图神经收罗受到了学术界和工业界的平常神气, 发展马上. 几年内, 各样图神经收罗模子大都显露, 图卷积收罗(graph convolution network, GCN)[73]、图重眼力收罗(graph attention network, GAT)[74]和图自编码器(graph autoencoder, GAE)[75]等模子被陆续无情. 诓骗GNN在学习节点清楚上的上风, 将其应用于常识图谱规模可以更好地挖掘实体节点之间的深层关联, 提高清楚学习准确性, 援手完成节点分类、聚合预测等卑劣任务, 匡助构建并补全常识图谱.
GNN诓骗“信息传播”的想想对图数据进行处理. 通过学习映射团员函数${f}$, GNN令图中每个节点连接团员自身与相邻节点的特征信息, 并迭代更新自身的特征清楚.
面前, 已有许多文件对图神经收罗规模进行了较为详细的综述[62, 76, 77], 本节主要以用于常识图谱聚合预测的图神经收罗模子瞎想为例, 重心先容图神经收罗在常识图谱清楚学习规模上的应用. 由于原始的图神经收罗架构只针对节点进行信息团员, 导致其无法对常识图谱中的关系镶嵌进行建模. 因此, 应用于常识图谱规模的图神经收罗模子需要针对关系镶嵌对其架构进行调动.
$ \begin{array}{c}{\mathit{h}}_{\mathit{v}}^{\left(\mathit{k}\right)}=f\left({\displaystyle\sum }_{\mathit{u}\in \mathcal{N}\left(\mathit{v}\right)}{\mathit{W}}^{\left(\mathit{k}\right)}{\mathit{h}}_{\mathit{u}}^{\left(\mathit{k}-1\right)}\right)\end{array} $ (23)R-GCN: Schlichtkrull等东谈主[78]最早独创了诓骗GCN框架构建常识图谱关系收罗的先河, 在2018年无情R-GCN模子. 在编码过程中, 针对每个关系${r}$, R-GCN构建了与之对应的关系调遣矩阵$ {\mathit{W}}_{\mathit{r}} $, 并诓骗$ {\mathit{W}}_{\mathit{r}} $对该关系勾通的邻居实体节点进行调遣操作. 通过这种方式, R-GCN告捷对常识图谱的关系信息进行建模. 此外, R-GCN还通过自环的方式保留自身节点的信息, 以此优化GCN收罗架构. 在解码器的采纳上, Schlichtkrull等东谈主采纳了DistMult行动评分函数, 并诓骗交叉熵亏本进行优化. R-GCN的节点更新过程在公式(22)中界说:
$ \begin{array}{c}{\mathit{h}}_{\mathit{v}}^{\left(\mathit{k}\right)}=f\left({\displaystyle\sum }_{\left(\mathit{u}, \mathit{r}\right)\in \mathcal{N}\left(\mathit{v}\right)}{\mathit{W}}_{\mathit{r}}^{\left(\mathit{k}\right)}{\mathit{h}}_{\mathit{u}}^{\left(\mathit{k}-1\right)}\right)\end{array} $ (24)固然通过关系调遣矩阵$ {\mathit{W}}_{\mathit{r}}^{\left(\mathit{l}\right)} $告捷清楚出关系信息, R-GCN的瑕疵也较为彰着: 一方面, 该模子对于关系的清楚方王法实体与关系无法进行结伙学习, 从而难以挖掘实体之间的深层交互关系; 另一方面, 跟着关系种类的增多, 关系调遣矩阵也会随之增多, 这将导致模子出现参数爆炸的问题, 从而无法不绝进行覆按.
CompGCN: Vashishth等东谈主[79]无情了一种用于措置上述问题的模子CompGCN. 率先, CompGCN将图中的关系加入清楚学习中, 将关系行动镶嵌向量与节点向量进行结伙学习. 这意味着在GCN迭代更新时, 节点和关系将一皆进行更新. 其次, Vashishth等东谈主瞎想了一组基向量$\{{\mathit{v}}_{1}, {\mathit{v}}_{2}, \ldots , {\mathit{v}}_{\mathit{B}}\}$, 通过基向量加权的方式表见常识图谱中总共的关系镶嵌, 从而权贵缩短了大都关系带来的参数复杂度. 此外, CompGCN还丰富了边的类型, 给边加入了反向关系类型与自轮回关系类型, 进一步增强模子的抒发才能. CompGCN的节点更新过程如下:
$ \begin{array}{c}{\mathit{h}}_{\mathit{v}}^{\left(\mathit{k}\right)}=f\left({\displaystyle\sum }_{\left(\mathit{u}, \mathit{r}\right)\in \mathcal{N}\left(\mathit{v}\right)}{\mathit{W}}_{\mathbf{\lambda }\left(\mathit{r}\right)}^{\left(\mathit{k}\right)}\mathbf{\phi }\left({\mathit{h}}_{\mathit{u}}^{\left(\mathit{k}-1\right)}, {\mathit{h}}_{\mathit{r}}^{\left(\mathit{k}-1\right)}\right)\right)\end{array} $ (25)其中, 组合函数$ \mathrm{\phi } $代表结伙学习过程中, 节点镶嵌和关系镶嵌3种不同的组合方式, 即进行减法操作, 乘法操作和轮回操作. 在解码阶段, CompGCN分别使用了TransE, DistMult和ConvE这3种模子的评分函数进行打分. 从实验效果上看, TransE覆按速率最快但效果较差, ConvE覆按速率最慢但效果最好.
WGCN: Shang等东谈主[80]无情了带权重的图卷积收罗WGCN模子以进一步提高图神经收罗编码器的抒发才能. 该模子将常识图谱看作多个单一关系的子图, 每个子图只包括一种类型的边. 在信息团员时, 该模子引入可学习的权重, 该权重由团员过程中相邻实体节点之间的关系类型决定. 除了对编码器的加权优化, 该作家的另一个孝顺是调动了ConvE模子, 为ConvE去掉了向量重组(reshape)形态, 保留了三元组的语义性情, 并把该模子行动聚合预测的解码器, 与WGCN一皆拼接为一个端到端的预测模子SACN.
GAT: Velivckovic等东谈主[74]、Nathani等东谈主[81]、Harsha等东谈主[82]将图重眼力收罗引入常识图谱规模构建出KBGAT模子. GAT也可以领路为加权的GCN收罗, 其与WGCN的区别是GAT收罗中的关系权重均通过attention收罗层诡计得出, 而WGCN收罗中并未明确先容其权重的起首. 加权的优化权贵增强了模子的抒发才能, 在进行关系多元化的扩充中也有较强的鉴戒真谛.
3.5 小 结本节率先先容了4大类面向聚合预测的常识清楚学习步调的建模想路与齐备经过, 即: 基于平移距离的步调, 基于张量判辨的步调, 基于传统神经收罗的步融合基于图神经收罗的步调, 之背面向二元关系聚合预测任务概述了每类步调代表模子的演化过程过甚原因.
为针对面向二元关系聚合预测的常识清楚学习模子进行更直不雅的对比, 表1追念了上述4类清楚学习步调中不同模子的评分函数与各种步调的优化主张过甚性情. 如本文第2.1节所述, 基于图神经收罗的模子在预测经过上不同于前3种模子, 图神经收罗本人仅对须常识清楚学习部分, 预测时仍需要借助上述3种模子的评分函数行动预测诡计.
表 1 模子评分函数与优化主张对照表表1中触及的运算符号界说如下: $ \odot $: 元素乘积; ${\mathrm{\theta }}_{{r}}$: 荒芜度, 具体界说见公式(9); $ \mathbf{*} $: 轮回关联运算; ⊛: 卷积运算; ${c}{a}{p}{s}{n}{e}{t}$: 胶囊收罗层; $ rsn $: RSN收罗层$;\;{{f}}_{{n}{n}}:{通}{用}{神}{经}{网}{络}{层}$; $ g $: 通用激活函数; $ \mathrm{\sigma } $: Sigmoid激活函数; $ \mathrm{\omega } $: 卷积滤波器; $ {\mathrm{\omega }}_{r} $: 诓骗关系$ r $得到的卷积滤波器.
4 面向多元化关系聚合预测的常识清楚学习步调多元化关系的聚合预测中包含了多元关系预测与超关系预测. 这两种聚合预测的步调均是二元关系下预测步调的扩充, 放在一皆愈加便于对比分析. 因此, 咱们将多元关系和超关系的聚合预测步调放在统一节进行叙述.
同二元关系的聚合预测近似, 咱们将常识清楚学习按照语义建模方式分类, 分为张量判辨、平移距离、传统神经收罗和图神经收罗4类. 本节将重心概述这4类模子进行多元化扩充的方式, 以及模子对于多元化关联信息的团员步调, 并对每个模子的改进点和纰谬进行对比追念.
4.1 基于平移距离的多元化常识清楚与预测面前, 基于平移距离的多元化模子有m-TransH[24]和RAE[34], 均基于多元关系清楚样子.
m-TransH: Wen等东谈主[24]初度姿色了用于聚合预测的多元关系范例清楚, 搭建出其数学模子, 并率先无情了面向多元关系聚合预测的常识清楚学习模子m-TransH. 该模子对本文第3.1节所分析的TransH模子进行了多元关系扩充, 在沿用TransH映射想想的基础上, 将实体与关系的镶嵌向量按照其相对位置信息关联起来, 并构成元关系(meta ralation), 通过超平面范数向量$ {W}_{r} $, 将元关系映射到对应关系的超平面中. 其亏本函数如下:
$ \begin{array}{c}{f}_{r}\left(t\right)=|{\displaystyle\sum }_{\mathbf{\rho }\in \mathcal{M}\left({\mathit{R}}_{\mathit{r}}\right)}{\mathit{a}}_{\mathit{r}}\left(\mathbf{\rho }\right){\mathit{P}}_{{\mathit{n}}_{\mathit{r}}}\left(\mathit{t}\left(\mathbf{\rho }\right)\right)+{\mathit{b}}_{\mathit{r}}{|}^{2}, t\in {\mathcal{N}}^{\mathcal{M}\left({\mathcal{R}}_{{r}}\right)}\end{array} $ (26)其中, $ \mathcal{M}\left({\mathit{R}}_{\mathit{r}}\right) $清楚触及关系$ {\mathit{R}}_{\mathit{r}} $的一组实体, ${t}\left(\mathbf{\rho }\right)$清楚变装$ \mathbf{\rho } $对应的实体, $ {\mathit{P}}_{{\mathit{n}}_{\mathit{r}}}\left(\mathit{Z}\right) $清楚向量$ \mathit{Z} $在超平面的投影, $ {\mathit{b}}_{\mathit{r}} $和$ {\mathit{n}}_{\mathit{r}} $清楚单元长度的正交向量. 当所计划系均为二元关系时, 该模子将退化为TransH模子.
固然元关捆绑构匡助m-TransH模子完成了多元关系在超平面中的映射, 但这种实体与关系精细耦合的样子以及严格的位置限定会导致信息丢失的问题. 举例, 在多元关系中, 清楚列举的多个实体之间互换位置不会导致整条常识的语义偏差, 但限定其位置关系反而导致过失的产生.
RAE: Zhang等东谈主[34]通过将多层感知器(MLP)引入m-TransH模子的方式, 对m-TransH进行了优化调动, 构建出RAE模子. 该模子诓骗MLP对实体的关连性进行建模, 并将建模收尾耦合进评分函数中, 提高了模子的准确率. 此外, 作家将多元关系的聚合预测问题从预测每条常识中的一个缺失实体, 扩充到预测每条常识中的一个或多个缺失实体. 基于这一任务需求, 作家无情了实例重构算法. 通过诡计不同常识中实体之间的关连性, 算法以基于模式的过滤方式进行实例重构, 从而缩短算法复杂度. 基于此, RAE模子构建的亏本函数界说如下:
$ \begin{array}{c}{E}_{I}\left({\mathrm{\Theta }}_{I}, \mathrm{\phi }\right):={\displaystyle\sum }_{r\in \mathcal{R}}\left({\displaystyle\sum }_{t\in {\mathcal{T}}_{{r}}}{f}_{r}\left(t\right)+{\displaystyle\sum }_{{t}^-\in {\mathcal{T}}_{{r}}^-}{R}{e}{L}{U}\left(C-{f}_{r}\left(t\right)\right)\right)\end{array} $ (27)由于受到平移距离模子在多元关系中的语义限定, 这两种模子均只可捕捉实体之间的关联性, 导致其进行聚合预测时, 只可进行实体预测(键值预测)而不成进行关系预测(变装预测).
4.2 基于张量判辨的多元化常识清楚与预测面前, 基于张量判辨的多元化模子有GETD[83]和S2S[84], 亦然基于多元关系的预测模子.
GETD: Liu等东谈主[83]将TuckER扩充到多元关系中, 无情了第1个面向多元关系聚合预测的张量判辨模子GETD, 其清楚图如图11所示.
图 11 GETD 对 TuckER 的扩充清楚图[83]在N元关系的清楚学习中, 该模子先将TuckER模子中的三阶中枢张量W重塑为$ \left(N+1\right) $阶张量$ \widehat{W} $, 再用张量环[85]判辨重塑$ \widehat{W} $, 以此简化中枢张量, 减少参数目, 缩短模子复杂度. 其评分函数具体界说如下:
$ \begin{array}{c}\phi \left({i}_{r}, {i}_{1}, \ldots , {i}_{n}\right)=\widehat{\mathcal{W}}{\times }_{1}{r}_{{i}_{r}}{\times }_{2}{e}_{{i}_{1}}{\times }_{3}\ldots {\times }_{n+1}{e}_{{i}_{n}}=TR\left(1, \ldots , {\textit{z}}_{k}\right){\times }_{1}{r}_{{i}_{r}}{\times }_{2}{e}_{{i}_{1}}{\times }_{3}\ldots {\times }_{n+1}{e}_{{i}_{n}}\end{array} $ (28)作家通过将该模子与对TuckER模子获胜进行$ \left(N+1\right) $阶中枢张量扩充的n-TuckER模子的对比实验, 解释了GETD模子的算法复杂度彰着缩短, 模子抒发才能权贵提高.
尽管告捷将张量判辨模子扩充到多元关系中, GETD模子依然存在流弊. 由于每条常识的元数获胜影响着张量阶数过甚判辨方式, 因此模子在处理不同元数的常识时必须分别进行分割与覆按. 此外, 即便诓骗张量环对中枢张量进行了简化, GETD模子的复杂度仍达到$ {d}^{3} $级别, 比起其他多元关系模子, 依然存在难以覆按的问题.
S2S: Di等东谈主[84]针对上述GETD模子的纰谬进行了调动, 无情了一种全新的张量判辨模子S2S. 该模子诓骗分割镶嵌的想想, 将每个实体或关系镶嵌分割为N份(N代表该常识库中最高元数的常识), 令不同元数的常识分享不同的镶嵌片断, 其清楚图如图12(a)所示. 通过这种方式, 该模子可以夹杂学习不同元数的镶嵌向量, 克服了GETD模子必须对不同元数常识分开覆按的纰谬. 其评分函数具体界说如下:
图 12 S2S 模子清楚图[84] $ \begin{array}{c}{f}_{\textit{z}}\left(s, H;{\mathcal{Z}}^{{{n}}_{{s}}}\right)={\displaystyle\sum }_{{j}_{r}, {j}_{1}, \dots , {j}_{n}}{\mathcal{Z}}_{{k}}^{{{n}}_{{s}}}{\times }_{1}{r}_{{i}_{r}}^{{j}_{r}}\times_{2} \ldots {\times }_{{n}_{s}+1}{e}_{{i}_{{n}_{s}}}^{{j}_{{n}_{s}}}\end{array} $ (29)此外, 文件[84]指出现存常识库中的多元关总共据相配荒芜, 用包含大都参数的密集型的中枢张量不仅会导致过参数化的问题, 而且无法对此类数据进行很好的抒发. 基于此, S2S模子将高贵的中枢张量荒芜化, 将其判辨为多个如图12(b)所示的对角矩阵. 模子将荒芜化的中枢张量视为立时变量, 斥地了一个针对该立时变量的概率漫衍模子, 诓骗神经结构搜索算法NAS对不同的多元关系常识进行自动化搜索, 通过连接采样和迭代更新概率漫衍, 以获取效果最好的荒芜张量判辨模子.
4.3 基于神经收罗的多元化常识清楚与预测由于不受限于明确语义建模, 神经收罗模子在多元关系的聚合预测中大都显露, 其收罗模子主要基于卷积神经收罗. 此外, 超关系的倡导亦然在进行神经收罗建模时无情的, 这是由于带有更明确语义信息的张量判辨和平移距离模子面前阶段都难以对这一更机动常识清楚样子进行建模. 本节将对基于多元关系和超关系的神经收罗模子分开进行叙述.
(1) 多元关系下的神经收罗模子
NaLP: Guan等东谈主[86]于2019岁首度使用神经收罗模子对聚合预测任务进行多元化扩充, 无情了NaLP模子. 该模子诓骗多元关系的常识清楚样子, 将每个N元常识判辨为(N+1)个变装-键值对, 并将这些变装-键值对行动镶嵌向量传递到卷积层进行特征索求. 特征索求之后模子用FCN收罗对全部的关联关系进行建模, 并给每条常识进行评测打分. 为对模子进行进一步优化, Rosso等东谈主[25]2020年又无情了该模子的变体NaLP-fix, 在原模子合座结构不变的基础上增添了一种负采样战术, 提高了该模子的性能.
HpyE: Fatemi等东谈主[32]受到SimplE模子的启发, 无情了HSimplE与HypE模子, 为具有不同性情的常识(元数不同的多元关系常识)瞎想了一组卷积内核, 并对特定位置的实体使用特定的过滤器进行镶嵌, 以提高模子的抒发才能. 但该操作也导致了该模子存在与GETD模子近似的问题, 即坚苦机动性, 且只可处理固定元数的常识. 该文件的改进点在于尝试了常识超图的常识清楚样子. 固然该常识清楚样子面前仍有较大局限性, 但常识超图依然是常识图谱规模值得计划的进军发展主张, 因此这一尝试仍具有进军真谛.
要而论之, 基于多元关系的神经收罗模子依然存在较大限定: (1)此类模子存在神经收罗模子共有的流弊, 即触及参数较多、覆按难度较大, 以及可解释性较差等问题, 这些问题在扩充到多元关系的聚合预测后愈加权贵; (2)模子受到多元关系的常识清楚建模所限定, 将常识判辨为等价的多个变装-键值对, 在特征索求阶段不分主次地索求全部信息, 对预测收尾形成负面影响.
(2) 超关系下的神经收罗模子
NeuInfer: Guan等东谈主[87]率先无情用主三元组和附加键值对的样子进行常识清楚的想想, 并无情基于该清楚样子建模的神经收罗模子NeuInfer. 该模子继承FCN卷积模块对常识镶嵌进行处理, 分别诡计出主三元组拼接向量的有用性得分, 以及主三元组与援手键值对分别拼接后的兼容性评分, 临了将两项评分加权乞降得到最终的评测得分. 该论文并未明确无情“超关系”的倡导, 但NeuInfer模子是第1个使用超关系想想对常识进行清楚学习的模子.
HINGE: Rosso等东谈主[25]无情的HINGE模子是面前基于多元化关系的神经收罗算法中性能最好的模子. 作家在论文中第1次明确无情“超关系”的倡导, 并使用卷积神经收罗框架对其进行建模. HINGE将N元常识拆分为一个主三元组和(N – 2)个限定词键值对, 分别用三元组的镶嵌向量与每对限定词的镶嵌向量进行卷积, 形成五元组向量, 再对该五元组向量清楚进行最小池化操作, 以此捕捉每条常识中主三元组和其限定词之间的关联关系特征.
固然保留常识的超关系本质使HINGE模子得回了极佳的准确率, 但也令该模子存在时间复杂渡过高的致命纰谬. 主三元组与每个援手限定词对迭代卷积的操作给该模子带来了弘远的时间复杂度. 此外, HINGE模子必须对总共常识进行章程覆按, 即按照常识的限定词数目升序对总共的常识进行排序. 这一操作进一步加多了模子的时间支出, 导致HINGE模子在大范围常识图谱中的使用变得极为不现实.
为展示不同多元化常识清楚样子下神经收罗模子对于常识的处理区别, 图13展示了NaLP模子、NeuInfer模子和HINGE模子的特征索求对比清楚图.
图 13 面向多元化关系预测的神经收罗特征索求对比图 4.4 基于图神经收罗的多元化常识清楚与预测StarE: Galkin等东谈主[88]无情了第1个基于图神经收罗进行超关系扩充的模子StarE. 同其他用于聚合预测的图神经收罗模子近似, 该模子以编码-解码结构构成. 编码过程诓骗图神经收罗的音问传递机制, 对超关系常识清楚样子进行建模与清楚; 解码过程对应预测过程. 在解码器的采纳上, 该作家分别选用了ConvE, ConvKB和Transformer这3种模子进行预测, 最终实验效果最好的是StarE+Transformer的组合.
StarE对CompGCN模子进行了超关系下的扩充, 将每个代表援手信息的限定词键值对也进行了镶嵌向量清楚, 并与主三元组中的实体镶嵌和关系镶嵌一皆进行团员. 其节点特征向量更新过程如下:
$ \begin{array}{c}{\mathit{h}}_{\mathit{v}}=f\left({\displaystyle\sum }_{\left(\mathit{u}, \mathit{r}\right)\in \mathcal{N}\left(\mathit{v}\right)}{\mathit{W}}_{\mathbf{\lambda }\left(\mathit{r}\right)}{\mathbf{\phi }}_{\mathit{r}}\left({\mathit{h}}_{\mathit{u}}, \mathbf{\gamma }{\left({\mathit{h}}_{\mathit{r}}, {\mathit{h}}_{\mathit{q}}\right)}_{\mathit{v}\mathit{u}}\right)\right)\end{array} $ (30)实体镶嵌与关系镶嵌的团员方式如下:
$ \begin{array}{c}\gamma \left({\mathit{h}}_{\mathit{r}}, {\mathit{h}}_{\mathit{q}}\right)=\alpha \odot {\mathit{h}}_{\mathit{r}}+\left(1-\mathrm{\alpha }\right)\odot {\mathit{h}}_{\mathit{q}}\end{array} $ (31)其中, $ \mathrm{\alpha } $是文中缔造的超参数.
即便仅诓骗较为基础的图神经收罗模子对限定词键值对与主三元组进行了毛糙的交互, StarE依然得回了面前多元化关系聚合预测中最好的实验效果, 这也体现出图神经收罗与超关系清楚样子在常识清楚学习与聚合预测任务上的先进性和极大的发展后劲.
4.5 小 结本节主要概述了平移距离、张量判辨、传统神经收罗和图神经收罗4类清楚学习步调进行多元化关系扩充的方式, 并先容了面向多元化关系聚合预测(具体分为多元关系预测和超关系预测)每类步调的代表模子. 字据上述分析叙述, 表2从常识清楚样子、模子类别, 改进点和纰谬4方面对面向多元化关系聚合预测的常识清楚学习步调进行了对比追念.
表 2 面向多元化关系聚合预测的常识清楚学习模子对比结合第3节的内容, 为直不雅对4类模子的性情进行对比, 表3展示了每类模子的建模想路、优瑕疵以及进行多元化扩充的主要想路.
表 3 4类模子对比追念 5 聚合预测实验对比分析本节对不同常识清楚样子下的数据集和3个常用的聚合预测效果评测诡计进行了先容, 通过对比不同常识清楚学习算法在数据集上的聚合预测效果, 详细分析了不同模子的性能与性情.
5.1 数据集对比分析用于聚合预测任务的基准数据集平常是对较完善的常识图谱进行采样所得. 数据集内的数据一般被分为覆按集、考证集和测试集.
(1) 基于二元关系的数据集
FB15k, WN18, FB15k-237, WN18RR, 以及YAGO3-10[36, 64, 89]是面前较常用于二元关系的聚合预测的5个数据集, 数据汇聚的常识以三元组样子存储. 由于这些数据集已经被诸多文件[23, 54]分析得较为透顶, 本节不再赘述其存储样子, 而重心概述其抽取方式与优瑕疵.
FB15k由Bordes等东谈主[36]无情. 作家抽取出常识图谱FreeBase中总共被说起次数进步100次, 且存在于维基聚合的实体, 之后汇集了总共触及这些实体的常识三元组, 并对总共包含大都数字信息和专知名词的常识进行过滤. 此外, 该数据集将FreeBase中触及的多元关系转机为多个二元关系组. 如本文第2节所述, 这一滑化操作极猛进程影响了原始图的结构和语义.
WN18雷同由Bordes等东谈主[36]无情. 不同于FB15k起首于通用常识图谱, WN18从规模常识图谱WordNet3中索求所得. 为构建WN18, 作家对WordNet3中较少说起的实体和关系进行过滤, 汇集了剩余说起较多的实体和关系. WordNet3是一个讲话学常识图谱, 旨在通过提供辞书(也称叙词表)支持当然讲话处理和自动文天职析的计划. 在WordNet中, 实体对应于同义词集, 关系对应于词汇勾通(举例“上义词”). 因此, 该数据集内包含大都实体, 但关总共目较少.
FB15k和WN18是迄今为止最常用于二元关系聚合预测的数据集, 然而均存在不同进程的数据露出问题. 数据露出指覆按汇聚存在大都测试所用的三元组或测试集三元组的毛糙逆向三元组, 这使得一个毛糙用于不雅察特征的模子、或基于逆向关系检测的反向模子, 都可以在该数据集上松驰达到很好的测试收尾. 因此, 常识清楚学习模子在这两个数据集上的效果平常较好, 这对于模子性能的评测存在负面影响. 为措置这一问题, 计划东谈主员从头优化索求出FB15k和WN18的子数据集FB15k-237和WN18RR.
FB15k-237是Toutanova等东谈主[53]无情的FB15k子数据集. 作家从FB15k数据汇聚抽取出237个说起次数最多的关系, 并汇集了总共与这些关系关连的常识, 同期删除了覆按汇聚总共与测试集数据等价或存在逆关系的常识. 通过该方式, 作家确保覆按汇聚存在勾通关系的实体在考证集和测试汇聚均不获胜勾通, 极猛进程措置了数据露出的问题.
WN18RR是Dettmers等东谈主[64]构建的WN18子数据集. 为措置WN18的数据露出问题, 作家通过近似FB15k-237的过滤方式构建更具挑战性的WN18RR数据集. 但WN18RR数据集存在彰着纰谬, 即测试汇聚存在212个莫得出当今覆按汇聚的实体, 导致6.7%的测试常识历久无法被正确预测.
YAGO3-10由Dettmers等东谈主[64]从常识图谱YAGO3[87]中采样所得. 该数据集是包含实体最多的聚合预测数据集, 其中三元组主要触及东谈主的姿色属性(举例东谈主的国籍或性别). 作家采纳了总共存在10个以上不同关系的实体, 并汇集了触及这些实体的全部常识三元组. 不同于FB15k和FB15k-237, YAGO3-10数据集还保留了常识图谱中对于文本属性的常识. 此外, 逆向模子在YAGO3-10数据汇聚灾祸的实验收尾[63]也解释了该数据集在措置数据泄漏问题的有用性.
为了更直不雅地对这5个数据集进行对比, 咱们将这5个数据集的关连属性列在表4中.
表 4 二元关总共据集属性对照表(2) 基于多元关系的数据集
JF17K和Wikipeople是面前用于多元关系聚合预测的主流数据集.
JF17K: Wen等东谈主[24] 2016年从常识图谱Freebase中索求出JF17K数据集, 用于更好地计划包含非二元关系的常识镶嵌. 作家下载了完满RDF形态的FreeBase数据, 对其中被说起次数少量的实体, 以过甚中触及字符串、排列类型或数字信息的三元组进行过滤, 之后从其余三元组中收复出多元事实常识的清楚. 临了, 作家进行了进一步过滤, 以确保每个实体至少触及5个实例.
固然独创性无情多元关系的清楚样子并抽取出对应数据集, Wen等东谈主抽取的JF17K数据集也存在大都数据泄漏问题: 测试汇聚44.5%的主三元组也出当今覆按汇聚. 此外, 该数据集无情时并未缔造考证集, 导致部分后续模子在使用该数据集时需要从覆按汇聚立时抽取一部分数据行动考证集.
Wikipeople: Guan等东谈主[86]在2019年从常识图谱Wikidata中抽取出与东谈主类实体类型关连的多元关总共据集Wikipeople. 作家采纳了Wikidata中总共被说起30次以上的元素, 将与之关连的全部常识以变装-键值对样子进行存储后, 对多元组常识进行去噪, 将总共包含图像元素与包含$\{\mathrm{u}\mathrm{n}\mathrm{k}\mathrm{n}\mathrm{o}\mathrm{w}\mathrm{n}\;\mathrm{v}\mathrm{a}\mathrm{l}\mathrm{u}\mathrm{e}, \mathrm{n}\mathrm{o}\;\mathrm{v}\mathrm{a}\mathrm{l}\mathrm{u}\mathrm{e}\mathrm{s}\}$元素的常识过滤掉, 临了将其余常识以80%:10%:10%的百分比立时辰为覆按集、考证集和测试集.
固然有才能存储多元关系常识, 但Wikipeople数据集所触及的多元关系知知趣配有限, 其在全部常识中的占比不到12%, 若去掉各样数字信息(举例具体日历和其他字符串信息), 剩余的多元关系常识在全部常识中的占比只剩不到3%. 因此, 以该数据集行动基准时, 计划东谈主员难以对常识清楚学习模子在多元关系上的聚合预测进行充分评测.
(3) 基于超关系的数据集
超关系行动多元关系的优化清楚样子, 对基于多元关系的数据集具有兼容性. 关联词, 为弥补Wikipeople和JF17K数据集的纰谬, Galkin等东谈主[88] 2021年从Wikidata中抽取出有益用于超关系聚合预测的数据集WD50K.
av资料库WD50K: 作家收用了一组对应于FB15k-237数据集实体的种子节点, 对于每个种子节点, 索求出其主对象和限定词键值对所对应$ \{\mathrm{w}\mathrm{i}\mathrm{k}\mathrm{i}\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}:\mathrm{I}\mathrm{t}\mathrm{e}\mathrm{m}\} $中的全部语句. 该形态对于对象位置上的数字信息进行过滤, 措置了Wikipeople数据集存在的数字信息过多问题. 此外, 作家还通过删除总共被说起次数少于两次的实体加多数据集确凿度. 为摈斥数据泄漏问题, 作家删除了覆按集和考证汇聚与测试集常识分享主三元组的超关系常识.
WD50K数据汇聚14%的语句至少存在一个限定词键值对(即存在14%的超关系事实常识). 为进一步探究算法模子在超关系常识图谱中进行聚合预测的性能, 作家还从WD50K中抽取出WD50K(33), WD50K(66), WD50K(100)这3个子集(括号内的数字代表超关系常识在全部常识中的占比百分数).
咱们将用于多元化关系聚合预测的3个数据集的进军属性列在表5中(表中实体(N)与关系(N)代表仅出现于多元常识中的实体与关总共目), 以便于进行对比分析.
表 5 多元化关总共据集属性对照表 5.2 聚合预测收尾评测诡计在预测过程中, 聚合预测模子需要将数据汇聚存在的全部实体或关系循序填补进需要预测的常识空白位置中, 并对每一个实体或关系(取决于该空白位置是实体照旧关系)进行打分, 再字据打分收尾进行排序. 基于此, 聚合预测的实验中常用平均秩(mean rank, MR)、平均倒数秩(mean reciprocal rank, MRR)和掷中比率Hits@K (H@K)这3种度量诡计对模子进行预测效果评测[23].
(1) MR度量
MR即对每个聚合预测任务所对应确切谜底在预测收尾中的排行取平均值. 在早期的聚合预测任务中, 计划东谈主员多使用MR行动权衡, 其界说如下:
$ \begin{array}{c}MR=\dfrac{1}{\left|Q\right|}{\displaystyle\sum }_{q\in Q}q\end{array} $ (32)其中, 存在${M}{R}=\left[1, \left|E\right|\right]$, MR的收尾值越小, 则预测效果越好. 由于获胜对收尾取平均值, 该诡计对异常值异常明锐. 因此, 为措置该问题, 计划东谈主员无情MRR度量诡计.
(2) MRR度量
MRR即对每个聚合预测任务所对应确切谜底在预测收尾中排行的倒数取平均值, 其具体界说如下:
$ \begin{array}{c}{\mathit{MRR}}=\dfrac{1}{\left|Q\right|}{\displaystyle\sum }_{q\in Q}\dfrac{1}{q}\end{array} $ (33)MRR存在${M}{R}{R}=\left[\mathrm{0, 1}\right]$, 其值越大, 则预测效果越好.
(3) H@K度量
H@K即预测中正确谜底的排行收尾等于或小于阈值K的比率:
$ \begin{array}{c}H{\text{@}}K=\dfrac{\left|\{q\in Q:q\leqslant K\}\right|}{\left|Q\right|}\end{array} $ (34)H@K的值越高, 模子的预测效果越好. 在聚合预测实验中, K的常用取值有${K}=\{\mathrm{1, 3}, \mathrm{5, 10}\}$. K值越低, 不同模子之间的各异性越彰着[53], 因此在H@1和H@10两个权衡中, 一般情况下更神气H@1的度量收尾.
由于侧重不同, MRR和H@K不成代替相互. MRR取平均值, 侧重于评测模子的合座预测效果; H@K侧重于字据表层具体应用, 基于对预测准确率粒度的不同要求, 进行有针对性的测试评测. 鉴于MR度量对离群值高度明锐, 赋闲性彰着不及于MRR, 本节收用MRR, H@1和H@10这3个评测诡计进行实验效果对比.
固然被使用平常, 然而上述3个评测诡计的瑕疵也较为彰着: MR、MRR和H@K均基于正确谜底在全部预测收尾中的排行进行评测, 当存在排行较高但得分极低的谜底时, 面前评测诡计将无法准确评估模子的优劣, 因此用于聚合预测的常识图谱清楚学习模子还应进一步完善愈加全面高效的评测诡计.
5.3 算法模子实验对比分析表6–表8分别展示了面向二元关系和多元化关系聚合预测的常识清楚学习模子在各自常用数据集上的实验收尾, 实验收尾参考上述文件[23]等(不同模子的实验收尾参考文件援用在模子一栏中, 实验收尾参考文件与无情模子的参考文件不一定为统一文件), 加粗数据清楚面前诡计中最好的收尾.
表 6 部分二元关系聚合预测收尾 表 7 不同数据集之间的模子实验收尾对比(1) 平移距离模子分析
如表6所示, 二元关系中的平移距离模子合座效果不够赋闲. 当触及较为严苛的度量(如H@1和MRR)时, 大部分平移距离模子都表现欠安. 面前, 该系列最有用的模子是RotatE, 其在各数据集的诡计中都表现出众, 这一定进程上成绩于建模时加入的旋转. 该操作大幅度栽培了模子的抒发才能, 使得该模子可以针对1-N关系、对称关系、反对称关系和反向关系均有较好的建模才能, 破碎了传统平移距离模子难以建模复杂关系的纰谬. 固然实验效果不够赋闲, 但由于其直不雅的映射建模方式, 行将三元组清楚为头实体向量到尾实体向量变换过程的映射方式, 使得此类模子在聚合预测的践诺应用中具有较好的可解释性, 同期对传递关系自然具有抒发才能. 此外, 该算法复杂度较小, 在大范围常识图谱的应用上更为现实.
固然明确的语义建模可以带来更强的可解释性, 但从表7和表8所示的多元化关系常识清楚学习模子中可以看出, 受其明确语义建模的影响, 平移距离模子在进行多元化的扩充时更易存在预测限定, 举例m-TransH和RAE均只可进行实体预测而不成预测关系. 平移距离模子在多元化关系的扩充中存在瓶颈, 这亦然平移距离模子进一步的计划重心.
表 8 统一数据集不同多元化关系常识占比的部分模子实验收尾对比[88](2) 张量判辨模子分析
在二元关系中, 张量判辨模子的实验准确率辽远较高且模子较赋闲, 在不同的数据汇聚的实验性能较为斡旋. 具体来说, ComplEx在毛糙数据集上的实验收尾较为隆起; TuckER模子在复杂数据集上的实验效果最好, 但与之对应的是时间复杂度的提高. TuckER判辨所需的时间复杂度达到了$ {d}^{3} $的级别, 这使得该算法在大范围的实践中难以覆按. 该系列算法中的ANALOGY和SimplE模子的实验效果相对较差, 这是由于这两个模子添加了更有针对性的连接, 这些连接在更辽远的数据集上难以施展出其最大效果.
张量判辨模子雷同受其语义建模和大都连接的限定, 其上风在于可解释性比较基于深度学习的神经收罗模子更强, 但在多元化关系扩充的过程中也靠近诸多困难. 除时间复杂度的问题外, GETD只可预测细则元数的常识, 且进步四元关系的常识将不再适用. GETD的作家在论文中将Wikipeople和JF17K两个数据集分别进行了三元常识和四元常识的抽取, 再进行实验(表7中的GETD-3和GETD-4分别代表GETD模子预测三元关系常识图谱和四元关系常识图谱), 因此模子的覆按很有主张性, 预测准确率也更高. 但受限于固定元数的常识, GETD难以与其他模子横向对比. S2S固然措置了GETD只可预测细则元数常识的问题, 但从表7中可以彰着看出该模子在预测低元数关系常识时表现较差, 因此在践诺应用中难以施展其最大作用.
(3) 传统神经收罗模子分析
神经收罗模子的实验效果极猛进程上取决于对三元组信息的特征索求方式. 在二元关系预测中, ConvR令实体向量与关系向量充分交互, 得回的详细实验效果最为出众; ConvKB只对三元组信息进行了毛糙的一维卷积, 其H@1和MRR诡计下的实验收尾相对较差. 此外, 各样化的神经收罗架构也施展着进军作用. 比较较而言, 卷积神经收罗是该规模面前发展最为练习的收罗模子, 基于轮回神经收罗和胶囊收罗的模子表现均不够赋闲, 还有较大发展空间.
由于不受限于明确的语义建模, 神经收罗模子在多元化关系的扩充上限定彰着减少, 从表7中可以彰着看出神经收罗模子在多元化关系预测中的大都使用. 同期, 获益于精深的扩充性, 基于神经收罗模子的超关系的常识清楚学习模子初度出现. 但繁难固定的语义限定也使神经收罗模子更趋近于纯数据驱动的黑盒模子, 因此存在可解释性差的问题. 在往日计划中, 依然需要深远探索基于深度学习的神经收罗常识清楚学习模子的可解释性问题.
(4) 图神经收罗模子分析
图神经收罗模子是现存算法中最有发展出路的一类模子. 该模子行动建模结构化数据的刚劲架构, 不仅使得深度学习模子大略应用在图这种非欧几里德结构上, 还为深度学习模子赋予了一定的因果推理才能[72], 在诸多规模的应用中都有着弘远上风, 这使得该类模子成为常识清楚学习规模的一个进军发展主张.
从表6和表7中可以看出, 用于聚合预测的图神经收罗模子均取得高尚的成绩: 二元关系模子CompGCN在多个诡计上均得回了最好的性能; StarE模子更是将图神经收罗模子扩充到超关系的聚合预测中, 得回了多元化常识清楚学习模子中最好的性能.
尽管面前基于图神经收罗的清楚学习模子性能较好, 但该模子也有其自身的发展瓶颈: 率先, 堆叠多层GNN收罗会令节点之间的特征过于平滑, 导致其性能变差, 因此现存GNN都是浅层结构; 其次, GNN在诡计节点特征时依赖大都邻居节点, 何况需要诡计图的拉普拉斯算子, 这些依赖都导致了弘远的诡计支出, 使GNN难以应用于大范围常识图谱中; 此外, 与传统神经收罗近似, GNN雷同存在可解释性问题[91]. 这些问题在现存的图神经收罗模子中均有所体现, 固然Wang等东谈主[92]和Xu等东谈主[93]针对上述问题进行了针对性的初步探索, 但如何有用措置这些问题依然是图神经收罗模子往日的计划重心.
(5) 多元化关系模子分析
详细来看, S2S是多元关系聚合预测中效果最好的模子. 一方面该模子通过引入分享镶嵌片断的想想破碎了张量判辨模子在多元化扩充中的限定, 且有用缩短了模子复杂度; 另一方面该模子行动张量判辨模子, 其抒发才能优于平移距离模子, 可解释性优于神经收罗模子, 故在多元关系的预测模子中表现隆起.
相较于多元关系模子, 超关系模子存在彰着上风, NeuInfer、HINGE和StarE模子在数据汇聚的优厚表现也解释了这一丝. StarE告捷将图神经收罗与超关系聚合预测相结合, 得回了多元化关系聚合预测任务中最好的实验效果.
尽管实验准确率隆起, 现存的超关系常识清楚学习模子仍存在大都未措置的问题: HINGE和StarE模子过高的时间复杂度和诡计支出, 令其难以适用于大范围的常识图谱应用; 此外, 现存的超关系模子只对限定词键值对与主三元组进行了交互, 忽略了限定词之间的交互关系, 同期限定词与主三元组进行交互的过程中莫得针对不同的限定词进行区分, 仅仅毛糙地对总共限定词键值对与主三元组进行相似的团员操作. 因此, 超关系常识清楚学习模子还有极大的计划和发展空间.
6 往日计划主张要而论之, 面向聚合预测的常识图谱清楚学习从无情于今, 已经取得了权贵的后果. 无论是常识清楚样子的发展, 照旧其预测步调的演化, 中枢都是尽可能从原图谱中挖掘更多关联信息, 并将这些关联信息更有用地融入预测模子中, 以提高模子的抒发和预测才能. 基于此, 该规模还应在以下3个方面进行进一步探索计划.
6.1 模子的深远优化(1) 可解释性
常识清楚与推理的可解释性一直是常识图谱规模备受神气的主张. 面前被平常接受的一种可解释性界说由Miller等东谈主无情, 即可解释性是东谈主们大略领路有筹备原因的进程[94], 平常基于逻辑规则的有筹备推理被以为是更具有可解释性的. 区别于基于践诺和规则的预测具有预先全局可解释性, 面前常识清楚学习模子所具有的可解释性属于过后可解释性[95], 其中平移距离模子和张量判辨模子具有相对较强的可解释性. 一方面这两类模子针对常识元组性情瞎想了具有明确语义的建模方式, 映射过程更为直不雅; 另一方面这两种建模方式更易与逻辑规则连接相结合, 计划者可以通过瞎想如旅途规则或常识档次规则等连接增强模子的可解释性. 基于深度学习的神经收罗模子更趋近于纯数据驱动的黑盒模子, 因此在透明度和可解释性方面历久存在瓶颈, 图结构又给图神经收罗的可解释性带来了新的挑战[93]. 往日基于神经收罗的常识清楚学习计划应与基于逻辑规则的符号推理相结合, 进一步提高预测的可解释性和可靠性.
(2) 可彭胀性
聚合预测的可彭胀性要求模子可以彭胀到不同应用场景与清楚样子的常识图谱中. 具体地, 彭胀到大范围常识图谱要求模子缩短诡计代价, 举例最近的HoLE模子[55]和GETD模子[83]分别诓骗轮回关联运算和张量环简化向量积, 但简化后的模子复杂度依然较高, 无法彭胀到极大范围的实体关系诡计中; 彭胀到多元化关系的常识图谱要求模子可以对于不同元数常识的处理有斡旋架构, 基于神经收罗的模子在可彭胀性上具有一定上风, 其他模子举例S2S[84]诓骗分享镶嵌片断对不同元数常识构造了斡旋架构, 但有用提高该规模模子的可彭胀性仍需进一步进行规则归纳并构建数学上等价的斡旋框架.
6.2 常识清楚样子的持续发展面向聚合预测的常识图谱清楚样子正履历从二元关系、多关系到超关系的发展. 在该发展过程中, 模子对常识的姿色愈加明晰, 包含的语义信息愈加丰富. 在往日计划中, 除了将现存二元关系的预测步调进一步作多元化扩充, 还应有用诓骗更多图谱自身的特殊结构, 持续探索愈加完善的常识清楚样子.
除了多元化关系的常识清楚样子外, 图谱中还存在档次结构(hierarchical structure)[96]与旅途信息[43]等特殊结构. 这类结构带来的大都关系旅途为模子提供了丰富的关系模式, 从而提高聚合预测效果. 此外, 图谱中还存在对于常识实体的姿色与属性信息等附加信息. 如何将这些图谱至极的结构与信息融入预测模子也将是往日的计划重心. 面前, 已有算法以附加连接的样子将这些信息融入模子[43, 96-98], 并取得了可以的效果. 能否以其他方式将这些结构与信息会通入模子, 以及是否需要将部分结构体当今常识清楚层面, 都是往日值得计划的主张.
6.3 问题作用域的针对性探索面前的面向聚合预测的常识清楚学习模子对于问题作用域的探讨仍有不及. 践诺场景中, 特定规模的常识库所包含的常识存在不同的语义性情, 其应用需求也不疏浚, 这要求计划东谈主员在采纳预测模子时, 应充分接洽不同场景对模子的特殊需求, 同期在预测准确率、时间复杂度与可解释性之间作念出权衡.
举例, 存在大都多跳关系的常识库要求用于常识推理的模子内包含复杂的推理模式[43]; 极大范围的常识库要求模子的在线学习与快速学习才能[99,100], 以及基于常识漫衍式清楚的应用[101]; 低资源条目下的常识图谱补全和常识推理要求模子的少样本致使零样本学习才能[102-104]. 面向此类特殊常识图谱应用的计划现阶段还不够练习, 仍需进行深远探索, 以鼓舞面向不同问题作用域聚合预测的常识清楚学习模子进一步发展.
7 总 结常识图谱清楚学习是自动学习常识图谱中实体与关系有用特征的过程, 平常采选将实体和关系镶嵌到低维向量空间的方式清楚其语义信息. 聚合预测是常识图谱补全和常识推理的症结要道cos 足交, 频年来受到计划者的平常神气. 本文围绕多元化发展的常识清楚样子的聚合预测任务, 对4类常识图谱清楚学习模子的计划近况进行了追念. 从常识清楚样子开赴, 聚合预测任务可以分为二元关系、多元关系和超关系的清楚样子, 其常识清楚准确性循序递加. 从清楚学习建模方式开赴, 可以分为平移距离模子、张量判辨模子、传统神经收罗模子和图神经收罗模子. 在先容聚合预测的常用的数据集与评判范例基础上, 继承对比分析的方式展现面向3类常识清楚样子下聚合预测任务的4类常识清楚学习模子预测效果与优瑕疵. 临了从模子优化、常识清楚样子和问题作用域3个方面瞻望往日发展趋势.