中国人民大学张静:知识图谱融合中歧义性与异质性问题的讨论
2025-02-21 本站作者 【 字体:大 中 小 】
AI TIME欢迎每一位AI爱好者的加入!
2020 年 9 月 25 日,在由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上,中国人民大学副教授张静博士进行了题为《知识图谱融合中歧义性与异质性问题的讨论》的主题报告,指出在动态知识图谱实体链接与图谱融合任务中,存在「歧义性」与「异质性」两大挑战,并介绍了其团队通过交互模型解决上述问题的最新工作。
动态知识图谱简介
图 1:知识图谱链接与融合
众所周知,知识图谱是一种结构化的图数据,目前的常用表示为「头实体」、「关系」、「尾实体」组成的三元组,每一个实体又包含属性和值。知识图谱一般包括通用知识图谱和领域知识图谱,Bpedia、Wikipedia、Freebase 等都是著名的通用知识图谱;由清华大学唐杰教授研究组发布的开放学术图谱(OAG)则是典型的学术领域的知识图谱。目前,越来越多的研究人员倡导将基于「神经计算」与「符号计算」的推理相结合。作为一种符号化的知识,知识图谱在深度学习的应用也越来越广泛。
图 2:知识图谱简介
知识图谱是动态变化的。一方面,知识图谱会不断地增加;另一方面,知识可能分布在不同的数据源上。因此,只有充分考虑不断增长的知识图谱的动态性,才能为下游的应用带来实际的价值。近年来,张静博士团队致力于研究如何将新获取的知识链接到知识图谱中已有的实体上,并且对齐、融合分布在不同数据源上的各个知识图谱。
图 3:动态知识图谱
为了实现以上目标,张静博士团队主要试图解决「歧义性」和「异质性」两大挑战。以最近的两个工作为例:首先,在将新的论文链接到 OAG 知识图谱中已有的作者上时,需要处理论文作者名的歧义性问题;此外,在融合多语言知识图谱时,需要解决图谱之间的异质性问题。
图 4:知识图谱融合中的歧义性与异质性
OAG 实体链接中的作者名消歧研究
图 5:将新论文链接到 OAG 中已有作者时的作者名歧义性研究
以 Google Scholar(大型学术知识图谱)为例,与 Google Scholar 上每一位研究者相关的论文情况是动态更新的,我们需要将新发表的论文与正确的作者相链接。然而,Google Scholar 上存在许多作者名的歧义性问题。例如,唐杰教授有一位名叫王志刚(Zhigang Wang)的学生,志刚的 Google Scholar 主页上有一篇并不属于他的医学影像领域的文章。究其原因,Google Scholar 之所以会将这篇论文错误地与志刚相链接,是因为这篇论文的共同作者中有一名名为 J Tang 的作者,而这一缩写与唐杰教授的名字缩写是相似的。
图 6:Google Scholar 上存在的作者名歧义性问题
具体而言,为了将新发表的论文与正确的作者相链接,我们需要解决两大问题:(1)论文与作者的「匹配」问题。与信息检索(IR)领域中的文档不同,本任务涉及的作者和论文都是复杂的对象。以作者为例,每一位作者的实体中都包含多篇论文,而每篇论文又包含多个字段。如果直接使用基于文本表征的匹配,可能会忽略字段中单词(token)之间的精确匹配(例如,共同作者的精准匹配在这个问题起着非常重要的作用)。此外,在建立学术知识图谱时,我们可能要利用来自多个数据源的论文。而有的数据源中的论文质量较差,丢失了一些诸如共同作者等的元数据。这时只能采用标题和摘要等文本信息进行判断,而这些信息主要依靠语义相关性进行比较。因此,我们既不能片面地使用单词匹配,也不能片面地直接利用论文的整体表征对论文与作者进行匹配,需要思考如何同时实现「精确匹配」与「软匹配」(soft match)。(2)对于有些新加入的论文来说,其作者可能并不存在于现有的知识图谱中(NIL),我们需要为此作者新建一个实体。
图 7:将新论文链接到 OAG 上
为了解决上述两个问题,张静博士团队提出的模型框架包含两个组件:(1)匹配组件(2)决策组件。
图 8:模型框架
在设计匹配组件的过程中,张静博士团队受到 Xiong 等人于 SIGIR 2017 上发表的有关「交互匹配模型」的论文的启发,基于论文信息中所有单词和作者信息中所有单词,计算待链接的论文与所有候选作者之间的相似度矩阵。由于单词是通过嵌入得到的,因此可以捕获语义上的相似度。对于共同作者等字段来说,如果词例的嵌入向量相同,则可以实现精确匹配。
图 9:多字段属性建模
我们可以认为不同的字段发挥的作用是不同的,针对论文和作者特有的属性,张静博士团队设计了一个基于多字段属性的模型,分别对不同字段之间的交互进行建模。
图 10:论文的多示例建模
对于涉及多个研究领域的作者而言,不同的论文对作者建模的影响也不尽相同,它们可能代表了作者各种各样的研究兴趣,有的论文可能只能与候选作者的某一部分论文匹配。为此,张静博士团队设计了一种多示例学习模型,为候选作者的每一篇论文构建一个交互模型,将这些模型融合起来就形成了最终的匹配模型。
图 11:匹配部分的目标函数
在优化方面,张静博士团队选用了基于排序学习的目标函数。
图 12:决策部分
在得到了论文与候选作者的排序情况后,我们需要通过决策部分决定是否能将论文与排序最靠前的作者实体相链接。该问题本质上是一个二分类问题,因此张静博士团队构造了一个包含正负实例的数据集用于训练该二分类决策模型。
图 13:强化学习自校正机制
决策模型的输入是「论文-作者」对的相似度嵌入,由于这里用到的相似度嵌入是匹配部分的输出,因此匹配部分的性能会影响决策部分的性能。另一方面,决策部分的效果也可以作为反馈信息,指导匹配部分输出相似度嵌入向量,使其更适应决策的整体分类目标(即,不区分待测论文,将所有正例与负例要区分开),而不仅仅是匹配的局部排序目标(即,每个待测论文的正例尽可能排序在所有负例前面)。为了使这两个部分的模型可以通过交互实现联合学习,张静博士团队设计了如图 13 所示的基于强化学习的自校正(self-correction)机制,由匹配模型作为生成「论文-作者」对相似度嵌入的生成器,决策分类器的预测结果为匹配器给出反馈。
图 14:在线部署情况
目前,该模型已经部署到清华大学唐杰教授团队开发的 Aminer 平台上,用于将新出现的论文与数据库中的作者相链接。在具体部署时,张静博士团队将传统的特征工程模型与嵌入模型(CONNA 模型)相融合,并且将 CONNA 模型中获取论文词例嵌入的 word2vec 模块更新为在科学文献领域预训练的 SciBERT 模块,最终设计了一套集成学习框架,其线上决策的F1值达到了 92%。
张静博士与唐杰教授团队针对链接消歧任务共同发布了大规模的「WhoIsWho」数据集,该数据集包含近 600 个姓名、近 60,000 个实际的作者,以及超过 600,000 篇论文,作者和论文之间的关系得到了人工检查。
图 15:同名消歧挑战赛
针对同名消歧任务,张静博士与唐杰教授团队在「链想家计算科技大赛」中设置了「同名消歧」赛道,目前看来,提交的模型仍然有进一步提升性能的空间。
图 16:融合多语言知识图谱时的图异质性问题
单一的知识图谱往往不够完备,许多分布在不同源上的知识图谱可以互相补全信息。因此,我们希望将不同源的知识图谱融合起来,形成「大而全」的知识图谱。
图 17:知识图谱融合的动机
如图 18 所示,我们拥有一个中文知识图谱和一个英文知识图谱。中文知识图谱中的「007 大战皇家赌场」(实体 A)对应于英文知识图谱中的「Casino Royale」(实体 B)。然而,实体 A 有一个名为「Columbia Pictures」的邻居节点,实体 B 有一个名为「英语」的邻居节点,这两个邻居节点是无法对应上的。当下流行的知识图谱融合方法会使用某种 GCN 的变体方法,通过聚合所有邻居节点的嵌入来更新当前节点的嵌入。然而,由于存在上述无法匹配的邻居节点,这种嵌入方法会引入噪声,导致节点相似度下降。
图 18:知识图谱融合的异质性挑战
为了解决这一问题,张静博士团队提出了一种邻居节点层次上的交互模型,对待融合的两个知识图谱上的邻居节点进行相似度的交互比较,为相似度较高的邻居节点之间的交互赋予接近 1 的值,为相似度较低的邻居节点之间的交互赋予接近 0 的值,从而去除不相似的邻居节点传递消息汇聚节点嵌入带来的副作用。
图 19:解决方案
该模型底层使用了一个基础的 BERT 模型,对每一个实体的姓名、描述、属性、值等字段建模,得到其嵌入;在 BERT 模型输出的基础上,我们设计了一种多视图的交互模型,用于计算两个知识图谱中待对齐实体之间的相似度、邻居节点级别上的相似度以及属性级别上的相似度。
图 20:模型框架
以邻居节点视图交互为例,设计了一种双聚合函数,可以捕获每一对邻居节点之间的精确匹配和软匹配。具体而言,我们假设两个待对齐知识图谱中的节点有一一映射关系,计算实体 A 所在知识图谱的各个邻居与实体 B 所在知识图谱中各个邻居之间的相似度矩阵,根据一对一的假设,通过最大池化操作找出与A的每个邻居最相似的B中的邻居,再采用高斯核函数提取相似度特征;接着我们对称地从实体 B 到实体 A 重复上述操作(分别从行和列两个方向进行最大池化与特征提取),最终融合两个方向得到的相似度特征。
图 21:邻居节点视角的交互
此外,为了进一步提升模型性能,我们不仅考虑了邻居节点实体之间的相似度,还考虑了邻居节点和中心节点之间关系的相似度,我们认为对应关系越相似的邻居对中心实体是否匹配的贡献度越大。
图 22:邻居节点与中心节点之间的关系
为了验证模型性能,他们在流行的 DBP-15k 数据集上进行了充分的对比实验,与目前大部分具有代表性的多语言知识图谱对齐方法进行了对比,他们使用的方法没有考虑拓扑结构,只考虑了名字、描述与属性等信息,在 HR 1 指标上取得了比现有最佳基线方法高 1.9%~9.7% 的性能提升。
图 23:实验结果
此外,他们还进行了一项归纳性学习实验(Inductive Learning)。他们将使用「中文-英文」知识图谱训练的模型直接迁移到了「日语-英文」知识图谱对齐的场景下,发现效果较为理想。通过对比试验,发现除了多语言 BERT 模型,新加入的交互模型也起到了一定的知识迁移作用。
图 24:归纳性学习实验
结语
图 25:结语
在本次演讲中,张静博士针对知识图谱链接与融合任务展开了讨论,主要涉及「歧义性」与「异质性」两方面的挑战。他们受到信息检索领域研究的启发,将交互模型应用于知识图谱链接与融合任务。该方法不但能够有效结合精准匹配与软匹配,减少歧义性;同时可以捕获细粒度的字段、实例、邻居节点之间的匹配关系,降低不同源知识图谱的异质性带来的负面影响。
相关资源链接
Dataset:
Challenges:
https://www.biendata.xyz/competition/chaindream_nd_task2/
Code:
整理:熊宇轩
审稿:张静
排版:田雨晴
本周直播预告:
AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!
微信联系:AITIME_HY
AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

猜你喜欢

小班班级户外的活动总结


阳痿的症状怎样治疗_改善阳痿早泄6大秘方


技能文化节|生活服务中心开展食品安全相关知识讲座


走近国内领先的“皮肤战队”——访中国医科大学附属第一医院皮肤性病科


术中液体治疗ppt课件.ppt


晚餐吃得对,健康加分!10个饮食误区你避开了吗?


乒乓球双打比赛规则


相轻何止是文人,不过都是嫉妒罢了


干炸里脊外酥里嫩到底怎么做?这一招教会你!学会宴客倍有面子!


继续教育卫生应急管理答案
