NoteDeep
知识融合是解决知识图谱异构问题的有效途径。
知识融合的核心问题在于映射的生成
知识融合的作用
  • 数据清洗
  • 构建的知识图谱存在异构性
  • 知识融合是重要的预处理步骤之一
  • 数据集成
  • 不同知识图谱可能存在重叠的知识
  • 融合多个不同来源的知识图谱
异构问题

本体匹配(Ontology Matching)

  • 发现(模式层)等价或相似的类、属性或关系
  • 本体对齐、本体映射
本体匹配发现一个三元组M=<O,O' ,M>,包括一个源本体О ,一个目标本体O',以及一个映射单元集合M ={m1,mz,... mn}。其中mi表示一个基本映射单元,可以写成mi =<id,c, c',s>的四元组形式:
  • id为映射单元的标识符,用于唯一标识该四元组
  • cc'分别为О和O'中的概念
  • s表示c和c'之间的相似度,满足s∈[0,1]
本体:领域知识规范的抽象和描述,是表达、共享、重用知识的方法
  • 真实世界的模型
  • 术语集
  • 术语的含义
  • 形式化逻辑:一阶谓词逻辑

术语匹配方法

基于字符串:直接比较表示本体成分的术语的字符串结构规范化
  • 大小写:字符串中的每个符号转换为大写字母或小写字母的形式
  • 消除变音符:Montreal替换为Montreal;
  • 空白正规化:所有的空白字符(如空格、制表符和回车等)转换为单个的空格符
  • 连接符正规化:正规化单词的换行连接符等
  • 消除标点:在不考虑句子的情况下要去除标点符号
  • 消除无用词:如“to”和“a”
  • 相似度
  • Levenshtein距离,即最小编辑距离,目的是用最少的编辑操作将一个字符串转换成另一个
  • 汉明距离,它计算两个字符中字符出现位置的不同


  • Dice系数用于度量两个集合的相似性,因为可以把字符串理解为一种集合,因此Dice距离也会用于度量字符串的相似性,Dice系数定义如下:

  • TF-IDF主要用来评估某个字或者用某个词对一个文档的重要程度。

基于语言:依靠自然语言处理技术寻找概念或关系之间的联系
  • 内部方法:使用语言的内部属性,如形态和语法特点,寻找同一字符串的不同语言形态
  • 外部方法:利用外部的资源,如词典等。使用WordNet能判断两个术语是否有同义或上下义关系
术语匹配的原理
  • 核心思想:将文档变为向量的形式,通过向量相似度实现文档匹配
  • 本体中的概念和属性往往含有大量的文本信息
  • 将待匹配的对象和相关文本组成文档的形式,再转换为文档向量
基于虚拟文档
  • 概念的语言学描述:本地名、标签、注释
  • 匿名结点的语言学描述:前向邻居的语言学描述
  • 概念的邻居:主语邻居、谓语邻居、宾语邻居
  • 概念的虚拟文档:自身+邻居结点

结构匹配方法

  • 核心思想:利用本体的结构信息来弥补文本信息量不足的情况
  • 本体中的概念和属性往往有大量相关的其他概念和属性,组成了一种图结构
  • 结构匹配器一般不采用图匹配技术,后者代价高昂且效果不理想
  • 间接的结构匹配器
  • 在术语匹配器中考虑结构信息,如邻居、上下文、属性等
  • 直接的结构匹配器
  • 图匹配复杂度高,无法直接使用
  • 相似度传播模型的变体很有效
Anchor-PROMPT

大型本体匹配

记录进行——链接的时间复杂度为O(|M|*|N|)
分块的方法:

实体对齐(Entity Alignment)

  • 发现指称真实世界相同对象的不同实例
  • 实体消解、实例匹配

传统方法

  • 等价关系推理:OWL等
  • 相似度计算
  • 计算特征
  • 实体标签信息:实体名、昵称、别名
  • 人工定义特征:公共邻居、词向量
  • 计算相似度:编辑距离、海明距离

基于表示学习的方法:Embedding- based

一个embedding是一个离散变量到一个连续数字向量的映射
核心思想:基于表示学习技术,将知识图谱中的实体和关系都映射成低维空间向量,直接用数学表达式计算实体间相似度

合并预先匹配好的实体,把两个网络合并为一个网络,用单一网络的嵌入表示进行嵌入

先用单一网络的嵌入模型分别训练两个网络,然后用一些预先匹配好的实体训练一个线性变换对齐两个向量空间


在两个异质知识图谱之间,根据少量种子对齐实体,可以实现大量实体对齐
分别学习两个知识图谱的表示,建立两者映射关系

前沿

无监督对齐:不一定都有预先匹配好的实体

多视角嵌入:单一模型的嵌入能力往往不足以对齐两个网络


嵌入表示增强:改进现有的嵌入表示模型并用于对齐

对抗训练:判别器的目标是预测节点的度,生成器的目标是让判别器无法预测节点的度

超大规模对齐:上亿个节点的网络对齐

  • 实体异构
  • 实体歧义
  • 大规模匹配

评论列表

    本体匹配(Ontology Matching)实体对齐(Entity Alignment)前沿