知识融合的作用
数据清洗
构建的知识图谱存在异构性
知识融合是重要的预处理步骤之一
数据集成
不同知识图谱可能存在重叠的知识
融合多个不同来源的知识图谱
异构问题
发现(模式层)等价或相似的类、属性或关系
本体对齐、本体映射
本体匹配发现一个三元组M=<O,O' ,M>,包括一个源本体О ,一个目标本体O',以及一个映射单元集合M ={m1,mz,... mn}。其中mi表示一个基本映射单元,可以写成mi =<id,c, c',s>的四元组形式:
id为映射单元的标识符,用于唯一标识该四元组
c和c'分别为О和O'中的概念
s表示c和c'之间的相似度,满足s∈[0,1]
本体:领域知识规范的抽象和描述,是表达、共享、重用知识的方法
真实世界的模型
术语集
术语的含义
形式化逻辑:一阶谓词逻辑
基于字符串:直接比较表示本体成分的术语的字符串结构规范化
大小写:字符串中的每个符号转换为大写字母或小写字母的形式
消除变音符:Montreal替换为Montreal;
空白正规化:所有的空白字符(如空格、制表符和回车等)转换为单个的空格符
连接符正规化:正规化单词的换行连接符等
消除标点:在不考虑句子的情况下要去除标点符号
消除无用词:如“to”和“a”
相似度
Levenshtein距离,即最小编辑距离,目的是用最少的编辑操作将一个字符串转换成另一个
汉明距离,它计算两个字符中字符出现位置的不同
基于语言:依靠自然语言处理技术寻找概念或关系之间的联系
术语匹配的原理
基于虚拟文档
概念的语言学描述:本地名、标签、注释
匿名结点的语言学描述:前向邻居的语言学描述
概念的邻居:主语邻居、谓语邻居、宾语邻居
概念的虚拟文档:自身+邻居结点
核心思想:利用本体的结构信息来弥补文本信息量不足的情况
本体中的概念和属性往往有大量相关的其他概念和属性,组成了一种图结构
结构匹配器一般不采用图匹配技术,后者代价高昂且效果不理想
间接的结构匹配器
在术语匹配器中考虑结构信息,如邻居、上下文、属性等
直接的结构匹配器
图匹配复杂度高,无法直接使用
相似度传播模型的变体很有效
Anchor-PROMPT
记录进行——链接的时间复杂度为O(|M|*|N|)
发现指称真实世界相同对象的不同实例
实体消解、实例匹配
等价关系推理:OWL等
相似度计算
计算特征
实体标签信息:实体名、昵称、别名
人工定义特征:公共邻居、词向量
计算相似度:编辑距离、海明距离
基于表示学习的方法:Embedding- based
一个embedding是一个离散变量到一个连续数字向量的映射
核心思想:基于表示学习技术,将知识图谱中的实体和关系都映射成低维空间向量,直接用数学表达式计算实体间相似度
多视角嵌入:单一模型的嵌入能力往往不足以对齐两个网络
对抗训练:判别器的目标是预测节点的度,生成器的目标是让判别器无法预测节点的度