NoteDeep


基于问句模板的方法


TBSL

词的理解:通常与知识图谱有关(KG-Dependent)
问句的语义结构:通常与知识图谱没有关系(KG-Independent)
  • 模板生成:结合KG的结构和问句的句式,进行模板定义, 通常没有统一的标准或格式。
  • 获取自然语言问题的POS信息
  • 基于POS和语法规则表示问句
  • 利用domain-dependent词汇和domain-independ词汇辅助分析问题
  • 将语义表示转化为一个SPARQL模板
  • 模板实例化:有了SPARQL模板以后,需要进行实例化,即将自然语言问句与知识图谱中的本体概念相映射。
  • 对于Resources和Classes:
  • 可用WordNet获取知识图谱中对应标签的同义词,然后计算字符串相似度获得映射关系
  • 最高排位的概念将作为填充查询槽位的候选
  • 对于Property
  • 还需要与模式库中的自然语言表示进行比较,有可能会需要将单个Property分解为多个谓词的组合描述
  • 查询排序与答案选择:模板实例化会产生很多可以直接执行的查询语句,哪个查询获得的答案最好呢?因此还需要一些方法对查询语句进行排序以获取最优答案。
  • 每个匹配的资源(Class, Property, Entities)根据String Similarity和Prominence获得一个打分
  • 一个查询模板实例的分值根据替换相应Slots的多个资源的平均打分
  • 利用类型检查排除不正确的匹配,例如需要检查property的domain/range是否与<class>一致
  • 对于全部的查询集合,仅返回打分最高的

QUINT自动生成模板

问句依存分析



为问句自动构建查询子图



为问句构建查询



问句和查询对齐

  • Entity对齐
  • Type对齐
  • 谓词对齐
词典L构建




模板实例化



候选查询排序

产生多个候选查询的原因:
  • 模板可能匹配多个
  • 实体链接可能匹配图谱中的多个实体
可以使用多种方法如Random Forest学习两个查询之间的顺序

  • 模板方法的优点:
  • 模板查询响应速度快
  • 准确率较高,可以回答相对复杂的复合问题
  • 模板方法的缺点:
  • 人工定义的模板结构经常无法与真实的用户问题进行匹配
  • 如果为了尽可能匹配上一个问题的多种不同表述,则需要建立庞大的模板库,耗时耗力且查询起来效率降低

基于语义解析的方法

二步语义解析:首先将问句解析成中间表示,再将中间表示向知识库映射,获得最终的逻辑表示

λ算子

λ-DCS

桥接操作

CCG

基本步骤

基于检索排序的方法

实体链接:在文本等载体中对知识图谱中的命名实体进行识别和消歧的任务

排序模型

  • 基于子图匹配:
  • 从输入问题中定位问题实体
  • 答案候选检索模块以该问题实体为起点,按照特定规则从知识图谱中选择答案候选
  • 答案子图生成模块为每个答案候选实体从知识图谱中抽取出一个子图,作为该答案实体的一种表示
  • 答案检索排序模块计算输入问题和每个答案子图之间的相似度,用来对子图对应的答案候选进行打分
  • 排序得到最终答案
  • 基于向量表示:
  • 为输入问题Q和答案候选A分别学习两个稠密的向量表示f(Q)和g(A)
  • 在向量空间中计算问题向量和答案向量之间的相似度,用于对不同的答案候选进行打分
  • 基于记忆网络:
  • 除问答模块之外,引入记忆网络模块
  • 记忆网络模块负责将有限的记忆单元表示为向量
  • 问答模块从记忆网络模块中寻找与问题有关的答案

  • 优势
  • 框架灵活、实用
  • 易于融合多种线索、特征
  • 容易与其他方法、框架结合
  • 适用多种类型资源
  • 劣势
  • 依赖特征工程
  • 易受错误传递影响
  • 不擅长处理语义组合
  • 难以处理推理问题

基于深度学习的方法

STAGG




Neutral End-to-End

Simple Embedding



CNN+Attention



Attention+Global Knowledge

Cross-Attention 刻画问句表述与答案之间关联
多任务学习: TransE

Key-Value Memory Network

记忆单元为Key -Value形式,如<主体+关系,客体>
访问时,Query与存储单元的Key计算相关度
检索得到的Value用来更新Query或者与Memory匹配得到结果
可多次访问Memory
支持浅层推理KV-MemNN

Neutral Symbolic Machines

期望:问题→查询→答案!!只有间接语料:问题→答案
Seq2Seq with Key-Variable Memory :问题→查询命令→结果
需支持生成查询语句,函数
弱监督框架存在问题: Non- Differentiable
训练策略: REINFORCEAugmented REINFORCE
效果出众:函数解决了部分语义组合的问题

  • 优点:深度学习模型能够深入的表征问句,并深挖知识图谱内部的实体和关系表示,因而在问句的理解、候选答案的排序计算方法都能取得更好的效果
  • 缺点
  • 深度学习模型对于相对简单的问题效果比较好,由于深度模型通常依赖大量的训练语料,对于逻辑更加复杂的问句由于训练语料未必充分,可能不如传统的方法好
  • 很多知识图谱问答设计比较、排序、逻辑推断等任务,深度学习模型在解决这类涉及推理类的问句方面仍然做得不够好
  • 深度学习模型相比传统问答模型,可解释性不好

评论列表

    基于问句模板的方法基于语义解析的方法基于检索排序的方法基于深度学习的方法