深度学习与问答系统

日期: 2018-10-26 11:20:43 / 人气: 83

1. 什么是QA系统

QA系统用于回答人们以自然语言形式提出的问题,其在互联网、通信及医疗等领域获得显著的成功。

2. QA的分类

QA系统依据回答语料可以分为两类。

第一类,常见的纯文本形式(网络文档、问答社区内容、搜索引擎结果、百科数据等)。

第二类,知识图谱(近年涌现大规模图谱:WolframAlpha, Google Knowledge Graph, Freebase等,为基于图谱的QA提供保障),通常以RDF三元组的形式结构化表示。由于结构化的特点,QA系统的结果可比纯文本更精确和简练。大知识图谱保证问答系统的覆盖率。

3. 系统架构

QA系统分为三层架构模型:实体层(底层)、语言层、应用层。

实体层(底层):为上层模型提供最基础的计算单元。包括了语义社区搜索、语义消歧义和同现网络模块;

语言层(中间层):作为连接实体层和应用层的桥梁,包含了具有一定语义信息的短文本;

应用层(最上层):集成的QA系统。包括了问题模板和深度学习模块。

4. 实体层模型研究

4.1 语义社区搜索

标题取为词林搜索可能更合适,说白了就是节点为词语的复杂网络,边为词之间的关系,以此模型即可找到一个单词所在的社区,以及单词之间的相似度。

同一个语义社区的两个词有很高的相似度,相似度的定义为两个词的共同邻居个数。(语义社区的划分文中没有说到,不过既然都说了是社区估计会用到一些社区发现的算法吧)

4.2 语义消歧

这里给出了一幅图,用颜色把同一个意思的词语连接在一起构成封闭的图(内部可以有子图)。

5. 语言层模型研究

5.1 动词语义模板

据动词与名词间相关性,提出动词语义模板的理论。包括概念化的动词模板(如verb $cConcept)、固定化的动词模板(如verb $iObject)。

动词语义模板用来对语言实体做概念化的处理,所以需要有通用性和特殊性的特征。基于信息论的最小描述距离理论,我们提出了满足上述两个特征(通用性、特殊性)的动词语义模板(见公式):argmin∑pP(p)L(p)

补充:最小描述长度(MDL),该原理是 Rissane 在研究通用编码时提出的。其基本原理是为节省在保存一组给定的实例数据时的存储空间,采用某种模型对其进行编码压缩,再保存被压缩编码的数据。同时,为确保之后可正确恢复被压缩的实例数据,将所用模型也保存起来。所以需保存数据长度(比特数)等于被压缩的实例数据的长度,加上保存模型所需数据长度,将该数据长度称为总描述长度。最小描述长度,即MDL,其原理要求选择时总是描述长度最小的模型。

6. 应用层模型研究

应用层包含两部分(问题模板、深度学习,见上面的三层架构图)。QA系统从问题中通过语言实体识别(用问题模板解决,将问题中的实体转化为对应概念)、语言模板提取、预知索引建立并最终查找到问题的答案。

从上图看,还是建立(或者分析出对应的)知识图谱关系,找到问题所对应的类别(问题模板),知道哪一类的问题,然后根据图谱关系的关键词找到答案(属性)。

6.1 问题模板怎么从实体找到对应属性?

我们提出基于概率图的方法,使得问题答案跟预测答案接近(如图)。总结下:首先通过问题的实体识别得到实体,然后对问题概念化得到对应的问题模板,再根据模板找到对应属性,最后根据属性查找值。

7. 基于知识图谱的QA研究

首先,深度学习适合做实体属性查找,主要因为它对序列性的问题有天然优势(这个主要说的是RNN或者LSTM吧),一般此类QA问题都是序列性的。

7.1 CNN

如图为最简单的CNN网络,最下层即为问题的实体提取层(每个单词输入的形式是向量空间模型VSM,比方图中就是长度为15K的VSM),首先将连续的问题序列化为单个的实体。然后,对各个实体进行卷积运算和最大池化。最后获取概率最大的Inbinding(看不懂这个词),由此得到实体属性值(实体属性值就是比方“姓名”这个属性对应的值)。同时,提出了能更好理解问题上下文的双向LSTM模型。

7.2 基于知识图谱的QA + DL

为了增强CNN的特性,又提出了与CNN类似的模型,其包含3个CNN网络(接受问题输入),每个网络独立进行属性的预测,最后获得最大的均方根值(说白了就是计算Cost吧)。最后三个类型(Answer Path、Answer Type、Answer Context)的网络(接受输入)分别与这三个网络的另外一个知识图谱的输入(也是对应三个路径)进行结合(通过点积,对应类型点积),得到三个类型的结果,在进行拼接(估计是根据答案生成的模板),最后得到答案和一个分数。

与单个CNN相比,多个CNN除了具有Answer Path属性外,还增加了Answer Context和Answer Type的属性。其中,Answer Context表示候选答案周围的信息,Answer Type则表示候选答案的类型。

8. 对QA系统的思考

对于QA系统,现面临的问题:

缺乏高质量的训练数据集。比如只有3778个网络问题的QA对,而对于QALD(Question Answering over Linked Data)则只有100个QA对;

知识图谱本身的数据不完善;

基于知识图谱的QA具有的有限的联系且准确的答案的属性,而基于IR-based的QA具有无限的联系且模糊的答案的属性,将两个模型进行结合得到更广且更准确的问题答案是正在着力研究的问题。


来源:机器不学习


现在致电 0755-88820392 OR 查看更多联系方式 →