一种数据型问答系统技术方案

技术编号:23604752 阅读:24 留言:0更新日期:2020-03-28 05:49
本发明专利技术公开了一种数据型问答系统,包括一种数据型问答系统,问答系统主要技术理论方法为流水线方法,在流水线QA系统,需要选择一个段落并将其传递给段落级问答模型,其核心部分主要为A.Embedding、B.Pre‑Process、C.Attention、D.Self‑Attention、E.Prediction。本技术方案采用了流水线方法,并在置信度模型里设置了共享归一化目标,使用预测的答案、候选的句子和问题通过分类模型判断该候选句子是否该答案的支撑事实,关于支撑事实的说明,以实现即使在段落单独处理的情况下,输出仍然是全局最优。

A data type question answering system

【技术实现步骤摘要】
一种数据型问答系统
本专利技术涉及问答模型
,具体为一种数据型问答系统。
技术介绍
在现有的技术中对一个问题检索出若干文档之后,会使用阅读理解模型根据该问题对这些文档里面的全部句子一一计算,获取问题可能对应的答案。阅读理解模型是对给定问题和文档预测出答案在文档中的起始位置和结束位置,起始位置和结束位置之间字符串为答案。将整个文档放到阅读理解模型进行计算获取答案需要的计算量比较大,当文档比较长的时候,很难实现放回结果;而且,将文档全部放入到阅读理解模型会有较大的噪声,导致预测出来的结构不太正确。解决方案是将数据库里面全部文档中的句子通过预训练语言模型先编码成一个向量。当用户提出一个新的问题,先通过预训练语言模型编码为一个向量,然后计算问题的句向量和文档中各个句子句向量的距离来判断是否包含答案的一个度量。将得分比较高的句子集中在一起,输入到阅读理解模型,最后预测答案的范围。现有技术方案中方案内技术量较大,并且计算中并不能通过阅读理解模型判定文档中对应内容的是否为该答案的支撑事实。
技术实现思路
本专利技术的目的在于提供一种数据型问答系统,旨在改善现有技术中的问题。本专利技术是这样实现的:一种数据型问答系统,问答系统主要技术理论方法为流水线方法,在流水线QA系统,需要选择一个段落并将其传递给段落级问答模型,所述数据型问答系统包含了:输出问题答案基于多个支持文档;待选回答组对应支持文档;对比输出问题支持文档和待选回答组对应支撑文档;计算输出问题支持文档和待选回答组对应支撑文档的相识度,输出最大相识度对应的待选回答。进一步的,问答系统主要技术理论方法为流水线方法,在流水线QA系统,需要选择一个段落并将其传递给段落级问答模型,其核心部分主要为A.Embedding:使用预训练的词向量嵌入单词,并通过使用学习的嵌入矩阵嵌入字符,然后应用卷积神经网络和最大池,将这些与字符派生的词嵌入相结合;B.Pre-Process:这里使用了共享的双向GRU(Bi-GRU)来处理问题与文章的嵌入;C.Attention:通过使用双向注意流(Bi-DirectionalAttentionFlow,BiDAF)的Attention机制来构建语言的上下文表示;i,j:答案范围内的单词和问题里的单词;hi,qj:段落单词i的词向量和问题单词j的词向量;nq,nc:问题的长度和答案范围的上下文长度;w1、w2和w3:学习向量,是元素乘法;ci:为每个上下文标签(开始/结束)计算的参与向量;qc:上下文查询向量;每个标签的最终向量是通过连接得到的,并通过一个带有ReLU激活的线性层传递结果;D.Self-Attention:输入通过另一个双向GRU(Bi-GRU),应用相同的Attention机制,不过这里没有qc了,而是设置;E.Prediction:在模型的最后一层,应用了双向GRU,然后通过线性层计算出每个开始标记的答案分数。将隐藏状态与输入相结合,再通过另一个双向GRU和线性层计算出每个结束标记的答案分数。这里应用到了softmax函数,来计算开始或结束的概率。进一步的,还包含置信度模型模型置信度的基准度量,是每个可能的答案区间的非标准化分数和未被指数化分数(应用softmax函数之前),这里使用的是基于边界的模型,具有开始标签和结束标签,每个答案区间的分数是开始分数和结束分数之和;为避免模型在启发式模式下产生的过度自信(比如模型可能过于依赖去选择与问题所要求的语义类型相匹配的答案),这里尝试了4种模型训练方法,并都会将不包含答案的段落作为额外的训练点进行抽样;(1)Shared-Normalization使用了一个修改的目标函数,其中从相同上下文中采样的所有段落的起始和结束分数都被标准化,目的是迫使模型产生段落之间具有可比性的分数;(2)合并在训练期间将从同一上下文中采样的所有段落连接在一起,并在每个段落之前添加具有学习嵌入的段落分隔符标记;(3)No-Answer选项允许模型为每个段落选择一个特殊的无应答选项;这里重新改写了目标函数。sj,gj:模型为标记j生成的起始和结束边界的分数a,b:正确的开始和结束标记最后通过在模型末尾添加一个额外的层来计算另一个得分z,首先通过获取用于预测由开始/结束概率加权的开始/结束标记分数的RNN的总和隐藏状态,并在自我关注层的输出上使用学习的关注向量来构建输入向量,最后将这些矢量送到具有80维隐藏层的两层网络和ReLU激活,结果z就是其唯一输出;(4)Sigmoid考虑具有S形损失目标函数的训练模型,通过将sigmoid函数应用于每个标记的开始/结束分数来计算每个标记的开始/结束概率,交叉熵损失用于每个单独的概率。进一步的,供句子级别的支持推理线索(supportingfact),允许QA系统用强大的监督进行推理,并对预测结果进行解释;进一步的,提供了新型模拟比较型问题,来测试QA系统提取相关线索、执行必要对比的能力。与现有技术相比,本专利技术的有益效果是:当在多个段落中使用段落级QA模型时,Shared-Normalization始终优于其他方法。且其对非答案段落进行抽样的训练方法表现更为突出。结合段落选择的建议(对不包含答案的段落,也要作为额外的训练点进行抽样),使用求和的训练目标和模型设计,可以推进TriviaQA的最新技术发展,输入到阅读理解模型。最后预测答案的范围。在获得了预期的答案之后。将问题、答案和文档中的每个句子,输入到判别模型里面判断该句子是否支撑事实可以大幅度减少计算量,并且避免过多的无用句子引入噪声,导致正确率下降。附图说明为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术放开域问答系统的段落级问答模型。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。现有特征中问答系统,本文档来自技高网...

【技术保护点】
1.一种数据型问答系统,问答系统主要技术理论方法为流水线方法,在流水线QA系统,需要选择一个段落并将其传递给段落级问答模型,其包含了获取原始问题、得到待选回答组、计算参考回答与待选回答组中各个待回答的相似度,输出最大相识度对应的待选回答,其特征在于:所述数据型问答系统包含了:/n输出问题答案基于多个支持文档;/n待选回答组对应支持文档;/n对比输出问题支持文档和待选回答组对应支撑文档;/n计算输出问题支持文档和待选回答组对应支撑文档的相识度,输出最大相识度对应的待选回答。/n

【技术特征摘要】
1.一种数据型问答系统,问答系统主要技术理论方法为流水线方法,在流水线QA系统,需要选择一个段落并将其传递给段落级问答模型,其包含了获取原始问题、得到待选回答组、计算参考回答与待选回答组中各个待回答的相似度,输出最大相识度对应的待选回答,其特征在于:所述数据型问答系统包含了:
输出问题答案基于多个支持文档;
待选回答组对应支持文档;
对比输出问题支持文档和待选回答组对应支撑文档;
计算输出问题支持文档和待选回答组对应支撑文档的相识度,输出最大相识度对应的待选回答。


2.根据权利要求1所述数据型问答系统,其特征在于:段落级问答模型其核心部分主要为
A.Embedding:使用预训练的词向量嵌入单词,并通过使用学习的嵌入矩阵嵌入字符,然后应用卷积神经网络和最大池,将这些与字符派生的词嵌入相结合;
B.Pre-Process:这里使用了共享的双向GRU(Bi-GRU)来处理问题与文章的嵌入;
C.Attention:通过使用双向注意流(Bi-DirectionalAttentionFlow,BiDAF)的Attention机制来构建语言的上下文表示;



i,j:答案范围内的单词和问题里的单词;
hi,qj:段落单词i的词向量和问题单词j的词向量;
nq,nc:问题的长度和答案范围的上下文长度;
w1、w2和w3:学习向量,是元素乘法;
ci:为每个上下文标签(开始/结束)计算的参与向量;



qc:上下文查询向量;
每个标签的最终向量是通过连接得到的,并通过一个带有ReLU激活的线性层传递结果;
D.Self-Attention:输入通过另一个双向GRU(Bi-GRU),应用相同的Attention机制,不过这里没有qc了,而是设置;
E.Prediction:在模型的最后一层,应用了双向GRU,然后通过线性层计算出每个开始标记的答案分数,
将隐藏状态与输入相结合,再通过另一个双向GRU和线性层计算出每个结束标记的答案分数,这里应用到了softmax函数,来计算...

【专利技术属性】
技术研发人员:莫迪
申请(专利权)人:中科能效北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1