一种用于问答系统的答案选择方法技术方案

技术编号:21686234 阅读:36 留言:0更新日期:2019-07-24 14:42
本发明专利技术公开了一种用于问答系统的答案选择方法,采用层次长度自适应神经网络结构来生成问题与答案的句子分布式表示,目的是根据输入句子的长度采用不同的神经特征抽取器来提取高质量的句子特征,首先通过连接一个固定的单词嵌入和一个微调的单词嵌入为输入语句中的每个单词生成一个单词分布式表示,然后,分别对短句子使用基于BiLSTM的特征抽取器和对长句子使用基于Transformer的特征抽取器,最后,使用一个考虑问答句之间交互作用的注意力池化层来生成用于衡量问题与候选答案之间相关性的句子向量表示,实验结果表明,本发明专利技术提出的基于长度自适应神经网络的答案选择模型在MAP和MRR方面可以比最先进的基线上取得较大的提升。

An Answer Selection Method for Question Answering System

【技术实现步骤摘要】
一种用于问答系统的答案选择方法
本专利技术涉及问答系统
,特别是指一种用于问答系统的答案选择方法。
技术介绍
计算机问答系统中的答案选择,是从一些候选答案中选择问题的正确答案,现有方法主要尝试为问题与候选答案生成高质量的句子分布式表示,然后这些分布式表示将被用以衡量候选答案与问题之间的相关性,进而选择出相关性最高的候选答案作为正确答案返回,其中现有方法大多数工作都是通过使用循环神经网络(RNN)以实现良好的性能,但专利技术人在使用中发现,RNN使用相同的特征抽取器处理所有的问答句子,而不管句子长度如何,这些方法经常遇到长期依赖的问题,这意味着网络在学习位置相隔较远的单词之间的依赖关系时变得十分困难。这就导致了在长句子分布式表示时质量较低,因为这些句子的单词之间的长距离交互可能无法被完全捕获,造成了全局信息的缺失。
技术实现思路
有鉴于此,本专利技术的目的在于提出一种用于问答系统的答案选择方法,解决现有的问答系统中的答案选择方法忽略句子长度的问题。基于上述目的本专利技术提供的一种用于问答系统的答案选择方法,包括以下步骤:A.接收用户输入的问题句子和答案句子,利用预训练得到的词嵌入模型得出各句子中每个单词的词向量,并结合网络训练过程中对词嵌入模型进行微调后得出的词向量,计算得出组合后的单词向量;B.从连接的单词向量中选取有效的特征,得到句子中每个单词的最终向量;C.根据预设的句子长度阈值,在句子长度高于和低于阈值时,采用不同的特征提取器对句子进行处理,生成拟合后的包含上下文信息的句子矩阵表示;D.注意力池化层根据步骤C中得到的包含上下文信息的句子矩阵,得出问题句子和答案句子的注意力相似度,通过分别在相似度矩阵的行和列的每一维度提取最大特征,对问题句子和答案句子进行长度自适应分布式表示,为问题句子和答案句子分别生成分布式向量表示;E.测量问题句子和答案句子的分布式向量表示之间的余弦相似性,得到各答案句子相对于问题句子的相关性,根据相关性对答案句子进行排序。优选地,在步骤A中包括以下步骤:A1.将输入的问题句子和答案句子均定义为长度为L的句子s,对句子s中的第t个单词wt,在语料库中预训练得到词嵌入模型,在其中查找单词对应的词向量A2.在网络训练过程中对预训练的词嵌入模型参数进行微调,使其适用于当前数据集,得到更新过的词嵌入模型,在其中查找出单词对应的词向量计算组合后的单词向量为优选地,在步骤B中包括以下步骤:B1.部署隐藏层,从连接的单词向量中选取有效的特征,得到句子中每个单词的最终向量表示其中和均为隐藏层参数,的维度为D;B2.对各句子中的所有单词进行步骤A1、A2及B1,得到不含上下文信息的句子分布式矩阵表示优选地,在步骤C中,为每个输入的句子部署两个特征提取器,即基于BiLSTM的和基于Transformer的特征提取器,通过将两个特征提取器生成的句子分布式矩阵相加,生成拟合的句子分布式矩阵表示。优选地,在步骤C中,定义每个特征提取器具有一个二值激活参数,二值激活参数设置为:其中laglstm为基于BiLSTM的特征抽取器的二值激活参数,flagtsfm为基于Transformer的特征提取器的二值激活参数,Lthreshold为句子长度阈值各句子基于特征提取器的输入为其中为基于BiLSTM的特征抽取器的输入,为基于Transformer的特征抽取器的输入。优选地,在步骤C中,当句子长度L低于阈值Lthreshold时,句子中第t个单词的具体操作公式为:其中,i、o、f分别代表BiLSTM中的输入门,输出门以及遗忘门,和C分别代表保留的总记忆以及当前单词保留的记忆,h代表某一方向上带有记忆的单词表示,其维度为H,和分别为向前和向后的带有记忆的单词表示,以及均为网络参数基于BiLSTM的向量表示构成包含上下文信息的句子矩阵表示优选地,在步骤C中,当句子长度L高于阈值Lthreshold时,对句子进行特征抽取的计算公式为其中,为Transformer神经网络的多头自注意力机制中第i个自注意力机制的自注意力相似度;为经过第i个自注意力作用的句子矩阵表示;O、W、和U为自注意力参数;为输入句子矩阵表示中每一个词向量的维度,旨在对softmax函数进行压缩,为句子基于Transformer的包含上下文信息的句子矩阵表示。优选地,在步骤D中,注意力池化层对问题句子和答案句子的具体操作公式为其中G为问题和答案的注意力相似度,RQ为问题句子的包含上下文信息的句子矩阵表示,RA为答案句子的包含上下文信息的句子矩阵表示,U是注意力参数;ColumnMax(*)和RowMax(*)分别是取矩阵每一列和每一行的最大值的函数。优选地,在步骤E中,通过最小化以下候选答案的排序损失来训练神经网络,使其达到最佳训练阶段:loss=max{0,m-cos(vq,va+)+cos(vq,va-)}其中,m是一个预设的间隔,vq为问题句子的分布式向量表示,va为答案句子的分布式向量表示,a+为训练实例中的正向答案,a-为训练实例中的负向答案。从上面所述可以看出,本专利技术提供的用于问答系统的答案选择方法,采用层次长度自适应神经网络结构来生成问题与答案的句子分布式表示,目的是根据输入句子的长度采用不同的神经特征抽取器来提取高质量的句子特征,首先通过连接一个固定的单词嵌入和一个微调的单词嵌入为输入语句中的每个单词生成一个单词分布式表示,然后,分别对短句子使用基于BiLSTM的特征抽取器和对长句子使用基于Transformer的特征抽取器,最后,使用一个考虑问答句之间交互作用的注意力池化层来生成用于衡量问题与候选答案之间相关性的句子向量表示,实验结果表明,本专利技术提出的基于长度自适应神经网络的答案选择模型在MAP和MRR方面可以比最先进的基线上取得较大的提升。附图说明图1为本专利技术实施例的答案选择方法流程示意图;图2为本专利技术实施例的不同长度的问答对在MAP和MRR方面的性能表现示意图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。一种用于问答系统的答案选择方法,包括以下步骤:A.接收用户输入的问题句子和答案句子,利用预训练得到的词嵌入模型得出各句子中每个单词的词向量,并结合网络训练过程中对词嵌入模型进行微调后得出的词向量,计算得出组合后的单词向量;B.从连接的单词向量中选取有效的特征,得到句子中每个单词的最终向量;C.根据预设的句子长度阈值,在句子长度高于和低于阈值时,采用不同的特征提取器对句子进行处理,生成拟合后的包含上下文信息的句子矩阵表示;D.注意力池化层根据步骤C中得到的包含上下文信息的句子矩阵,得出问题句子和答案句子的注意力相似度,通过分别在相似度矩阵的行和列的每一维度提取最大特征,对问题句子和答案句子进行长度自适应分布式表示,为问题句子和答案句子分别生成分布式向量表示;E.测量问题句子和答案句子的分布式向量表示之间的余弦相似性,得到各答案句子相对于问题句子的相关性,根据相关性对答案句子进行排序。可选的,在步骤A中还包括以下步骤:A1.将输入的问题句子和答案句子均定义为长度为L的句子s,对句子s中的第t(1≤t≤L)个单词wt,为了尽可能多地保留单词内部的特征,先采用在大规模本文档来自技高网...

【技术保护点】
1.一种用于问答系统的答案选择方法,其特征在于,包括以下步骤:A.接收用户输入的问题句子和答案句子,利用预训练得到的词嵌入模型得出各句子中每个单词的词向量,并结合网络训练过程中对词嵌入模型进行微调后得出的词向量,计算得出组合后的单词向量;B.从连接的单词向量中选取有效的特征,得到句子中每个单词的最终向量;C.根据预设的句子长度阈值,在句子长度高于和低于阈值时,采用不同的特征提取器对句子进行处理,生成拟合后的包含上下文信息的句子矩阵表示;D.注意力池化层根据步骤C中得到的包含上下文信息的句子矩阵,得出问题句子和答案句子的注意力相似度,通过分别在相似度矩阵的行和列的每一维度提取最大特征,对问题句子和答案句子进行长度自适应分布式表示,为问题句子和答案句子分别生成分布式向量表示;E.测量问题句子和答案句子的分布式向量表示之间的余弦相似性,得到各答案句子相对于问题句子的相关性,根据相关性对答案句子进行排序。

【技术特征摘要】
1.一种用于问答系统的答案选择方法,其特征在于,包括以下步骤:A.接收用户输入的问题句子和答案句子,利用预训练得到的词嵌入模型得出各句子中每个单词的词向量,并结合网络训练过程中对词嵌入模型进行微调后得出的词向量,计算得出组合后的单词向量;B.从连接的单词向量中选取有效的特征,得到句子中每个单词的最终向量;C.根据预设的句子长度阈值,在句子长度高于和低于阈值时,采用不同的特征提取器对句子进行处理,生成拟合后的包含上下文信息的句子矩阵表示;D.注意力池化层根据步骤C中得到的包含上下文信息的句子矩阵,得出问题句子和答案句子的注意力相似度,通过分别在相似度矩阵的行和列的每一维度提取最大特征,对问题句子和答案句子进行长度自适应分布式表示,为问题句子和答案句子分别生成分布式向量表示;E.测量问题句子和答案句子的分布式向量表示之间的余弦相似性,得到各答案句子相对于问题句子的相关性,根据相关性对答案句子进行排序。2.根据权利要求1所述的一种用于问答系统的答案选择方法,其特征在于,在步骤A中包括以下步骤:A1.将输入的问题句子和答案句子均定义为长度为L的句子s,对句子s中的第t个单词wt,在语料库中预训练得到词嵌入模型,在其中查找单词对应的词向量A2.在网络训练过程中对预训练的词嵌入模型参数进行微调,使其适用于当前数据集,得到更新过的词嵌入模型,在其中查找出单词对应的词向量计算组合后的单词向量为3.根据权利要求1所述的一种用于问答系统的答案选择方法,其特征在于,在步骤B中包括以下步骤:B1.部署隐藏层,从连接的单词向量中选取有效的特征,得到句子中每个单词的最终向量表示其中和均为隐藏层参数,的维度为D;B2.对各句子中的所有单词进行步骤A1、A2及B1,得到不含上下文信息的句子分布式矩阵表示4.根据权利要求1所述的一种用于问答系统的答案选择方法,其特征在于,在步骤C中,为每个输入的句子部署两个特征提取器,即基于BiLSTM的和基于Transformer的特征提取器,通过将两个特征提取器生成的句子分布式矩阵相加,生成拟合的句子分布式矩阵表示。5.根据权利要求4所述的一种用于问答系统的答案选择方法,其特征在于,在步骤C中,定义每个特征提取器具有一个二...

【专利技术属性】
技术研发人员:陈洪辉邵太华蔡飞蒋丹阳刘俊先罗爱民陈涛舒振
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1