一种融合多头注意力机制和相对位置编码的知识库问答方法技术

技术编号:31024775 阅读:33 留言:0更新日期:2021-11-30 03:23
本发明专利技术涉及一种融合多头注意力机制和相对位置编码的知识库问答方法,属于自然语言处理领域,引入Transformer编码器代替BiLSTM对问题进行编码,同时,由于Transformer的结构问题,它对获取句子中相对位置词语信息的能力不足,本发明专利技术采用Transformer-XL中的相对位置编码思想,对Transformer中使用的绝对位置编码公式进行了改写,使用了相对位置编码代替其中的绝对位置编码,弥补了获取相对位置词语信息能力不足的情况。息能力不足的情况。息能力不足的情况。

【技术实现步骤摘要】
一种融合多头注意力机制和相对位置编码的知识库问答方法


[0001]本专利技术属于自然语言处理领域,涉及一种融合多头注意力机制和相对位置编码的知识库问答方法。

技术介绍

[0002]基于知识库的自然问答是自然语言处理领域中的一项经典任务,通过给定自然语言问题,对问题进行解析,利用知识库信息进行查询和推理,得出答案。知识库问答作为人工智能、自然语言处理和信息检索等领域的一个研究热点,它可以通过简明和精准的语言对用户的自然语言问句进行回答,使得软件产品的使用变得更加简单和高效,将自然语言问答系统应用在互联网客服领域可以大大减少企业所需要投入的人力,从而降低企业成本。问答系统在人类生活的很多方面都发挥着重要作用,具有较好的研究价值和发展前景。
[0003]目前基于知识库问答的方法可以分为两种,一种是基于语义解析的方法,这种方法主要是利用构造一个语义解析器把问句转换成结构化的查询语句。主要思想是将自然语言问题转化成形式化的逻辑形式单元,再通过解析得到表示问题整体语义的逻辑形式,最后通过相应的查询语句在知识库中查询得到结果。目前大多数基于语义解析的方法或多或少的依赖手工制定的规则或模板,这限制了该类方法的可扩展性和迁移性。
[0004]基于信息检索的方法是知识库问答的另一种方法,它主要是通过对问题和知识库信息进行建模,根据问题以及结合知识库信息检索出候选答案集合,训练模型来计算问题和候选答案的相似度得分,从而得出最接近正确答案的候选答案。
[0005]2014年Bordes等提出了一个子图表示模型,用来学习候选答案子图和问题文本的向量表示,计算问题和候选答案集合的相似度得分。同时他们进一步找到一种通过学习嵌入空间的矩阵用来微调基于嵌入的表示模型的方法,取得了更好的效果。2015年,Dong等使用多行卷积神经网络(MCCNNs)来学习问题和候选答案的表示,不同行的CNN网络可以从不同方面学习到问题的表示,比如答案路径,答案上下文和答案类型等方面。2015年,Bordes等人提出了一种在记忆网络框架下的基于嵌入的知识库问答系统,能够进行迁移学习,同时也能扩展更复杂的推理。2016年,Dai等使用条件事实模型分解来找到更多可能的候选主题并推理出最终答案。2017年,Lukovnikov等人通过利用字符和单词级别的门控循环单元(GRU)对问题的每个单词进行编码,将其输入到另一个GRU层,生成问题的最终语义向量。2018年,Hao等提出一种模式修改程序用来提取问题中的实体和关系模式,使用多层编码和多维信息增强联合事实三元组的选择。2018年,Wang等把关系预测看作seq2seq序列生成任务,在APVA

TUBRO模型中加入了关系预测的验证机制,设计了一种加速训练迭代的方法,缩短了模型训练时间。最近的工作更多的是将注意力机制结合到其中,2019年,Chen等人提出了BAMnet模型,它使用了一种新颖的双向注意力记忆网络,对问题和知识库信息进行交互建模,在问题和知识库两方面提取与问题更相关的信息,取得了不错的效果。如图1所示为BAMnet模型结构图,BiLSTM的全称是双向长短时记忆网络,它是由前后两个不同方向的LSTM组合而成的。LSTM是RNN的一种改进版本,它是由t时刻的输入词X
t
,细胞状态C
t
,临时细
胞状态隐层状态h
t
,遗忘门f
t
,记忆门i
t
,输出门O
t
组成。LSTM的计算过程可以概括为:通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息则被丢弃,并在每一个时间步都会输出隐层状态h
t
,同时其中遗忘信息、记忆信息和输出信息由通过上一个时刻的隐层状态h
t
‑1和当前输入X
t
计算出来的遗忘门f
t
,记忆门i
t
,输出门o
t
来控制的。LSTM和BiLSTM由于其设计结构特点,非常适合用来对时序数据进行建模,两者在自然语言处理任务中经常被用来建模上下文信息。但是,也正因为LSTM和BiLSTM这种顺序计算的特点,每一个时间片t的计算依赖t

1时刻的计算结果,一定程度限制了模型的并行计算能力。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种采用TransformerEncoder代替BiLstm对问题进行建模编码的方法,并采用相对位置编码代替其中的绝对位置编码,达到提高模型的并行计算能力以及增强模型获取上下文相对词语位置信息的能力,解决当前大多数知识库问答模型通过利用RNN及其各种衍生版本对问题进行建模,限制了模型的并行计算能力这一问题。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]一种融合多头注意力机制和相对位置编码的知识库问答方法,包括以下步骤:
[0009]S1:对输入的自然语言进行预训练,得到300维词向量glove,作为词嵌入层;
[0010]S2:利用所述词嵌入层将给定问题集合转换成词嵌入序列;
[0011]S3:使用引入了相对位置编码信息的TransformerEncoder模块对所述词嵌入序列进行编码得到问题向量H
Q

[0012]S4:对候选答案集合的三种类型信息进行编码,所述三种类型信息为答案类型、答案路径和答案上下文相关信息;
[0013]S5:将候选答案的实体类型的文本描述用BiLSTM编码成d维的向量表示
[0014]S6:将从候选答案到问句的主题实体词的关系序列定义为答案路径,使用BiLSTM将其编码成向量表示
[0015]S7:通过一个关系嵌入层计算的关系嵌入的平均值作为向量表示
[0016]S8:将候选答案的周围节点定义为候选答案的上下文,将所述候选答案的上下文使用BiLSTM编码成向量表示
[0017]S9:使用key

value记忆网络来存储候选答案信息;
[0018]S10:利用主注意力网络增进问题信息和候选答案信息的交互,使用副注意力网络进一步增强问题信息和候选答案信息的交互,得到增强的问题向量表示和候选答案信息表示
[0019]S11:通过注意力机制使用问题表示向量查询键值存储器,提取最相关的信息用以更新问题表示向量得到
[0020]S12:对问题Q的表示和候选答案集合的表示进行匹配度打分根据分数对候选答案排序,分数越高的被认为越接近正确答案。
[0021]进一步,步骤S8中所述使用key

value记忆网络来存储候选答案信息,对其进行如下线性投影:
[0022][0023][0024][0025]其中,和是答案类型的d维key值表示和value值表示,和是答案路径的相应d维key值表示和value值表示,和是答案上下文相应的d维key值表示和value值表示。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多头注意力机制和相对位置编码的知识库问答方法,其特征在于:包括以下步骤:S1:对输入的自然语言进行预训练,得到300维词向量glove,作为词嵌入层;S2:利用所述词嵌入层将给定问题集合转换成词嵌入序列;S3:使用引入了相对位置编码信息的TransformerEncoder模块对所述词嵌入序列进行编码得到问题向量H
Q
;S4:对候选答案集合的三种类型信息进行编码,所述三种类型信息为答案类型、答案路径和答案上下文相关信息;S5:将候选答案的实体类型的文本描述用BiLSTM编码成d维的向量表示S6:将从候选答案到问句的主题实体词的关系序列定义为答案路径,使用BiLSTM将其编码成向量表示S7:通过一个关系嵌入层计算的关系嵌入的平均值作为向量表示S8:将候选答案的周围节点定义为候选答案的上下文,将所述候选答案的上下文使用BiLSTM编码成向量表示S9:使用key

value记忆网络来存储候选答案信息;S10:利用主注意力网络增进问题信息和候选答案信息的交互,使用副注意力网络进一步增强问题信息和候选答案信息的交互,得到增强的问题向量表示和候选答案信息表示S11:通过注意力机制使用问题表示向量查询键值存储器,提取最相关的信息用以更新问题表示向量得到S12:对问题Q的表示和候选答案集合的表示进行匹配度打分根据分数对候选答案排序,分数越高的被认为越接近正确答案。2.根据权利要求1所述的融合多头注意力机制和相对位置编码的知识库问答方法,其特征在于:步骤S8中所述使用key

value记忆网络来存储候选答案信息,对其进行如下线性投影:投影:投影:其中,和是答案类型的d维key值表示和value值表示,和是答案路径的相应d维key值表示和value值表示,和是答案上下文相应的d维key值表示和value值表示。
3.根据权利要求1所述的融合多头注意力机制和相对位置编码的知识库问答方法,其特征在于:所述TransformerEncoder模块为Transformer模型中的编码器小单元块,其包括多头注意力机制层Multi

head Attention和前馈神经网络层Feed Forward,在每一层后都有一个残差连接&amp;归一化层Add&amp;Normalize,TransformerEncoder模块的输入是由词向量token embedding加位置向量positional embedding组成,所述positional embedding的计算公式如下:计算公式如下:其中,pos表示单词的位置,i是指单词的维度,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。4.根据权利要求3所述的融合多头注意力机制和相对位置编码的知识库问答方法,其特征在于:在多头注意力机制中,一个输入向量x经过h组权重矩阵得到h组query、key和val...

【专利技术属性】
技术研发人员:甘玲肖阳
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1