一种基于门控机制的多任务联合训练机器阅读理解方法技术

技术编号:37551449 阅读:9 留言:0更新日期:2023-05-15 07:37
本发明专利技术属于自然语言处理技术领域,具体涉及一种基于门控机制的多任务联合训练机器阅读理解方法。方法包括:文章与问题编码模块;交互模块;多级残差结构模块;答案预测模块。本发明专利技术通过门控机制对交互后的关联特征进行过滤,控制重要信息的流入和无用信息的流出,以把握信息的流动,从而准确的送入输出层对答案进行预测;通过引入残差结构的思想构建多级残差结构,将文章和问题交互后的表示融合原始语义信息,使语义信息更加丰富,对文章的理解更加充分,且避免了网络的退化;通过加入边缘损失函数进行多任务联合训练,保证分类任务和抽取任务的强耦合性,进一步学习正例和负例之间的特征差异。征差异。征差异。

【技术实现步骤摘要】
一种基于门控机制的多任务联合训练机器阅读理解方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于门控机制的多任务联合训练机器阅读理解方法。

技术介绍

[0002]自然语言处理中的一项重要任务是问答系统,其中机器阅读理解是问答系统的一项热门研究。该研究给出文章和问题,通过阅读和理解,从文章中抽取一段文字作为问题的答案。在现实生活中并不是所有问题都具有答案,为了满足现实所需,机器阅读理解模型不仅要准确的从文章中抽取问题的答案,还要对问题是否有答案进行判断,是自然语言处理领域的一项重要挑战。从实际应用来看,阅读理解的应用已经渗入到我们生活的方方面面。比如在常见的搜索引擎上,当用户输入想要查询的关键词,需要从海量的网站信息中找到相关网页,并花费大量的时间。如果把相关技术应用到搜索引擎中,会更加精确地找到所需要的答案。其他常见的现实应用场景还有淘宝客服对话系统,输入常见的问题,即可返回答案,为企业节省了人力物力。
[0003]预训练语言模型,例如BERT,ALBERT等,是自然语言处理近几年的研究热点,在机器阅读理解模型中普遍使用。许多机器阅读理解模型也采用注意力机制来模拟人类带着问题阅读的行为,如BiDAF,QANet,AoA等。FusionNet提出一种改进的基于单词历史和全关注注意力的阅读理解网络模型,其中全关注注意力计算单词所有历史信息的加权系数,同时对单词历史中的高维特征降维,提高效率。ASMI模型解决了鲁棒性不足的问题,提出了一种上下文注意力机制,对上下文答案进行预测,同时提出一种新的负样本生成方法。这些模型在计算注意力时通常突出文章和问题的关键信息,并通过融合得到包含问题和文章交互的语义向量表示。
[0004]在问题的分类和答案的提取上,分为端到端的模型和两阶段式的模型。回顾式阅读器模型采用两阶段式,结合略读和精读两阶段,取得了新的提升。略读模块阅读文章和问题,给出初步判断,而精读模块验证答案的可回答性,并给出候选。综合两个模块的输出给出最终的分类结果并赋予相应的答案。S&I Reader是端到端的阅读模型,提出精读模块和略读模块,并通过多跳模拟人们多次阅读的行为。同时增加多粒度模块,丰富文本的重要特征。RMR+AnswerVerifier模型是端到端的模型,提出先读后验的结构,不仅用阅读器去提取候选答案并生成无答案概率,同时也用答案验证器来决定预测的答案是否被输入的片段包含,并采用辅助损失进一步检测。
[0005]然而,以上各现有技术中,存在以下技术问题:(1)抽取特征冗余。在关联文章和问题特征后,没有对信息的流动进行控制。(2)语义信息不全面。只包含从预训练语言模型得到的上下文语义向量,或者只包含经过注意力机制等技术得到的关键信息语义向量,可以表达的信息不多,同时会出现由于增加网络层导致的网络退化,造成网络表征能力不强。(3)问题的分类和答案的抽取耦合性不强。不能学习到有答案问题和问答案问题之间的差异性。
[0006]为了解决该技术问题,我们提出了本专利技术的一种基于门控机制的多任务联合训练机器阅读理解方法。

技术实现思路

[0007]本专利技术的目的在于提供一种基于门控机制的多任务联合训练机器阅读理解方法,以解决
技术介绍
中指出的现有技术问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:
[0009]本专利技术提供一种基于门控机制的多任务联合训练机器阅读理解方法,所述方法包括以下步骤:
[0010]通过文章与问题编码模块,对输入的文章和问题进行上下文编码;
[0011]通过交互模块,采用注意力机制和门控机制突出上下文信息的重要特征,并对突出的关键特征更新;
[0012]通过多级残差结构模块,将原始语义信息分别与经过注意力机制得到的表示和经过门控机制得到的表示相融合;
[0013]通过答案预测模块,预测问题的可回答性和可回答问题的答案。
[0014]进一步地,所述通过文章与问题编码模块,对输入的文章和问题进行上下文编码,包括:
[0015]定义有m个词的文章为P={p1,p2,

,p
m
},有n个词的问题为Q={q1,q2,

,q
n
};
[0016]把问题Q和文章P拼接为一个定长的序列:起始位置用[CLS]来标识,作为整个序列的句向量;
[0017]问题Q和文章P之间用标识符[SEP]隔开,文章P的结尾同样用[SEP]标识;
[0018]对于整个序列的长度,如果序列超过定长则截断,采用滑动窗口生成下一个序列;如果序列没有达到定长,则用[PAD]补齐;
[0019]把生成的序列作为输入送到编码器端,并将E={e1,e2,

,e
s
}作为带有嵌入特征的向量序列;
[0020]将向量E送到多层Transformer结构中,其中每一层包含两部分,一部分是多头注意力,另一部分是前馈层;
[0021]把最终经过多层Transformer得到的编码器的输出用H={h1,h2,

,h
s
}表示。
[0022]进一步地,所述交互模块的注意力机制采用双向注意流模型,工作原理包括:
[0023]用点积计算第i个文章单词和第j个问题单词之间的相似度分数,表示如下:
[0024][0025]其中,p
i
表示第i个文章词,q
j
表示第j个问题词,T是转置符号,S
ij
∈R
m
×
n
表示生成的S
ij
维度是m
×
n;
[0026]构建文章对问题的注意力和问题对文章的注意力来获得基于问题的文章表示:
[0027]多个相似度分数S
ij
构成相似度矩阵S,对所述相似度矩阵S做行归一化得到矩阵S1,表达如下:
[0028]S1=softmax

(S)
[0029]计算对于每个文章词,哪个问题词与其最相关;
[0030]文章对问题的注意力会突出该问题词的特征,表达如下:
[0031]A
pq
=S1·
Q
[0032]其中,A
pq
表示文章对问题的注意力,Q是问题词;
[0033]先对行取最大值,然后再对列做归一化得到矩阵S2,表达如下:
[0034]S2=softmax

(max

(S))
[0035]以用于表示哪一个文章词对问题词中的某个词最相关,则证明该词对回答问题重要;
[0036]问题对文章的注意力根据对问题词相关的文章词来突出文章词的特征,表达如下:
[0037]A
qp
=S2·
P
[0038]其中,A
qp
是问题对文章的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述方法包括以下步骤:通过文章与问题编码模块,对输入的文章和问题进行上下文编码;通过交互模块,采用注意力机制和门控机制突出上下文信息的重要特征,并对突出的关键特征更新;通过多级残差结构模块,将原始语义信息分别与经过注意力机制得到的表示和经过门控机制得到的表示相融合;通过答案预测模块,预测问题的可回答性和可回答问题的答案。2.根据权利要求1所述的.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述通过文章与问题编码模块,对输入的文章和问题进行上下文编码,包括:定义有m个词的文章为P={p1,p2,

,p
m
},有n个词的问题为Q={q1,q2,

,q
n
};把问题Q和文章P拼接为一个定长的序列:起始位置用[CLS]来标识,作为整个序列的句向量;问题Q和文章P之间用标识符[SEP]隔开,文章P的结尾同样用[SEP]标识;对于整个序列的长度,如果序列超过定长则截断,采用滑动窗口生成下一个序列;如果序列没有达到定长,则用[PAD]补齐;把生成的序列作为输入送到编码器端,并将E={e1,e2,

,e
s
}作为带有嵌入特征的向量序列;将向量E送到多层Transformer结构中,其中每一层包含两部分,一部分是多头注意力,另一部分是前馈层;把最终经过多层Transformer得到的编码器的输出用H={h1,h2,

,h
s
}表示。3.根据权利要求1所述的.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述交互模块的注意力机制采用双向注意流模型,工作原理包括:用点积计算第i个文章单词和第j个问题单词之间的相似度分数,表示如下:其中,p
i
表示第i个文章词,q
j
表示第j个问题词,T是转置符号,S
ij
∈R
m
×
n
表示生成的S
ij
维度是m
×
n;构建文章对问题的注意力和问题对文章的注意力来获得基于问题的文章表示:多个相似度分数S
ij
构成相似度矩阵S,对所述相似度矩阵S做行归一化得到矩阵S1,表达如下:S1=softmax

(S)计算对于每个文章词,哪个问题词与其最相关;文章对问题的注意力会突出该问题词的特征,表达如下:A
pq
=S1·
Q其中,A
pq
表示文章对问题的注意力,Q是问题词;先对行取最大值,然后再对列做归一化得到矩阵S2,表达如下:S2=softmax

(max

(S))以用于表示哪一个文章词对问题词中的某个词最相关,则证明该词对回答问题重要;
问题对文章的注意力根据对问题词相关的文章词来突出文章词的特征,表达如下:A
qp
=S2·
P其中,A
qp
是问题对文章的注意力,P是文章词;通过融合方式得到最后的基于问题的文章表示,表达如下:QP=[P;A
pq
;P
·
A
pq
;P
·
A
qp
]。4.根据权利要求1所述的.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述交互模块的门控机制的工作原理包括:将文章词分别与文章对问题的注意力和融合后...

【专利技术属性】
技术研发人员:王勇陈秋怡张梅王永明
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1