【技术实现步骤摘要】
一种基于门控机制的多任务联合训练机器阅读理解方法
[0001]本专利技术属于自然语言处理
,具体涉及一种基于门控机制的多任务联合训练机器阅读理解方法。
技术介绍
[0002]自然语言处理中的一项重要任务是问答系统,其中机器阅读理解是问答系统的一项热门研究。该研究给出文章和问题,通过阅读和理解,从文章中抽取一段文字作为问题的答案。在现实生活中并不是所有问题都具有答案,为了满足现实所需,机器阅读理解模型不仅要准确的从文章中抽取问题的答案,还要对问题是否有答案进行判断,是自然语言处理领域的一项重要挑战。从实际应用来看,阅读理解的应用已经渗入到我们生活的方方面面。比如在常见的搜索引擎上,当用户输入想要查询的关键词,需要从海量的网站信息中找到相关网页,并花费大量的时间。如果把相关技术应用到搜索引擎中,会更加精确地找到所需要的答案。其他常见的现实应用场景还有淘宝客服对话系统,输入常见的问题,即可返回答案,为企业节省了人力物力。
[0003]预训练语言模型,例如BERT,ALBERT等,是自然语言处理近几年的研究热点,在机器阅读理解模型中普遍使用。许多机器阅读理解模型也采用注意力机制来模拟人类带着问题阅读的行为,如BiDAF,QANet,AoA等。FusionNet提出一种改进的基于单词历史和全关注注意力的阅读理解网络模型,其中全关注注意力计算单词所有历史信息的加权系数,同时对单词历史中的高维特征降维,提高效率。ASMI模型解决了鲁棒性不足的问题,提出了一种上下文注意力机制,对上下文答案进行预测,同时提出一种新的负样 ...
【技术保护点】
【技术特征摘要】
1.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述方法包括以下步骤:通过文章与问题编码模块,对输入的文章和问题进行上下文编码;通过交互模块,采用注意力机制和门控机制突出上下文信息的重要特征,并对突出的关键特征更新;通过多级残差结构模块,将原始语义信息分别与经过注意力机制得到的表示和经过门控机制得到的表示相融合;通过答案预测模块,预测问题的可回答性和可回答问题的答案。2.根据权利要求1所述的.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述通过文章与问题编码模块,对输入的文章和问题进行上下文编码,包括:定义有m个词的文章为P={p1,p2,
…
,p
m
},有n个词的问题为Q={q1,q2,
…
,q
n
};把问题Q和文章P拼接为一个定长的序列:起始位置用[CLS]来标识,作为整个序列的句向量;问题Q和文章P之间用标识符[SEP]隔开,文章P的结尾同样用[SEP]标识;对于整个序列的长度,如果序列超过定长则截断,采用滑动窗口生成下一个序列;如果序列没有达到定长,则用[PAD]补齐;把生成的序列作为输入送到编码器端,并将E={e1,e2,
…
,e
s
}作为带有嵌入特征的向量序列;将向量E送到多层Transformer结构中,其中每一层包含两部分,一部分是多头注意力,另一部分是前馈层;把最终经过多层Transformer得到的编码器的输出用H={h1,h2,
…
,h
s
}表示。3.根据权利要求1所述的.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述交互模块的注意力机制采用双向注意流模型,工作原理包括:用点积计算第i个文章单词和第j个问题单词之间的相似度分数,表示如下:其中,p
i
表示第i个文章词,q
j
表示第j个问题词,T是转置符号,S
ij
∈R
m
×
n
表示生成的S
ij
维度是m
×
n;构建文章对问题的注意力和问题对文章的注意力来获得基于问题的文章表示:多个相似度分数S
ij
构成相似度矩阵S,对所述相似度矩阵S做行归一化得到矩阵S1,表达如下:S1=softmax
→
(S)计算对于每个文章词,哪个问题词与其最相关;文章对问题的注意力会突出该问题词的特征,表达如下:A
pq
=S1·
Q其中,A
pq
表示文章对问题的注意力,Q是问题词;先对行取最大值,然后再对列做归一化得到矩阵S2,表达如下:S2=softmax
↓
(max
→
(S))以用于表示哪一个文章词对问题词中的某个词最相关,则证明该词对回答问题重要;
问题对文章的注意力根据对问题词相关的文章词来突出文章词的特征,表达如下:A
qp
=S2·
P其中,A
qp
是问题对文章的注意力,P是文章词;通过融合方式得到最后的基于问题的文章表示,表达如下:QP=[P;A
pq
;P
·
A
pq
;P
·
A
qp
]。4.根据权利要求1所述的.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述交互模块的门控机制的工作原理包括:将文章词分别与文章对问题的注意力和融合后...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。