当前位置: 首页 > 专利查询>苏州大学专利>正文

一种多视角融合的阅读理解选择题的答案选择方法技术

技术编号:24683869 阅读:66 留言:0更新日期:2020-06-27 08:05
本发明专利技术公开了一种多视角融合的阅读理解选择题的答案选择方法,包括以下步骤:(1)获取上下文段落文本;(2)FACN模型。通过上述方式,本发明专利技术多视角融合的阅读理解选择题的答案选择方法通过引入上下文信息(段落文本),结合多感知的注意力机制和胶囊网络(FACN模型),能够有效地捕获事实类问题还是非事实类问题的特性,进而不同方式处理,在多视角融合的阅读理解选择题的答案选择方法的普及上有着广泛的市场前景。

An answer selection method for reading comprehension multiple choice questions based on multi perspective fusion

【技术实现步骤摘要】
一种多视角融合的阅读理解选择题的答案选择方法
本专利技术涉及机器阅读理解领域,特别是涉及一种多视角融合的阅读理解选择题的答案选择方法。
技术介绍
随着大数据和人工智能技术的快速发展,答案选择技术广泛应用于各行各业,例如智能问答、搜索、推荐系统等。目前,自动问答技术研究大致分为以下几类:基于知识图谱的问答系统、基于机器阅读理解式的问答系统、答案选择式的问答系统。本案所研究的是最后一种:答案选择式的问答系统。不同于其他两种问答系统,答案选择式的问答系统中问题的对应答案一般较长,需要更加复杂的语义推理和综合回答。现有的技术关于答案选择式的问答系统存在以下缺点:(1)基于模板的方法通用性差,严重依赖人工编写模板和预定义的特征集;(2)基于神经网络的方法仅仅考虑到问题与候选答案之间的匹配信息。
技术实现思路
本专利技术主要解决的技术问题是提供一种多视角融合的阅读理解选择题的答案选择方法,通过采用多项选择式阅读理解技术来解决答案选择任务,相比传统的答案选择方法,本案提出的技术能够学习到段落文本与候选答案、问题与候选答案之间的多视角交互信息,进而能够准确地找到最佳答案,通过利用一种增强型的预训练语言模型来获取FACNmodel所需的上下文(段落文本),能够极大地区分问题对应的答案类型、通过利用多视角下的融合注意力机制和门控下的胶囊网络层应用于答案选择任务,可以极大提高任务的效果,利用门控下的胶囊网络层应用于答案选择任务,能够有效地捕获事实类问题还是非事实类问题的特性,进而不同方式处理,在多视角融合的阅读理解选择题的答案选择方法的普及上有着广泛的市场前景。为解决上述技术问题,本专利技术提供一种多视角融合的阅读理解选择题的答案选择方法,包括以下步骤:。(1)获取上下文段落文本:(1.1)检索上下文段落文本:对于一个给定的初始问题Q,借助搜索引擎,检索出与问题相关的排名前10个的上下文段落文本;(1.2)获取候选答案集和段落文本:对于每个已检索出的上下文段落文本,利用增强型的预训练语言模型,分别计算候选答案集A与每个已检索出的上下文段落文本的相似度,由此得到10个相似度分数,降序输出相似度最高分数对应的段落文本,标记为P;(1.3)编为三元组信息:经过步骤(1.1)、步骤(1.2)的处理,可以获取到初始问题Q、段落文本P、候选答案集A,编为三元组(Q,P,A)信息,用于后续的模型训练;(2)FACN模型:(2.1)初始问题Q、段落文本P、候选答案集A编码表示:借助开源的自然语言处理工具分别对初始问题Q、段落文本P、候选答案集A进行处理,把他们(P,Q,A)对应的词性标注特征、实体识别特征和词向量拼接在一起,送入到双向长短记忆BiLSTM网络,分别得到段落文本、问题和候选答案的隐藏层表示,即为计算公式如下所示:其中,h为隐藏层表示,e为词向量,p为词性标注特征,n为实体识别特征,t表示第t个词块,对规整后,即为Hp,Hq,Ha;(2.2)融合式的问题段落文本和候选答案注意力:利用经典的attention机制来分别对齐问题段落文本和候选答案中重要的词语,分别得到对齐的上下文表示向量Attpa,Attap,计算公式如下:其中,表示段落文本和候选答案对齐交互矩阵,Wpa表示训练权重参数,softmax和tanh表示神经网络的激活函数,为了从不同视角获取问题段落文本和候选答案交互信息,利用highwaynetwork来融合隐藏层表示和上下文表示向量,计算公式如下:fp=relu(Wf[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])gp=σ(Wg[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])Op=gp⊙fp+(1-gp)⊙Hp其中,Op表示多视角的段落文本融合向量fp和段落文本隐藏层表示向量Hp的门控输出,Wf,Wg表示训练权重参数,relu和σ表示神经网络的激活函数,⊙,-分别表示元素级的乘法和减法运算,类似地,能够得到多视角融合下的段落文本下候选答案的门控输出向量Opa,同样地,利用以上的计算方法获取问题和候选答案对齐交互矩阵上下文对齐向量Attqa,Attaq,多视角融合下的问题下候选答案问题下的门控输出向量Oqa,问题感知的门控输出向量Oq,为了充分利用之前的网络层输出,接着利用BiLSTM来编码历史网络层输出,分别得到关于段落文本、问题以及候选答案的上下文感知的隐层向量Fp,Fq,Fa。计算公式如下:Fp=BiLSTM(Wfp[Op;Hp])Fq=BiLSTM(Wfq[Oq;Hq])Fa=BiLSTM(Wfa[Opa;Oqa;Ha])其中,Wfp,Wfq,Wfa表示训练权重参数;(2.3)门控下的胶囊网络层:对于事实类的问题,包括Who型、When型、Where型,其答案往往由固定的词语或者一段简短的文本构成,经过简单的推理即可回答出来,对于非事实类的问题,包括Why型、How型、解释型,其答案往往较长,而且需要通过全部的上下文才能推断出来,不太容易回答出,为了解决事实类和非事实类问题的差异性,结合门控机制和胶囊网络来动态回答不同类型的问题,为了聚合之前网络层的输出信息,利用动态路由算法来迭代地更新每层获取的胶囊信息,经过r次迭代,输出收敛下的胶囊网络层信息C,C*=tanh(WcpFp+WcaFa+WcqFq)g*=σ(WcpgFp+WcagFa+WcqgFq)其中,Wcp,Wca,Wcq,Wcpg,Wcag,Wcqg表示可训练的权重参数,C*表示段落文本(或问题)和候选答案的交互输出向量,g*表示二值(0和1)激活向量,σ表示sigmoid激活函数,动态路由算法如下:之前网络层的交互输出向量C*,经过动态路由算法,得到了高层的且抽象的胶囊C,为了动态捕获不同问题类型的偏向表示,利用门控机制来输出最重要的向量Z,利用softmax归一化,找出每个候选答案的概率值,概率值最大的索引即为与问题最相关的答案,Z=g*⊙C*+(1-g*)⊙C其中,表示第i个样本的模型预测答案,等号右边是关于向量Z的softmax归一化计算,|C|表示候选答案集中答案的个数;(2.4)模型训练:考虑本案提出的模型实际,采用交叉熵损失函数来拟合预测答案与真实答案之间的误差,训练目标函数如下:其中,N表示训练样本的个数,Ai,Pi,Qi分别表示第i个样本对应的候选答案集、段落文本和问题,pi表示第i个样本对应的真实答案,表示L2正则化项,用来防止模型过拟合,θ表示模型的训练参数。在本专利技术一个较佳实施例中,步骤(1.1)中的所述搜索引擎包括Bing、Google、百度、网易、雅虎、阿里巴巴、搜狗、中搜的一种或多种。本文档来自技高网...

【技术保护点】
1.一种多视角融合的阅读理解选择题的答案选择方法,其特征在于,包括以下步骤:。/n(1)获取上下文段落文本:/n(1.1)检索上下文段落文本:/n对于一个给定的初始问题Q,借助搜索引擎,检索出与问题相关的排名前10个的上下文段落文本;/n(1.2)获取候选答案集和段落文本:/n对于每个已检索出的上下文段落文本,利用增强型的预训练语言模型,分别计算候选答案集A与每个已检索出的上下文段落文本的相似度,由此得到10个相似度分数,降序输出相似度最高分数对应的段落文本,标记为P;/n(1.3)编为三元组信息:/n经过步骤(1.1)、步骤(1.2)的处理,可以获取到初始问题Q、段落文本P、候选答案集A,编为三元组(Q,P,A)信息,用于后续的模型训练;/n(2)FACN模型:/n(2.1)初始问题Q、段落文本P、候选答案集A编码表示:/n借助开源的自然语言处理工具分别对初始问题Q、段落文本P、候选答案集A进行处理,把他们(P,Q,A)对应的词性标注特征、实体识别特征和词向量拼接在一起,送入到双向长短记忆BiLSTM网络,分别得到段落文本、问题和候选答案的隐藏层表示,即为

【技术特征摘要】
1.一种多视角融合的阅读理解选择题的答案选择方法,其特征在于,包括以下步骤:。
(1)获取上下文段落文本:
(1.1)检索上下文段落文本:
对于一个给定的初始问题Q,借助搜索引擎,检索出与问题相关的排名前10个的上下文段落文本;
(1.2)获取候选答案集和段落文本:
对于每个已检索出的上下文段落文本,利用增强型的预训练语言模型,分别计算候选答案集A与每个已检索出的上下文段落文本的相似度,由此得到10个相似度分数,降序输出相似度最高分数对应的段落文本,标记为P;
(1.3)编为三元组信息:
经过步骤(1.1)、步骤(1.2)的处理,可以获取到初始问题Q、段落文本P、候选答案集A,编为三元组(Q,P,A)信息,用于后续的模型训练;
(2)FACN模型:
(2.1)初始问题Q、段落文本P、候选答案集A编码表示:
借助开源的自然语言处理工具分别对初始问题Q、段落文本P、候选答案集A进行处理,把他们(P,Q,A)对应的词性标注特征、实体识别特征和词向量拼接在一起,送入到双向长短记忆BiLSTM网络,分别得到段落文本、问题和候选答案的隐藏层表示,即为计算公式如下所示:









其中,h为隐藏层表示,e为词向量,p为词性标注特征,n为实体识别特征,t表示第t个词块,
对规整后,即为Hp,Hq,Ha;
(2.2)融合式的问题段落文本和候选答案注意力:
利用经典的attention机制来分别对齐问题段落文本和候选答案中重要的词语,分别得到对齐的上下文表示向量Attpa,Attap,计算公式如下:









其中,表示段落文本和候选答案对齐交互矩阵,Wpa表示训练权重参数,softmax和tanh表示神经网络的激活函数,
为了从不同视角获取问题段落文本和候选答案交互信息,利用highwaynetwork来融合隐藏层表示和上下文表示向量,计算公式如下:
fp=relu(Wf[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
gp=σ(Wg[Hp;Attpa;Hp-Attpa;Hp⊙Attpa])
Op=gp⊙fp+(1-gp)⊙Hp
其中,Op表示多视角的段落文本融合向量fp和段落文本隐藏层表示向量Hp的门控输出,Wf,Wg表示训练权重参数,relu和σ表示神经网络的激活函数,⊙,-分别表示元素级的乘法和减法运算,
类似地,能够得到多视角融合下的段落文本下候选答案的门控输出向量Opa,
同样地,利用以上的计算方法获取问题和候选答案对齐交互矩阵上下文对齐向量Attqa,Attaq,多视角融合下的问题下候选答案问题下的门控输出向量Oqa,问题感知的门控输出向量Oq,
为了充分利用之前的网络层输出,接着利用BiLSTM来编码历史网络层输出,分别得到关于段落文本、问题以及候选答案的上下文感知的隐层向量Fp,Fq,Fa。计算公式如下:
Fp=BiLSTM(Wfp[Op;Hp])
Fq=BiLSTM(Wf...

【专利技术属性】
技术研发人员:李直旭胡嘉欣
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1