建立阅读理解模型的方法、阅读理解方法及对应装置制造方法及图纸

技术编号:29526491 阅读:22 留言:0更新日期:2021-08-03 15:12
本公开公开了建立阅读理解模型的方法、阅读理解方法及对应装置,涉及自然语言处理和深度学习等人工智能技术。获取训练样本,训练样本包括问题样本、段落样本以及对段落样本中标注的问题样本对应的答案标签;利用训练样本训练阅读理解模型,其中,将同一训练样本中的问题样本和段落样本进行拼接后得到的拼接文本输入预训练子模型,由预训练子模型输出拼接文本中各元素的隐向量构成的隐向量序列;第一分类子模型利用隐向量序列,输出答案在段落样本中的位置区间信息;第二分类子模型利用隐向量序列,基于自注意力机制得到语义交互向量序列,并利用语义交互向量序列输出段落样本中答案所在句的信息。本公开自动、高效地实现了对段落的阅读理解。

【技术实现步骤摘要】
建立阅读理解模型的方法、阅读理解方法及对应装置
本公开涉及计算机应用
,尤其涉及自然语言处理和深度学习等人工智能技术。
技术介绍
近年来深度学习技术快速发展,并已在图像识别、语音识别等领域超越了人类水平。作为人工智能核心技术之一的自然语言处理(NaturalLanguageProcessing,NLP)也是当下研究最热的一个领域。机器阅读理解(MachineReadingComprehension,MRC)是一种利用算法使计算机理解段落语义并回答相关问题的技术。由于段落和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理的范畴,也是其中最新最热门的研究课题之一。随着各行各业文本数据的大量产生,传统的人工处理方式因为处理速度慢,开销巨大等因素成为产业发展的瓶颈。因此,自动、高效的机器阅读理解技术成为相关产业内的重要需求。
技术实现思路
本公开提供了一种建立阅读理解模型的方法、阅读理解方法及对应装置,以便于自动、高效地实现对文本段落的阅读理解。根据本公开的第一方面,提供了一种建立阅读理解模型的方法,本文档来自技高网...

【技术保护点】
1.一种建立阅读理解模型的方法,包括:/n获取训练样本,每一个训练样本包括问题样本、段落样本以及对所述段落样本中标注的所述问题样本对应的答案标签;/n利用所述训练样本训练阅读理解模型,所述阅读理解模型包括预训练子模型、第一分类子模型和第二分类子模型;/n其中,将同一训练样本中的问题样本和段落样本进行拼接后得到的拼接文本输入所述预训练子模型,由所述预训练子模型输出所述拼接文本中各Token的隐向量构成的隐向量序列;所述第一分类子模型利用所述隐向量序列,输出所述答案在所述段落样本中的位置区间信息;所述第二分类子模型利用所述隐向量序列,基于自注意力机制得到语义交互向量序列,并利用所述语义交互向量序列...

【技术特征摘要】
1.一种建立阅读理解模型的方法,包括:
获取训练样本,每一个训练样本包括问题样本、段落样本以及对所述段落样本中标注的所述问题样本对应的答案标签;
利用所述训练样本训练阅读理解模型,所述阅读理解模型包括预训练子模型、第一分类子模型和第二分类子模型;
其中,将同一训练样本中的问题样本和段落样本进行拼接后得到的拼接文本输入所述预训练子模型,由所述预训练子模型输出所述拼接文本中各Token的隐向量构成的隐向量序列;所述第一分类子模型利用所述隐向量序列,输出所述答案在所述段落样本中的位置区间信息;所述第二分类子模型利用所述隐向量序列,基于自注意力机制得到语义交互向量序列,并利用所述语义交互向量序列输出所述段落样本中答案所在句的信息;
训练目标为最小化所述第一分类子模型和所述第二分类子模型的输出与所述答案标签之间的差异。


2.根据权利要求1所述的方法,其中,所述输出所述答案在所述段落样本中的位置区间信息包括:
将所述隐向量序列经过全连接网络的映射,得到所述段落样本中的各Token是答案边界位置的概率。


3.根据权利要求1所述的方法,其中,所述基于自注意力机制得到语义交互向量序列包括:
构建约束矩阵,所述约束矩阵体现出问题样本与段落样本中答案所在句的注意力交互特征;
利用构建的约束矩阵,对所述拼接文本中各Token的隐向量进行自注意力处理,得到所述语义交互向量序列。


4.根据权利要求1或3所述的方法,其中,所述利用所述语义交互向量序列输出所述段落样本中答案所在句的信息包括:
将所述语义交互向量序列进行全连接网络的映射,得到所述段落样本中各Token属于答案所在句的概率。


5.根据权利要求1至3中任一项所述的方法,其中,在训练所述阅读理解模型的过程中,利用总损失函数的值更新所述第一分类子模型和第二分类子模型的模型参数;
所述总损失函数由第一损失函数和第二损失函数得到,所述第一损失函数由第一分类子模型的输出与所述答案标签之间的差异得到,所述第二损失函数由第二分类子模型的输出与所述答案标签之间的差异得到。


6.一种阅读理解方法,包括:
将问题和段落进行拼接后得到的拼接文本输入阅读理解模型,根据所述阅读理解模型的输出从所述段落中确定答案;
其中,所述阅读理解模型包括预训练子模型、第一分类子模型和第二分类子模型;
所述预训练子模型利用所述拼接文本,输出所述拼接文本中各元素Token的隐向量构成的隐向量序列;所述第一分类子模型利用所述隐向量序列,输出答案在所述段落中的位置区间信息;所述第二分类子模型利用所述隐向量序列,基于自注意力机制得到语义交互向量序列,并利用所述语义交互向量序列输出所述段落中答案所在句的信息。


7.根据权利要求6所述的方法,其中,所述输出所述答案在所述段落样本中的位置区间信息包括:将所述隐向量序列经过全连接网络的映射,得到所述段落中的各Token是答案边界位置的概率;
所述利用所述语义交互向量序列输出所述段落中答案所在句的信息包括:将所述语义交互向量序列进行全连接网络的映射,得到所述段落中各Token属于答案所在句的概率。


8.根据权利要求7所述的方法,其中,所述根据所述阅读理解模型的输出从所述段落中确定答案包括:
对各Token是答案边界位置的概率以及属于答案所在句的概率进行整合,得到各Token整合后的答案边界位置的概率;
依据各Token整合后的答案边界位置的概率,确定作为答案边界的Token;
将所述段落中作为答案边界的Token以及作为答案边界的Token之间的Token确定为所述问题的答案。


9.一种建立阅读理解模型的装置,包括:
样本获取单元,用于获取训练样本,每一个训练样本包括问题样本、段落样本以及对所述段落样本中标注的所述问题样本对应的答案标签;
模型训练单元,用于利用所述训练样本训练阅读理解模型,所述阅读理...

【专利技术属性】
技术研发人员:吕考考周媛媛杨茵淇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1