基于片段抽取的阅读理解方法、系统、电子设备和存储介质技术方案

技术编号:31831412 阅读:11 留言:0更新日期:2022-01-12 13:08
本申请涉及一种基于片段抽取的阅读理解方法、系统、电子设备和存储介质,其中,该方法包括:预测模型训练步骤,利用训练数据对预训练模型进行训练,并获得第一预测模型;预测模型微调步骤,利用微调训练数据对第一预测模型和线性层进行微调,更新参数并获得第二预测模型;答案获取步骤,将待预测问题和上下文文本拼接得到预测输入文本,并将其输入至第二预测模型,获得待预测问题对应的答案的开始位置概率、结束位置概率以及片段位置概率,获得至少一个答案片段文本。通过对预测模型微调步骤和答案获取步骤进行改进,增加片段位置概率,可以获得至少一个答案片段文本,可以同时使用单一答案和多答案的场景,增加了本方法的适用性。性。性。

【技术实现步骤摘要】
基于片段抽取的阅读理解方法、系统、电子设备和存储介质


[0001]本申请涉及计算机信息
,特别是涉及基于片段抽取的阅读理解方法、系统、电子设备和存储介质。

技术介绍

[0002]近年来,随着深度学习技术的飞速发展,机器阅读理解(Machine Reading Comprehension,MRC)任务成为自然语言处理领域的研究热点。机器阅读理解是指基于给定上下文文本,回答出某个特定问题的答案。机器阅读理解任务主要包括四种:完形填空、多项选择、片段抽取、自由作答。其中片段抽取是指给定上下文文本以及特定问题文本,从上下文文本中抽取一段连续的句子或者短语,作为特定问题的答案。该任务面临更大的搜索空间,具有较大的挑战性,因此片段抽取式的阅读理解也是信息抽取领域十分重要的技术。
[0003]目前片段抽取式的阅读理解的按照技术方法有以下三种:基于规则的阅读理解、基于交互式模型的阅读理解和基于预训练模型的阅读理解,但是现有技术中存在以下缺点:缺乏对特定领域的敏锐度,同时仅进行单一片段抽取的阅读理解,不适用于实际应用中的多答案的场景。
[0004]目前,针对现有技术不适用多答案场景的技术问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种基于片段抽取的阅读理解方法、系统、电子设备和存储介质,以至少解决相关技术中不适用多答案场景的问题。
[0006]第一方面,本申请实施例提供了一种基于片段抽取的阅读理解方法,包括:
[0007]预测模型训练步骤,利用训练数据对预训练模型进行训练,并获得第一预测模型;
[0008]预测模型微调步骤,利用微调训练数据对第一预测模型和线性层进行微调,更新参数并获得第二预测模型;
[0009]答案获取步骤,将待预测问题和上下文文本拼接得到预测输入文本,并将其输入至第二预测模型,获得待预测问题对应的答案的开始位置概率、结束位置概率以及片段位置概率,获得至少一个答案片段文本。
[0010]在其中一些实施例中,训练数据包括通用语料和二次训练数据,二次训练数据是设定领域的训练数据,预测模型训练步骤进一步包括:
[0011]模型一次训练步骤,利用通用语料训练预设网络结构并获取预训练模型;
[0012]模型二次训练步骤,利用二次训练数据训练预训练模型至模型损失值下降至一预设阈值,得到第一预测模型。
[0013]在其中一些实施例中,微调训练数据包括问题文本和上下文文本,微调训练数据上预先标注有开始位置标签、结束位置标签和片段位置标签,预测模型微调步骤进一步包括:
[0014]输入文本获取步骤,将问题文本和上下文文本拼接,获得训练输入文本;
[0015]字粒度语义表示向量获取步骤,将训练输入文本输入至第一预测模型,第一预测模型的编码层对训练输入文本进行编码,并输出训练输入文本的字粒度语义表示向量,字粒度语义表示向量的维度为[L,H],其中,L对应于训练输入文本的长度,H对应于第一预测模型的隐层尺寸;
[0016]起始位置概率获取步骤,将字粒度语义表示向量分别输入至开始线性层和结束线性层,得到开始位置概率和结束位置概率;
[0017]片段位置概率获取步骤,对字粒度语义表示向量进行维度拓展,获得第一拓展向量和第二拓展向量,并将其输入至片段线性层,输出片段位置概率;
[0018]模型损失获取步骤,根据标注的开始位置标签、结束位置标签、片段位置标签和开始位置概率、结束位置概率、片段位置概率,利用交叉熵损失函数分别计算开始位置损失、结束位置损失和片段位置损失,并据此计算总损失;
[0019]模型微调训练步骤,使用标注后的训练输入文本对第一预测模型进行训练,调整编码层、开始线性层、结束线性层和片段线性层的参数至总损失满足预设条件,并获取第二预测模型。
[0020]在其中一些实施例中,所片段位置概率获取步骤还包括:
[0021]字粒度语义表示向量分别在不同方向上增加一个维度并将其大小设置为1,获得第一张量和第二张量;
[0022]分别对第一张量和第二张量在增加维度上进行复制,将其转为第一拓展向量和第二拓展向量;
[0023]将第一拓展向量和第二拓展向量进行处理,获得输入张量并将其输入至片段线性层,获取片段位置概率。
[0024]在其中一些实施例中,获得至少一个答案片段文本包括:
[0025]根据获取的开始位置概率和结束位置概率得到多个片段文本,并根据片段位置概率利用公式进行筛选,获取至少一个答案片段文本,公式具体为:
[0026][0027]其中,p
start
[i]、p
end
[j]、p
span
[i,j]分别为开始位置概率、结束位置概率和片段位置概率,i为候选开始位置,j为候选结束位置,q为所述问题文本长度,c为所述上下文文本长度。
[0028]第二方面,本申请实施例提供了一种基于片段抽取的阅读理解系统,包括:
[0029]预测模型训练模块,利用训练数据对预训练模型进行训练,并获得第一预测模型;
[0030]预测模型微调模块,利用微调训练数据对所述第一预测模型和线性层进行微调,更新参数并获得第二预测模型;
[0031]位置预测模块,将待预测问题和上下文文本拼接得到预测输入文本,并将其输入至第二预测模型,获得待预测问题对应的答案的开始位置概率、结束位置概率以及片段位
置概率,获得至少一个答案片段文本。
[0032]在其中一些实施例中,训练数据包括通用语料和二次训练数据,二次训练数据是设定领域的训练数据,预测模型训练模型进一步包括:
[0033]模型一次训练单元,利用通用语料训练预设网络结构并获取预训练模型;
[0034]模型二次训练单元,利用二次训练数据训练预训练模型至模型损失值下降至一预设阈值,得到第一预测模型。
[0035]在其中一些实施例中,微调训练数据包括问题文本和上下文文本,微调训练数据上预先标注有开始位置标签、结束位置标签和片段位置标签,预测模型微调模块进一步包括:
[0036]输入文本获取单元,将问题文本和上下文文本拼接,获得训练输入文本;
[0037]字粒度语义表示向量获取单元,将训练输入文本输入至第一预测模型,第一预测模型的编码层对训练输入文本进行编码,并输出训练输入文本的字粒度语义表示向量,所述字粒度语义表示向量的维度为[L,H],其中,所述L对应于所述训练输入文本的长度,所述H对应于所述第一预测模型的隐层尺寸;
[0038]起始位置概率获取单元,将字粒度语义表示向量分别输入至开始线性层和结束线性层,得到开始位置概率和结束位置概率;
[0039]片段位置概率获取单元,对字粒度语义表示向量进行维度拓展,获得第一拓展向量和第二拓展向量,并将其输入至片段线性层,输出片段位置概率;
[0040]模型损失获取单元,根据标注的开始位置标签、结束位置标签、片段位置标签和开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于片段抽取的阅读理解方法,其特征在于,包括:预测模型训练步骤,利用训练数据对预训练模型进行训练,并获得第一预测模型;预测模型微调步骤,利用微调训练数据对所述第一预测模型和线性层进行微调,更新参数并获得第二预测模型;答案获取步骤,将待预测问题和上下文文本拼接得到预测输入文本,并将其输入至所述第二预测模型,获得所述待预测问题对应的答案的开始位置概率、结束位置概率以及片段位置概率,获得至少一个答案片段文本。2.根据权利要求1所述的基于片段抽取的阅读理解方法,其特征在于,所述训练数据包括通用语料和二次训练数据,所述二次训练数据是设定领域的训练数据,所述预测模型训练步骤进一步包括:模型一次训练步骤,利用通用语料训练预设网络结构并获取预训练模型;模型二次训练步骤,利用所述二次训练数据训练所述预训练模型至模型损失值下降至一预设阈值,得到第一预测模型。3.根据权利要求1或2所述的基于片段抽取的阅读理解方法,其特征在于,所述微调训练数据包括问题文本和上下文文本,所述微调训练数据上预先标注有开始位置标签、结束位置标签和片段位置标签,所述预测模型微调步骤进一步包括:输入文本获取步骤,将所述问题文本和所述上下文文本拼接,获得训练输入文本;字粒度语义表示向量获取步骤,将所述训练输入文本输入至所述第一预测模型,所述第一预测模型的所述编码层对所述训练输入文本进行编码,并输出所述训练输入文本的字粒度语义表示向量,所述字粒度语义表示向量的维度为[L,H],其中,所述L对应于所述训练输入文本的长度,所述H对应于所述第一预测模型的隐层尺寸;起始位置概率获取步骤,将所述字粒度语义表示向量分别输入至开始线性层和结束线性层,得到开始位置概率和结束位置概率;片段位置概率获取步骤,对所述字粒度语义表示向量进行维度拓展,获得第一拓展向量和第二拓展向量,并将其输入至片段线性层,输出片段位置概率;模型损失获取步骤,根据预先标注的所述开始位置标签、所述结束位置标签、所述片段位置标签和开始位置概率、结束位置概率、片段位置概率,利用交叉熵损失函数分别计算开始位置损失、结束位置损失和片段位置损失,并据此计算总损失;模型微调训练步骤,使用标注后的所述训练输入文本对所述第一预测模型进行训练,调整所述编码层、所述开始线性层、所述结束线性层和所述片段线性层的参数至所述总损失满足预设条件,并获取第二预测模型。4.根据权利要求3所述的基于片段抽取的阅读理解方法,其特征在于,所片段位置概率获取步骤还包括:所述字粒度语义表示向量分别在不同方向上增加一个维度并将其大小设置为1,获得第一张量和第二张量;分别对所述第一张量和所述第二张量在增加维度上进行复制,将其转为第一拓展向量和第二拓展向量;将所述第一拓展向量和所述第二拓展向量进行处理,获得输入张量并将其输入至所述片段线性层,获取片段位置概率。
5.根据权利要求1所述的基于片段抽取的阅读理解方法,其特征在于,所述获得至少一个答案片段文本包括:根据获取的所述开始位置概率和所述结束位置概率得到多个片段文本,并根据所述片段位置概率利用公式进行筛选,获取至少一个所述答案片段文本,所述公式具体为:其中...

【专利技术属性】
技术研发人员:王博薛小娜
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1