一种答案抽取模型的训练方法及装置制造方法及图纸

技术编号:32430104 阅读:16 留言:0更新日期:2022-02-24 18:40
本申请提供一种答案抽取模型的训练方法及装置,其中所述答案抽取模型的训练方法包括:从原始语料中确定样本文本,并在预先构建的问题集中筛选与所述样本文本相关联的至少一个待查询问题以及对应的答案标签;将任意一个所述待查询问题与所述样本文本输入预训练的答案抽取模型,确定所述待查询问题的答案抽取结果;基于所述答案抽取结果以及所述答案标签生成所述答案抽取模型的目标损失值,并基于所述目标损失值对所述答案抽取模型进行优化,获得目标答案抽取模型。获得目标答案抽取模型。获得目标答案抽取模型。

【技术实现步骤摘要】
一种答案抽取模型的训练方法及装置


[0001]本申请涉及计算机
,特别涉及一种答案抽取模型的训练方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取的概念。信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信息;而机器阅读理解是致力于教会机器阅读人类的语言并理解其内涵的研究,机器阅读理解任务更注重于对于篇章文本的理解,机器必须自己从篇章中学习到相关信息,而不是利用预设好的世界知识、常识来回答问题。
[0003]目前,训练机器去阅读理解人类语言的方法,重要的一种实现方式就是通过建立机器阅读理解模型,进一步通过对建立的机器阅读理解模型进行训练来获得想要的机器阅读理解模型,从而在训练获得的机器阅读理解模型的基础上在文本片段中找出问题的答案。但目前的机器阅读理解模型训练过程中,针对中文答案抽取任务,无法生成与某些论元类型匹配的查询问题;另外,模型训练过程中考虑的损失不够充分,无法充分反映预测答案的损失,训练获得的模型泛化性能低,生成的预测答案准确率较低。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种答案抽取模型的训练方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本申请实施例的第一方面,提供了一种答案抽取模型的训练方法,包括:
[0006]从原始语料中确定样本文本,并在预先构建的问题集中筛选与所述样本文本相关联的至少一个待查询问题以及对应的答案标签;
[0007]将任意一个所述待查询问题与所述样本文本输入预训练的答案抽取模型,确定所述待查询问题的答案抽取结果;
[0008]基于所述答案抽取结果以及所述答案标签生成所述答案抽取模型的目标损失值,并基于所述目标损失值对所述答案抽取模型进行优化,获得目标答案抽取模型。
[0009]可选的,所述问题集通过以下方式进行构建:
[0010]从所述原始语料中提取文本的事件类型标签以及答案类型标签;
[0011]将所述事件类型标签与所述答案类型标签进行整合,生成问题标签;
[0012]根据所述问题标签中包含的答案类型标签所属类别生成与所述问题标签匹配的查询问题,并基于所述查询问题构建问题集。
[0013]可选的,所述根据所述问题标签中包含的答案类型标签所属类别生成与所述问题标签匹配的查询问题,包括:
[0014]若所述问题标签中包含的答案类型标签为第一类别,则获取预定义的问题模板,
并基于所述问题标签和所述问题模板构建与所述问题标签匹配的查询问题;
[0015]若所述问题标签中包含的答案类型标签为第二类别,则对所述原始语料中与所述第二类别的答案类型标签相关的事件句进行统计分析,根据分析结果构建与所述问题标签匹配的查询问题。
[0016]可选的,所述将任意一个所述待查询问题与所述样本文本输入预训练的答案抽取模型,确定所述待查询问题的答案抽取结果,包括:
[0017]将任意一个所述待查询问题与所述样本文本作为输入集输入所述答案抽取模型,所述答案抽取模型的向量编码模块对所述输入集中每个词单元对应的字向量、文本向量以及位置向量加和,生成所述每个词单元对应的编码向量;
[0018]基于所述编码向量计算所述每个词单元作为所述待查询问题对应的预测答案的起始位置以及结束位置的概率分布;
[0019]根据所述起始位置以及结束位置的概率分布,确定所述待查询问题对应的答案抽取结果。
[0020]可选的,所述根据所述起始位置以及结束位置的概率分布,确定所述待查询问题对应的答案抽取结果,包括:
[0021]将所述起始位置的概率分布中概率最大的词单元在所述样本文本中的位置作为所述答案的起始位置;
[0022]将所述结束位置的概率分布中概率最大的词单元在所述样本文本中的位置作为所述答案的结束位置;以及,
[0023]将所述起始位置以及结束位置之间的词单元作为所述答案抽取结果。
[0024]可选的,所述基于所述答案抽取结果以及所述答案标签生成所述答案抽取模型的目标损失值,包括:
[0025]基于所述起始位置的概率分布以及所述答案标签中目标起始位置的概率确定所述答案抽取结果在所述样本文本中起始位置的起始位置损失;
[0026]基于所述结束位置的概率分布以及所述答案标签中目标结束位置的概率确定所述答案抽取结果在所述样本文本中结束位置的结束位置损失;
[0027]基于所述起始位置以及所述结束位置确定所述答案抽取结果的长度损失;
[0028]基于所述起始位置损失、所述结束位置损失和所述长度损失,计算所述目标损失值。
[0029]可选的,所述基于所述起始位置损失、所述结束位置损失和所述长度损失,计算所述目标损失值,包括:
[0030]计算所述起始位置损失、所述结尾位置损失和所述长度损失三者的加权和,作为所述目标损失值。
[0031]可选的,所述向量编码模块包括嵌入层和n个堆栈层;
[0032]相应的,所述生成所述每个词单元对应的编码向量,包括:
[0033]S11、将所述待查询问题与所述样本文本作为输入集输入至所述嵌入层,得到对应的输入向量;
[0034]S12、将所述输入向量输入至第1个堆栈层,得到第1个堆栈层的输出向量;
[0035]S13、将第i个堆栈层的输出向量输入至第i+1个堆栈层,得到第i+1个堆栈层的输
出向量,其中,i∈[1,n],且i从1开始取值;
[0036]S14、判断i是否等于n-1,若是,执行步骤S15,若否,执行步骤S13;
[0037]S15、将第n个堆栈层的输出向量作为所述输入集中每个词单元的编码向量输出。
[0038]根据本申请实施例的第二方面,提供了一种答案抽取模型的训练装置,包括:
[0039]筛选模块,被配置为从原始语料中确定样本文本,并在预先构建的问题集中筛选与所述样本文本相关联的至少一个待查询问题以及对应的答案标签;
[0040]确定模块,被配置为将任意一个所述待查询问题与所述样本文本输入预训练的答案抽取模型,确定所述待查询问题的答案抽取结果;
[0041]计算模块,被配置为基于所述答案抽取结果以及所述答案标签生成所述答案抽取模型的目标损失值,并基于所述目标损失值对所述答案抽取模型进行优化,获得目标答案抽取模型。
[0042]根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述答案抽取模型的训练方法的步骤。
[0043]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述答案抽取模型的训练方法的步骤。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种答案抽取模型的训练方法,其特征在于,包括:从原始语料中确定样本文本,并在预先构建的问题集中筛选与所述样本文本相关联的至少一个待查询问题以及对应的答案标签;将任意一个所述待查询问题与所述样本文本输入预训练的答案抽取模型,确定所述待查询问题的答案抽取结果;基于所述答案抽取结果以及所述答案标签生成所述答案抽取模型的目标损失值,并基于所述目标损失值对所述答案抽取模型进行优化,获得目标答案抽取模型。2.如权利要求1所述的答案抽取模型的训练方法,其特征在于,所述问题集通过以下方式进行构建:从所述原始语料中提取文本的事件类型标签以及答案类型标签;将所述事件类型标签与所述答案类型标签进行整合,生成问题标签;根据所述问题标签中包含的答案类型标签所属类别生成与所述问题标签匹配的查询问题,并基于所述查询问题构建问题集。3.如权利要求2所述的答案抽取模型的训练方法,其特征在于,所述根据所述问题标签中包含的答案类型标签所属类别生成与所述问题标签匹配的查询问题,包括:若所述问题标签中包含的答案类型标签为第一类别,则获取预定义的问题模板,并基于所述问题标签和所述问题模板构建与所述问题标签匹配的查询问题;若所述问题标签中包含的答案类型标签为第二类别,则对所述原始语料中与所述第二类别的答案类型标签相关的事件句进行统计分析,根据分析结果构建与所述问题标签匹配的查询问题。4.如权利要求1所述的答案抽取模型的训练方法,其特征在于,所述将任意一个所述待查询问题与所述样本文本输入预训练的答案抽取模型,确定所述待查询问题的答案抽取结果,包括:将任意一个所述待查询问题与所述样本文本作为输入集输入所述答案抽取模型,所述答案抽取模型的向量编码模块对所述输入集中每个词单元对应的字向量、文本向量以及位置向量加和,生成所述每个词单元对应的编码向量;基于所述编码向量计算所述每个词单元作为所述待查询问题对应的预测答案的起始位置以及结束位置的概率分布;根据所述起始位置以及结束位置的概率分布,确定所述待查询问题对应的答案抽取结果。5.如权利要求4所述的答案抽取模型的训练方法,其特征在于,所述根据所述起始位置以及结束位置的概率分布,确定所述待查询问题对应的答案抽取结果,包括:将所述起始位置的概率分布中概率最大的词单元在所述样本文本中的位置作为所述答案的起始位置;将所述结束位置的概率分布中概率最大的词单元在所述样本文本中的位置作为所述答案的结束位置;以及,将所述起始位置以及结束位置之间的词单元作为所述答案抽取结果。6....

【专利技术属性】
技术研发人员:孙雪李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1