问答对数据的生成方法及装置制造方法及图纸

技术编号:37138514 阅读:21 留言:0更新日期:2023-04-06 21:40
本发明专利技术提供一种问答对数据的生成方法及装置,涉及计算机技术领域。其中,该方法包括:对第一文本进行答案抽取,获取第一答案;基于第一答案和第一文本,生成第一问题以及包括第一答案和第一问题的候选问答对数据;将第一文本和第一问题输入训练好的过滤器模型,获取第二答案;基于第一答案和第二答案,处理候选问答对数据。本发明专利技术提供的问答对数据的生成方法及装置,通过抽取第一文本中的第一答案,根据第一答案和第一文本生成第一答案对应的第一问题,根据第一文本和第一问题生成第一问题对应的第二答案,通过同一第一问题对应的第二答案对该第一问题对应的第一答案的修正,能得到质量更高的问答对数据。质量更高的问答对数据。质量更高的问答对数据。

【技术实现步骤摘要】
问答对数据的生成方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种问答对数据的生成方法及装置。

技术介绍

[0002]问答对数据的生成主要包括三个下游任务:答案抽取任务、问题生成任务和自然语言理解任务。
[0003]答案抽取任务一般采用命名实体识别的方法,或者基于BERT(来自变换器的双向编码器表征量,Bidirectional Encoder Representations from Transformers)模型根据输入的文本,预测可能的答案在文本中的头、尾位置。
[0004]对于问题生成任务,针对中文文本常可以采用ERNIE(文心)等预训练模型并结合提示学习的方法;针对英文等文本常可以采用T5等大规模预训练语言模型。
[0005]自然语言理解任务可以分为很多子任务,问答对数据的生成中一般为在文本中根据问题找到相应的答案的位置。通常可以基于BERT, RoBERTa或XLNet等模型实现。
[0006]但现有问答对数据的生成方法生成的答案一般比较短和直接,不利于生成比较复杂以及更有价值的问题对。因此,现有问答对数据的生成方法存在生成的问答对数据的质量较差的不足。

技术实现思路

[0007]本专利技术提供一种问答对数据的生成方法及装置,用以解决现有技术中生成的问答对数据的质量较差的缺陷,实现生成更高质量的问答对数据。
[0008]本专利技术提供一种问答对数据的生成方法,包括:对第一文本进行答案抽取,获取第一答案;基于所述第一答案和所述第一文本,生成第一问题以及包括所述第一答案和所述第一问题的候选问答对数据;将所述第一文本和所述第一问题输入训练好的过滤器模型,获取第二答案;基于所述第一答案和所述第二答案,处理所述候选问答对数据。
[0009]根据本专利技术提供的一种问答对数据的生成方法,所述基于所述第一答案和所述第二答案,处理所述候选问答对数据,包括:在所述第一答案和所述第二答案的交集不为空集的情况下,将所述问答对数据中的所述第一答案,更新为所述第一答案和所述第二答案的并集。
[0010]根据本专利技术提供的一种问答对数据的生成方法,所述基于所述第一答案和所述第二答案,处理所述候选问答对数据,还包括:在所述第一答案和所述第二答案的交集为空集的情况下,丢弃所述候选问答对数据。
[0011]根据本专利技术提供的一种问答对数据的生成方法,所述对第一文本进行答案抽取,获取第一答案,包括:
将所述第一文本输入答案生成器模型,获取第三答案,并对所述第一文本进行命名实体识别,获取所述第一文本中的命名实体;基于所述第一文本中的命名实体处理所述第三答案,获取所述第一答案。
[0012]根据本专利技术提供的一种问答对数据的生成方法,所述基于所述第一文本中的命名实体处理所述第三答案,获取所述第一答案,包括:在所述第三答案中的任一命名实体不完整的情况下,基于第一文本中的命名实体补全所述第三答案中的命名实体;在补全后的所述第三答案中的第一词语与所述第一文本中的第二词语的词性不同的情况下,将补全后的所述第三答案确定为所述第一答案;其中,所述第一词语为补全后的所述第三答案中的最后一个词语;所述第二词语为所述第一文本中所述第一词语之后的第一个词语。
[0013]根据本专利技术提供的一种问答对数据的生成方法,所述在所述第三答案中的任一命名实体不完整的情况下,基于第一文本中的命名实体补全所述第三答案中的命名实体之后,还包括:在所述第一词语与所述第二词语的词性相同的情况下,将所述第二词语添加至补全后的所述第三答案中,得到所述第一答案。
[0014]根据本专利技术提供的一种问答对数据的生成方法,所述将所述第一文本和所述第一问题输入训练好的过滤器模型,获取第二答案之前,还包括:将样本文本数据分为N份样本数据;对第i份所述样本数据,执行以下处理:对所述样本数据进行答案抽取,获取第一样本答案;基于所述第一样本答案和第i份所述样本数据,生成第一样本问题以及包括所述第一样本答案和所述第一样本问题的样本问答对数据;将第i份所述样本数据和所述第一样本问题输入过滤器模型,获取第二样本答案;在所述第一样本答案和所述第二样本答案的交集不为空集的情况下,将所述样本问答对数据中的所述第一样本答案,更新为所述第一样本答案和所述第二样本答案的并集;基于第i份所述样本数据和更新后的所述样本问答对数据,更新所述过滤器模型;其中,N为正整数;i为正整数,1≤i≤N;更新后的所述过滤器模型,用于处理第(i+1)份所述样本数据。
[0015]本专利技术还提供一种问答对数据的生成装置,包括:抽取模块,用于对第一文本进行答案抽取,获取第一答案;生成模块,用于基于所述第一答案和所述第一文本,生成第一问题以及包括所述第一答案和所述第一问题的候选问答对数据;获取模块,用于将所述第一文本和所述第一问题输入训练好的过滤器模型,获取第二答案;处理模块,用于基于所述第一答案和所述第二答案,处理所述候选问答对数据。
[0016]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述问答对数据的
生成方法的步骤。
[0017]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述问答对数据的生成方法的步骤。
[0018]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述问答对数据的生成方法的步骤。
[0019]本专利技术提供的问答对数据的生成方法及装置,通过抽取第一文本中的第一答案,根据第一答案和第一文本生成第一答案对应的第一问题,根据第一文本和第一问题生成第一问题对应的第二答案,基于同一第一问题对应的第一答案和第二答案,获取问答对中该第一问题对应的最终答案,通过同一第一问题对应的第二答案对该第一问题对应的第一答案的修正,能得到质量更高的问答对数据。
附图说明
[0020]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术提供的问答对数据的生成方法的流程示意图;图2是本专利技术提供的问答对数据的生成方法中过滤器模型的训练过程示意图;图3是本专利技术提供的问答对数据的生成装置的结构示意图;图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0022]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]下面结合图1至图4描述本专利技术的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种问答对数据的生成方法,其特征在于,包括:对第一文本进行答案抽取,获取第一答案;基于所述第一答案和所述第一文本,生成第一问题以及包括所述第一答案和所述第一问题的候选问答对数据;将所述第一文本和所述第一问题输入训练好的过滤器模型,获取第二答案;基于所述第一答案和所述第二答案,处理所述候选问答对数据。2.根据权利要求1所述的问答对数据的生成方法,其特征在于,所述基于所述第一答案和所述第二答案,处理所述候选问答对数据,包括:在所述第一答案和所述第二答案的交集不为空集的情况下,将所述问答对数据中的所述第一答案,更新为所述第一答案和所述第二答案的并集。3.根据权利要求2所述的问答对数据的生成方法,其特征在于,所述基于所述第一答案和所述第二答案,处理所述候选问答对数据,还包括:在所述第一答案和所述第二答案的交集为空集的情况下,丢弃所述候选问答对数据。4.根据权利要求1所述的问答对数据的生成方法,其特征在于,所述对第一文本进行答案抽取,获取第一答案,包括:将所述第一文本输入答案生成器模型,获取第三答案,并对所述第一文本进行命名实体识别,获取所述第一文本中的命名实体;基于所述第一文本中的命名实体处理所述第三答案,获取所述第一答案。5.根据权利要求4所述的问答对数据的生成方法,其特征在于,所述基于所述第一文本中的命名实体处理所述第三答案,获取所述第一答案,包括:在所述第三答案中的任一命名实体不完整的情况下,基于第一文本中的命名实体补全所述第三答案中的命名实体;在补全后的所述第三答案中的第一词语与所述第一文本中的第二词语的词性不同的情况下,将补全后的所述第三答案确定为所述第一答案;其中,所述第一词语为补全后的所述第三答案中的最后一个词语;所述第二词语为所述第一文本中所述第一词语之后的第一个词语。6.根据权利要求5所述的问答对数据的生成方法,其特征在于,所述在所述第三答案中的任一命名实体不完整的情况下,基于第一文本中的命名实体补全...

【专利技术属性】
技术研发人员:曾国洋梁世豪朱昆仑
申请(专利权)人:北京面壁智能科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1