【技术实现步骤摘要】
问答对数据的生成方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种问答对数据的生成方法及装置。
技术介绍
[0002]问答对数据的生成主要包括三个下游任务:答案抽取任务、问题生成任务和自然语言理解任务。
[0003]答案抽取任务一般采用命名实体识别的方法,或者基于BERT(来自变换器的双向编码器表征量,Bidirectional Encoder Representations from Transformers)模型根据输入的文本,预测可能的答案在文本中的头、尾位置。
[0004]对于问题生成任务,针对中文文本常可以采用ERNIE(文心)等预训练模型并结合提示学习的方法;针对英文等文本常可以采用T5等大规模预训练语言模型。
[0005]自然语言理解任务可以分为很多子任务,问答对数据的生成中一般为在文本中根据问题找到相应的答案的位置。通常可以基于BERT, RoBERTa或XLNet等模型实现。
[0006]但现有问答对数据的生成方法生成的答案一般比较短和直接,不利于生成比较复杂 ...
【技术保护点】
【技术特征摘要】
1.一种问答对数据的生成方法,其特征在于,包括:对第一文本进行答案抽取,获取第一答案;基于所述第一答案和所述第一文本,生成第一问题以及包括所述第一答案和所述第一问题的候选问答对数据;将所述第一文本和所述第一问题输入训练好的过滤器模型,获取第二答案;基于所述第一答案和所述第二答案,处理所述候选问答对数据。2.根据权利要求1所述的问答对数据的生成方法,其特征在于,所述基于所述第一答案和所述第二答案,处理所述候选问答对数据,包括:在所述第一答案和所述第二答案的交集不为空集的情况下,将所述问答对数据中的所述第一答案,更新为所述第一答案和所述第二答案的并集。3.根据权利要求2所述的问答对数据的生成方法,其特征在于,所述基于所述第一答案和所述第二答案,处理所述候选问答对数据,还包括:在所述第一答案和所述第二答案的交集为空集的情况下,丢弃所述候选问答对数据。4.根据权利要求1所述的问答对数据的生成方法,其特征在于,所述对第一文本进行答案抽取,获取第一答案,包括:将所述第一文本输入答案生成器模型,获取第三答案,并对所述第一文本进行命名实体识别,获取所述第一文本中的命名实体;基于所述第一文本中的命名实体处理所述第三答案,获取所述第一答案。5.根据权利要求4所述的问答对数据的生成方法,其特征在于,所述基于所述第一文本中的命名实体处理所述第三答案,获取所述第一答案,包括:在所述第三答案中的任一命名实体不完整的情况下,基于第一文本中的命名实体补全所述第三答案中的命名实体;在补全后的所述第三答案中的第一词语与所述第一文本中的第二词语的词性不同的情况下,将补全后的所述第三答案确定为所述第一答案;其中,所述第一词语为补全后的所述第三答案中的最后一个词语;所述第二词语为所述第一文本中所述第一词语之后的第一个词语。6.根据权利要求5所述的问答对数据的生成方法,其特征在于,所述在所述第三答案中的任一命名实体不完整的情况下,基于第一文本中的命名实体补全...
【专利技术属性】
技术研发人员:曾国洋,梁世豪,朱昆仑,
申请(专利权)人:北京面壁智能科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。