一种动态增强上下文的多跳阅读理解处理方法技术

技术编号:36801229 阅读:34 留言:0更新日期:2023-03-08 23:46
本发明专利技术公开了一种处理低数据量的多跳阅读理解任务的方法。方法先基于外部数据采用自训练数据增强模块进行自训练增强学习扩展数据集,然后使用扩展后的数据集在训练阶段经过动态增强模型进行训练获得训练后的动态增强模型,最后在推理阶段用训练后的动态增强模型对待测的题目文本进行处理获得预测的答案。本方法还在训练阶段使用自训练增强的方法对外部数据进行伪标注,作为辅助数据集来提升模型的性能,从而极大地提升了少数据量文本阅读理解任务的精度。解任务的精度。解任务的精度。

【技术实现步骤摘要】
一种动态增强上下文的多跳阅读理解处理方法


[0001]本专利技术涉及神经网络、深度学习、自然语言处理、数据增强领域的一种计算机文本数据处理方法,特别是涉及基于神经网络的一种低数据量的动态增强上下文的题目文本多跳阅读理解处理方法。

技术介绍

[0002]机器阅读理解任务要求机器通过给定的上下文回答问题,可用于搜索引擎、智能助手等领域,可以为用户提供优质的咨询服务。
[0003]随着大型预训练语言模型的发展,一些阅读理解模型在单跳机器阅读理解数据集上表现出显著的性能提升,但是这些模型缺乏跨多个句子推理的能力,最近提出的多跳阅读理解数据集,比如HotpotQA,要求模型能够跨多个分离的句子进行推理,由此产生许多处理多跳阅读理解的模型,多跳阅读理解常常需要模型给出支撑最终答案的支撑句,一些模型采用图神经网络的方法来产生支撑句,但是图的构建过程非常复杂,而且需要很多先验知识,并不是最有效的解决方法。

技术实现思路

[0004]为了解决
技术介绍
中存在的问题,本专利技术的目的在于针对低数据量多跳阅读理解任务方面的空白,提供了一种低数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种动态增强上下文的多跳阅读理解处理方法,其特征在于:方法先基于外部数据采用自训练数据增强模块进行自训练增强学习扩展数据集,然后使用扩展后的数据集在训练阶段经过动态增强模型进行训练获得训练后的动态增强模型,最后在推理阶段用训练后的动态增强模型对待测的题目文本进行处理获得预测的答案。2.根据权利要求1所述的一种动态增强上下文的多跳阅读理解处理方法,其特征在于:所述的自训练数据增强模块,使用外部数据,通过自训练强化方法训练教师模型,用教师模型对未标记数据打上伪标签并以此联合训练学生模型,并不断迭代,最终获得扩展后的数据集。3.根据权利要求2所述的一种动态增强上下文的多跳阅读理解处理方法,其特征在于:所述的自训练数据增强模块中具体步骤包括:(1)先使用带标签的外部数据训练n个教师模型,然后用训练后的n个教师模型联合生成一个基于带标签的外部数据的伪标签数据集;(2)使用事先已知题目和对应答案的标签数据集和伪标签数据集共同训练n个学生模型,然后将训练后的n个学生模型作为新的n个教师模型;(2)再用训练后的n个教师模型再联合生成一个的伪标签数据集;(3)不断重复上述步骤(2)~(3),直到达到预设的迭代次数,以最终获得的伪标签数据集补充到事先已知题目和对应答案的标签数据集上形成扩展后的数据集。4.根据权利要求2所述的一种动态增强上下文的多跳阅读理解处理方法,其特征在于:所述的自训练数据增强模块中,教师模型不添加噪声,而学生模型添加dropout作为噪声。5.根据权利要求1所述的一种动态增强上下文的多跳阅读理解处理方法,其特征在于:所述的动态增强模型包括了依次进行的句子过滤模型、重编码模块和答案预测模型的三个部分;题目文本先经句子过滤模型处理选择获得k个句子,将k个句子输入到重编码模块进行一致性编码处理后再输入到答案预测模型中进行推理获得对应的答案。6.根据权利要求5所述的一种动态增强上下文的多跳阅读理解处理方法,其特征在于:所述的句子过滤模型具体步骤如下:对题目文本中的每个句子,将题目的问题和每个句子之间通过基于注意力机制的双向编码表示模型进行处理获得每对问题/句子对的特征向量CLS,将所有问题/句子对的特征向量CLS拼接在一起生成问题/句子对序列;将问题/句子对序列采用随机丢弃层、sigmoid函数得到每个句子和答案相关性的概率分布,根据概率分布使用二元交叉...

【专利技术属性】
技术研发人员:何强徐洋超陈天恒章立宗高宇男柯杨万建军周冬成钱志杰方珺
申请(专利权)人:国网浙江省电力有限公司绍兴供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1