一种基于大规模问题自学习的无监督机器阅读理解方法技术

技术编号:31583839 阅读:22 留言:0更新日期:2021-12-25 11:28
本发明专利技术公开了一种基于大规模问题自学习的无监督机器阅读理解方法,首先将数据分为四种类型:然后按以下步骤进行:S1、对未标注的通用数据使用标准预训练模型进行训练得到预训练语言模型;S2、对已标注的通用数据使用预训练语言模型进行训练得到问题生成器,并生成特定任务通用领域模型;S3、对未标注的域内数据使用问题生成器生成合成的域内数据,然后使用特定任务通用领域模型进行过滤,再对过滤得到的高质量的合成的域内数据集进行训练得到新预训练模型;S4、对已标注的域内数据通过过滤得到的低质量的合成数据集进行混合并标记答案,然后使用新预训练模型进行训练得到最终模型;基于最终模型,输入数据得到机器阅读理解的结果。的结果。的结果。

【技术实现步骤摘要】
一种基于大规模问题自学习的无监督机器阅读理解方法


[0001]本专利技术涉及机器阅读理解领域,尤其是涉及一种基于大规模问题自学习的无监督机器阅读理解方法。

技术介绍

[0002]许多用于自然语言处理(NLP)任务的最新算法都需要人工标注的数据。在早期我们通常没有任何特定于域的标记数据集,并且对足够数量的此类数据进行注释通常是昂贵且费力的。因此,对于许多NLP应用程序,即使是资源丰富的语言(如英语)也仅在少数几个域中标记了数据。
[0003]在许多NLP应用程序中,获取大量带标签的数据非常困难。因此,在许多情况下,我们会从少量数据中训练模型。但是,训练后的模型通常过拟合,需要将其推广到看不见的数据。因此,研究人员通过预训练语言模型来利用大量未标记的数据集,这通常可以缓解网络权重用于随机初始化的问题,从而找到更好的局部最优值并提高代理在不可见环境中的健壮性。
[0004]最近机器阅读理解(MRC)的重大进步通过在大量未标记文本数据上对Transformer语言模型进行预训练,并在手动标注的QA数据集上对预训练的模型进行了微调来实现。在预训练语言模型的上下文中,Gururangan显示了使用域内数据进行额外预训练对改善下游特定任务性能的重要性。

技术实现思路

[0005]本专利技术主要是提供一种基于大规模问题自学习的无监督机器阅读理解方法,从而可以在一个全新的领域实现冷启动。
[0006]本专利技术针对上述技术问题主要是通过下述技术方案得以解决的:首先将数据分为四种类型:未标注的通用数据,已标注的通用数据,未标注的域内数据,已标注的域内数据,然后按以下步骤进行:
[0007]S1、针对未标注的通用数据,使用标准预训练模型进行训练,得到基于Transformer的预训练语言模型作为架构的最底层;
[0008]S2、针对已标注的通用数据,使用步骤S1得到的预训练语言模型进行训练得到问题生成器,同时使用已标注的通用数据来生成特定任务通用领域模型;
[0009]S3、针对未标注的域内数据,使用步骤S2中构建的问题生成器生成合成的域内数据,然后使用特定任务通用领域模型进行过滤,过滤后得到高质量的合成的域内数据集和低质量的合成数据集,再对高质量的合成的域内数据集进行训练得到新预训练模型;
[0010]S4、针对已标注的域内数据,通过过滤得到的低质量的合成数据集进行混合并标记答案,然后使用新预训练模型进行训练得到最终机器阅读理解模型;
[0011]基于最终机器阅读理解模型,输入数据得到机器阅读理解的结果。
[0012]作为优选,步骤S1中,采用GPT

2模型或者T5模型来进行模型学习。
[0013]作为优选,基于训练后T5模型进行问题生成具体为:提取答案;依据提取的答案生成问题;接受该问题并产生一个答案;对提取的答案和产生的答案进行比较,判断生成的问题是否正确;
[0014]基于训练后的GPT

2模型进行问题生成具体为:给定语言的自然顺序,将序列s=(s1,

,s
n
)的联合概率分解为条件式的乘积:
[0015][0016]在GPT

2模型训练完成后,对每一个新的单词,模型计算出根据现有所有字符为依据,下一个词的概率;然后根据概率,选出前K位的高概率词,在这K个候选词中进行随机采样;这个过程不断重复,直到特殊符号或者句子结束符号出现;
[0017]针对问题生成这个场景,用特别的符号标注源文中潜在答案的位置,对于一个段落C=[c1,...c
n
]和其中的一个潜在答案A=[a1,..,a
n
],会被表示为:
[0018]X=([CLS],C,[SEP],A)
[0019]给定上述X,我们将其输入训练后的GPT

2模型或者训练后的T5中后得到隐向量:
[0020]H=Model(x)
[0021][0022]X是输入长度,h是隐向量的大小;最后H会再输入一层全链接网络得到最终结果:
[0023][0024][0025]式中,w是一个单词,W是一个矩阵,b是系数,最终得到的是argmax输出的最佳单词。W和b均通过学习得到。
[0026]作为优选,步骤S3中,对具有往返一致性的生成数据进行主动学习,从而根据现有模型在不同纬度上的优缺点,主动筛选出训练数据分布中的薄弱环节,建议应标记的下一批数据。
[0027]作为优选,步骤S3中,通过往返一致性进行数据过滤,通过主动学习提高学习效率。
[0028]本专利技术带来的实质性效果是,适用于没有任何标记和非常小的标记数据的情况,显著提高了模型的准确度。
附图说明
[0029]图1是本专利技术的一种流程图。
具体实施方式
[0030]下面通过实施例,并结合附图,对本专利技术的技术方案作进一步具体的说明。
[0031]实施例:我们使用多种预训练语言模型(例如GPT

2和T5)从域内文本的未标记段
落生成大量的潜在问题和答案数据,有这种方法让我们可以在一个全新的领域实现冷启动。然后我们根据这些生成的样本对模型进行预训练,最后对特定的标记数据集进行微调。
[0032]尽管在SQuAD1.1训练数据集上进行了特定领域训练的模型在SQuAD1.1 Dev数据集上达到了最先进的性能(EM分数为85%),但完全无法在全新的领域进行同样水准的推理,即NewQA(EM得分为32%)。我们发现,在使用合成数据集对模型进行预训练时,防止合成数据集过拟合至关重要,因为它通常包含很多嘈杂的样本。但是,当早期没有或只有很少的域内训练数据时,这些合成数据集非常有用,因为我们可以通过这种方法在一个全新领域自动生成“机器”标注的训练数据。
[0033]通过这种方法,无需任何标记数据的情况下,获得80%的最终性能。而且,当我们注入少量带标签的数据(原始数据的10%)时,由预训练的模型可以快速达到相当于94%的最终性能水平。最后我们通过用来严格测试NLP模型的NLP Checklist测试框架来评估Data Dream。我们的方法在NLP Checklist中通用语言能力测试项目中(如同义词,问题拼写,时间变化等)将错误减少了18%。
[0034]问题生成是一个有悠久历史的研究课题,使用生成的问答对来改善质量保证体系,显示了在仅仅具有少样本数量的情况下,在低资源环境下的巨大改进。然而,验证和提高这些生成的QA对的准确性还相对缺乏探索。
[0035]在机器翻译中,在两个翻译方向上通过双重学习或回译进行建模一致性可以提高翻译模型的质量。反向翻译将合成生成的并行数据添加为训练示例,这是这项工作的灵感,并在有监督的和无监督的设定下中都得到了最优秀的性能。可以在给定上下文的情况下对问题和答案的联合分布进行建模,并直接使用此模型,而我们的工作使用生成模型来生成用于预训练的综合数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大规模问题自学习的无监督机器阅读理解方法,其特征在于,首先将数据分为四种类型:未标注的通用数据,已标注的通用数据,未标注的域内数据,已标注的域内数据,然后按以下步骤进行:S1、针对未标注的通用数据,使用标准预训练模型进行训练,得到基于Transformer的预训练语言模型作为架构的最底层;S2、针对已标注的通用数据,使用步骤S1得到的预训练语言模型进行训练得到问题生成器,同时使用已标注的通用数据来生成特定任务通用领域模型;S3、针对未标注的域内数据,使用步骤S2中构建的问题生成器生成合成的域内数据,然后使用特定任务通用领域模型进行过滤,过滤后得到高质量的合成的域内数据集和低质量的合成数据集,再对高质量的合成的域内数据集进行训练得到新预训练模型;S4、针对已标注的域内数据,通过过滤得到的低质量的合成数据集进行混合并标记答案,然后使用新预训练模型进行训练得到最终机器阅读理解模型;基于最终机器阅读理解模型,输入数据得到机器阅读理解的结果。2.根据权利要求1所述的一种基于大规模问题自学习的无监督机器阅读理解方法,其特征在于,步骤S1中,标准预训练模型为GPT

2模型或者T5模型。3.根据权利要求2所述的一种基于大规模问题自学习的无监督机器阅读理解方法,其特征在于,基于训练后T5模型进行问题生成具体为:提取答案;依据提取的答案生成问题;接受该问题并产生一个答案;对提取的答案和产生的答案进行比较,判断生成的问题是否正确;基于训练后的GPT

2模型进行问题生成具体为:给定语言的自然顺序,...

【专利技术属性】
技术研发人员:赵天成
申请(专利权)人:宏龙科技杭州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1