当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于迭代式筛选和预训练增强的机器阅读理解方法技术

技术编号:34009991 阅读:59 留言:0更新日期:2022-07-02 14:21
本发明专利技术公开了一种基于迭代式筛选和预训练增强的机器阅读理解方法,包括:构建迭代式筛选网络:用HotpotQA数据集的问题和文档对训练初始筛选网络;从包含干扰文档的原始数据中找出与当前最为相关的文档;迭代筛选过程,根据初始网络得到的文档以及原始的问题,从当前文档集中筛选出与初始筛选网络和文档最为相关的支撑文档,得到与问题相关的两步支撑文档。构建阅读器网络:用预训练模型对SQuAD数据就进行微调得到单步阅读理解模型;在多步阅读理解数据集上进行两次联合训练,得到关于问题和文档的答案和支撑事实。本发明专利技术无需构建复杂的图神经网络以及对多步问题进行分解,即可实现更好的多步机器阅读理解效果。现更好的多步机器阅读理解效果。现更好的多步机器阅读理解效果。

【技术实现步骤摘要】
一种基于迭代式筛选和预训练增强的机器阅读理解方法


[0001]本专利技术涉及一种机器阅读理解方法,特别是一种基于迭代式筛选和预训练增强的机器阅读理解方法。

技术介绍

[0002]近年来,基于大规模无监督数据集的预训练模型迅速发展,极大的提升了多项自然语言处理任务的效果,为自然语言处理的发展提供了充足的源动力。同时,随着互联网的极速发展,资讯以爆炸性的速度增长。百科类、新闻类、生活类、书籍类等电子资讯逐渐成为我们生活中不可缺少的一部分,我们从这些电子资讯中接触世界、认识世界以及了解世界。但是,由于信息的极速增长,快速高效地从繁杂的数据中获取我们想要的资讯变得愈加困难。查询的困难不仅会让我们花费大量的时间,而且可能因为一些错误信息的存在而让我们做出错误的判断。因此,使用自动化的机器阅读理解方法帮助我们自动地从权威性的百科类电子资讯中找到我们想要的问题答案就显得尤为重要。
[0003]现有的一些方法主要针对于单步阅读理解问题,即问题可以只依据单篇文档进行解答,但是这些方法难以对类似“曾经在南京大学执教的诺贝尔文学奖得主的主要文学作品”这样的需本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,包括以下步骤:步骤1,使用HotpotQA数据集训练相关文档模型,以是否为支撑文档作为标签并采用等比采样策略获取训练正负样本;步骤2,使用预训练模型微调分类网络并以问题和候选文档拼接的方式对文档相关性进行判别,得到单步相关文档筛选器;步骤3,使用HotpotQA数据集中未被单步相关文档筛选器标记的相关文档作为正样本,并采样得到样本均衡的正负样本;步骤4,训练一个新的预训练模型分类网络,以问题、单步相关文档和候选文档的方式对文档相关性进行判别,得到多步相关文档筛选器;步骤5,使用单步抽取式阅读理解数据集SQuAD作为增强数据进行阅读器训练,得到一个预训练增强的阅读器;步骤6,使用步骤2中得到的单步相关文档筛选器和步骤4中得到的多步相关文档筛选器从HotpotQA数据集中得到预测的候选文档,然后与问题拼接得到多步阅读理解训练样本;步骤7,使用步骤5中得到的阅读器在多步阅读理解训练样本上进行答案抽取和支撑句判别多任务学习,提升阅读器模型效率及效果。2.根据权利要求1所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤1包括:根据给定的数据集,将包含支撑句的文档标记为支撑文档,不包含支撑句的文档标记为无关文档;该数据集为两步推理问答任务,原始正负样本比例为4:1,该分布不利于模型的训练,即存在样本不平衡问题,将负样本随机丢弃3/4得到样本均衡的训练样本。3.根据权利要求2所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤2包括:步骤2

1,将问题文档进行向量表征,训练过程中,将问题文档的最大长度设置为512,然后将问题文档对输入基于生成判别网络训练的预训练模型ELECTRA

large中进行编码,得到问题文档编码维度为[12,512,1024]的向量表征,其中12为小批量训练批量处理大小,512为设置的训练数据最大长度,1024为单个词的表征维度;步骤2

2,使用[CLS]+question+[SEP]+document+[SEP]方式,其中[CLS]为句对表征的开始标识,question表示问题,[SEP]为问题和文档之间的分隔符或结束标识,document为文档内容;对输入的问题文档进行拼接,然后计算每个候选文档d和问题q的相关性P(d|q),训练过程损失函数计算过程如下:其中,q
i
为数据集中的第i个问题,d
ij
为第i个问题的第j个候选文档,l
ij
为问题文档对(q
i
,d
ij
)的标签,N为问题的数量,M为候选文档的数量;步骤2

3,对于给定问题,根据极大相关概率值得到单步相关文档p
i1
,计算过程为p
i1
=argmax
j
P(d
ij
|q
i
)。
4.根据权利要求3所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤3包括:将步骤2中得到的单步相关文档筛选器对单步相关问题进行筛选,从HotpotQA数集选择非单步相关文档的相关文档作为正样本,将正负样本采样到1:1得到训练多步相关文档所需的训练样本。5.根据权利要求4所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤4包括:步骤4

1,将问题以及步骤2得到的p
i1
和候选的文档进行拼接,按照[CLS]+question+[SEP]+document1+[SEP]+document2+[SEP]的顺序输入预训练模型中得到向量表征,其中其中[CLS]为句对表征的开始标识,question表示问题,[SEP]为问题和文档之间的分隔符或结束标识,document1和document2为文档内容;其中,document1为单步文档筛选器筛选出的文档,document2为候选文档;[CLS]和[SEP]均为特殊的连接词,在该过程中使用ELECTRA

large作为预训练模型,获取编码维度为[12,512,1024]的文档问题表征;步骤4

2,使用步骤4

1中经过预训练模型的[CLS]句对表征开始标识c作为问题和文档的整体表征,该表征维度为[12,1024],其中12为批处理大小,1024为向量表征维度;将表征c输入至一个线性映射层,映射到一个二元表征logit,该表征维度为[12,2],其中,2分别表示相关概率和不相关概率的概率值大小,通过归一化指数函数softmax使得任意维向量压缩到另一个同维向量中,且每个元素的范围都在0到1之间,并且总和为1的值;步骤4

3,在训练过程中根据候选文档是否相关计算损失函数L
s2
,计算方法如下:其中,N为问题数量,M为候选文档数量,I为指示函数,即判断当前文档与单步文档筛选结果是否相同,l
ij
为第i个问题,第j个候选文档的标签,d
ij
为第i个问题所对应的第j个候选文档,p
i1
为单步文档筛选结果,整个过程即为计算交叉熵损失;步骤4

4,对于给定问题,根据极大相关概率值得到单步相关文档p
i2
,计算过程为p
i2
=argmax
j
P(d
ij
|q
i
)。6.根据权利要求5所述的一种基于迭代式筛选和预训练增强的机器阅读理解方法,其特征在于,步骤5包括如下步骤:步骤5

1,在单步阅读理解数据集SQuAD的训练集中筛选出有答案的数据,得到单步阅读理解数据;同时将包含答案开始位置和结束位置的句子视为支撑句;步骤5

2,将问题文档按照[CLS]+yes+no+context+[SEP]+question+[SEP]的方式进行拼接,其中[...

【专利技术属性】
技术研发人员:杨育彬雷伟俊李昕宜
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1