一种基于预训练模型的阅读理解去偏方法技术

技术编号:36119943 阅读:15 留言:0更新日期:2022-12-28 14:25
本发明专利技术提供一种基于预训练模型的阅读理解去偏方法,包括:以预训练模型BERT嵌入层为基础构建文本表示层,设定模型输入为文章

【技术实现步骤摘要】
一种基于预训练模型的阅读理解去偏方法


[0001]本专利技术属于自然语言处理中的机器阅读理解领域,具体涉及一种基于预训练模型的阅读理解去偏方法。

技术介绍

[0002]近年来,深度学习技术的发展不断推动着自然语言处理领域的研究革新。机器阅读理解是自然语言处理的重要课题,其旨在利用算法让机器理解文章语义并回答相关问题。大数据时代海量互联网信息的增长促进了阅读理解任务的实际应用价值,其中包括但不限于:提升搜索引擎查询效果,使用智能客服提供简单问答服务,从而提升用户使用体验与平台服务效率。
[0003]主流的阅读理解模型主要基于端到端的神经网络与预训练加微调的方式。其中端到端的神经网络通过CNN或RNN网络架构编码输入的文本序列,并使用注意力机制或自注意力机制捕获文章与问题之间的信息。随着对文本特征表示方式更加深入的研究,基于大规模语料的预训练语言模型进一步推动了机器阅读理解技术的发展。BERT预训练模型[Kenton J D M W C,Toutanova L K.BERT:Pre

training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL

HLT.2019:4171

4186.]创新性的加入mask prediction及next sentence prediction两项预训练任务更好的捕捉了语义信息,并在SQuAD1.1上取得了优异的结果,在评价指标上的表现超越了人类,自此开启了新式的预训练语言模型时代。
[0004]然而,抽取式阅读理解这种建立在预测答案位置上的模式具有一定的弊端。实验发现当在具有偏态的数据集上训练时,模型的预测性能将出现明显下降,由此证实基于预测答案起始位置的模型存在严重的偏差,这种现象被称作位置偏差。这表明,尽管现有的模型在很多标准评测集上达到了超越人类的准确性,但在一些经过特殊处理,或是含有很小扰动的样本上,模型的预测结果可能出现大幅下降。文献[Ko M,Lee J,Kim H,et al.Look at the First Sentence:Position Bias in Question Answering[C]//Proceedings of the 2020Conference on Empirical Methods in Natural Language Processing(EMNLP).2020:1109

1121.]提出了基于集成的去偏方式,它使用a product of expert将预定义偏差模型和预训练模型的对数似然结合起来,其中偏差模型定义为预先计算好的答案先验。
[0005]但集成模式通过一个额外的偏差模型来完成位置偏差的平衡,并未完全考虑目标模型本身的鲁棒性优化。

技术实现思路

[0006]本专利技术所要解决的技术问题是缓解阅读理解训练过程的位置偏差问题,本专利技术提出一种基于预训练模型的阅读理解去偏方法。本专利技术基于预训练模型BERT,在利用dropout技术正则化位置编码的基础上,通过在训练中拉低两次dropout产生的随机子模型分布的
KL散度来约束随机性,提高模型对位置偏差鲁棒性的同时恢复答案预测准确度。
[0007]为达到上述目的,本专利技术提供一种基于预训练模型的阅读理解去偏方法,包含步骤如下:
[0008]以预训练模型BERT嵌入层为基础构建文本表示层,设定模型输入为文章

问题对构成的句子对,将输入句子映射为句子向量;
[0009]对位置编码进行两次随机正则化操作,得到两个随机子模型并计算KL散度,评估其输出分布差异性,更新句子向量输入BERT编码器;
[0010]将BERT编码器最后一个隐层输出通过全连接层与分类器,以交叉熵损失与KL散度之和计算样本的预测损失,在模型训练过程中根据损失值优化预训练参数,去除阅读理解位置偏差。
[0011]进一步地,对位置编码进行两次随机正则化操作,包括:
[0012]采用dropout技术对BERT初始化的位置编码按概率p进行两次随机置0操作,获得两个被弱化位置信息的位置编码向量,并取它们的均值与其余编码相加得到更新的句子向量,用公式表示为:
[0013][0014]其中,L表示为输入序列的最大长度;d表示为每个token向量表示的长度;E
L
×
d
表示更新后的句子向量;表示每个token对照词表组成的Token embedding;表示改进前的位置编码;表示区分问题与文章的Segment embedding;Dropout(
·
)表示随机置零操作。
[0015]进一步地,所述L为512,所述d为768。
[0016]进一步地,所述KL散度计算公式为:
[0017][0018]其中i表示第i组训练样本;D
KL
(
·
)表示KL散度的计算;P
θ
(y|e
pos
)和P

θ
(y|e
pos
)表示位置编码在dropout操作后两个不同的子模型产生的不同分布;由于KL散度本身具有不对称性,需要交换这两种分布的位置,最终得到平均处理过的KL散度。
[0019]进一步地,所述的BERT编码器为Transformer编码器结构,包括堆叠的12层编码模块,每层编码模块的隐藏状态尺寸为768,并包括12个注意力头。
[0020]进一步地,所述损失函数包括交叉熵与正则化位置编码的KL散度,交叉熵与正则化位置编码的KL散度的比例由可调超参数α决定,交叉熵损失与总训练损失和的具体计算公式为:
[0021][0022]L=L
CE
+α*L
KL
[0023]其中,i表示第i组训练样本;N表示样本数量;表示答案在第i个样本中的真实起始位置;表示答案在第i个样本中的真实结束位置;ps表示预测文本序列每个位置是答案起始位置的概率;p
s
表示预测文本序列每个位置是答案结束位置的概率;α是交叉熵与正则化位置编码的KL散度比例的可调超参数;L
CE
表示交叉熵损失值;L
KL
表示正则化位置编码的KL散度值;L表示总训练损失和。
[0024]进一步地,模型训练使用的数据集为抽取式阅读理解数据集SQuAD1.1及其依照答案所在文章段落的位置划分而成的子数据集,在达到最佳精确度时对应的KL散度与交叉熵之比α为3,dropout随机置0概率p为0.1。
[0025]本专利技术所达到的有益效果:
[0026]本专利技术针对机器阅读理解任务中存在的位置偏差问题进行改进。使用预训练模型BERT,通过对其中嵌入层的位置编码进行正则化操作,泛化模型对答案位置信息的关注本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的阅读理解去偏方法,其特征在于:包含步骤如下:以预训练模型BERT嵌入层为基础构建文本表示层,设定模型输入为文章

问题构成的句子对,将输入句子映射为句子向量;对位置编码进行两次随机正则化操作,得到两个随机子模型并计算KL散度,评估其输出分布差异性,更新句子向量输入BERT编码器;将BERT编码器最后一个隐层输出通过全连接层与分类器,以交叉熵损失与KL散度之和计算样本的预测损失,在模型训练过程中根据样本的预测损失优化预训练参数,去除阅读理解位置偏差。2.根据权利要求1所述的基于预训练模型的阅读理解去偏方法,其特征在于:对位置编码进行两次随机正则化操作,包括:采用dropout技术对BERT初始化的位置编码按概率进行两次随机置0操作,获得两个被弱化位置信息的位置编码向量,并取它们的均值与其余编码相加得到更新的句子向量,用公式表示为:;其中,L表示为输入序列的最大长度;d表示为每个token向量表示的长度;表示更新后的句子向量;表示每个token对照词表组成的Token embedding;表示改进前的位置编码;表示区分问题与文章的Segment embedding;表示随机置零操作。3.根据权利要求2所述的基于预训练模型的阅读理解去偏方法,其特征在于:所述L为512,所述d为768。4.根据权利要求1所述的基于预训练模型的阅读理解去偏方法,其特征在于:所述KL散度...

【专利技术属性】
技术研发人员:于舒娟吴梦洁赵阳张虎张昀
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1