一种基于预训练模型的阅读理解去偏方法技术

技术编号：36119943 阅读：15 留言：0更新日期：2022-12-28 14:25

本发明专利技术提供一种基于预训练模型的阅读理解去偏方法，包括：以预训练模型BERT嵌入层为基础构建文本表示层，设定模型输入为文章

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练模型的阅读理解去偏方法

[0001]本专利技术属于自然语言处理中的机器阅读理解领域，具体涉及一种基于预训练模型的阅读理解去偏方法。

技术介绍

[0002]近年来，深度学习技术的发展不断推动着自然语言处理领域的研究革新。机器阅读理解是自然语言处理的重要课题，其旨在利用算法让机器理解文章语义并回答相关问题。大数据时代海量互联网信息的增长促进了阅读理解任务的实际应用价值，其中包括但不限于：提升搜索引擎查询效果，使用智能客服提供简单问答服务，从而提升用户使用体验与平台服务效率。
[0003]主流的阅读理解模型主要基于端到端的神经网络与预训练加微调的方式。其中端到端的神经网络通过CNN或RNN网络架构编码输入的文本序列，并使用注意力机制或自注意力机制捕获文章与问题之间的信息。随着对文本特征表示方式更加深入的研究，基于大规模语料的预训练语言模型进一步推动了机器阅读理解技术的发展。BERT预训练模型[Kenton J D M W C,Toutanova L K.BERT:Pre
‑
training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of NAACL
‑
HLT.2019:4171
‑
4186.]创新性的加入mask prediction及next sentence prediction两项预训练任务更好的捕捉了语义信息，并在SQuAD1....

【技术保护点】

【技术特征摘要】
1.一种基于预训练模型的阅读理解去偏方法，其特征在于：包含步骤如下：以预训练模型BERT嵌入层为基础构建文本表示层，设定模型输入为文章
‑
问题构成的句子对，将输入句子映射为句子向量；对位置编码进行两次随机正则化操作，得到两个随机子模型并计算KL散度，评估其输出分布差异性，更新句子向量输入BERT编码器；将BERT编码器最后一个隐层输出通过全连接层与分类器，以交叉熵损失与KL散度之和计算样本的预测损失，在模型训练过程中根据样本的预测损失优化预训练参数，去除阅读理解位置偏差。2.根据权利要求1所述的基于预训练模型的阅读理解去偏方法，其特征在于：对位置编码进行两次随机正则化操作，包括：采用dropout技术对BERT初始化的位置编码按概率进行两次随机置0操作，获得两个被弱化位置信息的位置编码向量，并取它们的均值与其余编码相加得到更新的句子向量，用公式表示为：；其中，L表示为输入序列的最大长度；d表示为每个token向量表示的长度；表示更新后的句子向量；表示每个token对照词表组成的Token embedding；表示改进前的位置编码；表示区分问题与文章的Segment embedding；表示随机置零操作。3.根据权利要求2所述的基于预训练模型的阅读理解去偏方法，其特征在于：所述L为512，所述d为768。4.根据权利要求1所述的基于预训练模型的阅读理解去偏方法，其特征在于：所述KL散度...

【专利技术属性】
技术研发人员：于舒娟，吴梦洁，赵阳，张虎，张昀，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人