一种基于BERT的中间层改进技术方法技术

技术编号:29208423 阅读:23 留言:0更新日期:2021-07-10 00:44
本发明专利技术属于应用BERT模型的改进技术领域,具体涉及一种基于BERT的中间层改进技术方法,包括如下步骤:数据采集、数据预处理、模型训练微调、对比实验、最优模型保存,所述数据采集采集模型所需的文本数据,并对其类别进行标注,构建模型所需的数据集;所述数据预处理对数据集进行预训练,对于文本数据的前90%进行序列长度为128的迭代,对于后10%进行512序列长度的迭代;所述模型训练微调对模型进行训练微调,维系改进后的网络结构精确度;所述对比实验从不修改网络逐步减少中间层直到没有中间层,记录过程中精准度的变化、参数规模变化以及吞吐量的变化;所述最优模型保存选择保存参数变化最大的和吞吐量最大的模型。数变化最大的和吞吐量最大的模型。数变化最大的和吞吐量最大的模型。

【技术实现步骤摘要】
一种基于BERT的中间层改进技术方法


[0001]本专利技术属于应用BERT模型的改进
,具体涉及一种基于BERT的中间层改进技术方法。

技术介绍

[0002]目前BERT作为一种预训练的语言表征模型在诸如阅读理解,自然语言推理和情感分析等各种自然语言处理任务种取得了极大的成功,因为其标准结构为自注意力模块后衔接中间层模块,在BERT的应用中并不会改变这一标准搭配,也就无法研究中间层具体对下游任务的总体网络性能的影响。
[0003]存在问题或缺陷的原因:目前BERT在很多自然语言处理的任务中都取得了极大的成功,但一直没有对其标准模型中必不可少的中间层的具体研究,也就无法针对中间层进行BERT的总体网络性能改进。

技术实现思路

[0004]针对上述方法无法研究中间层具体对下游任务的总体网络性能的影响、模型运行效率低等问题,本专利技术提供了一种显著降低网络复杂度和性能参数冗余从而减少运行模型的成本和硬件性能的需求,且有较高的性价比和运行效率的BERT改进方法。
[0005]为了解决上述技术问题,本专利技术采用的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的中间层改进技术方法,其特征在于:包括下列步骤:S100、数据采集:采集模型所需的文本数据,并对其类别进行标注,构建模型所需的数据集;S200、数据预处理:数据集进行预训练,对于文本数据的前90%进行序列长度为128的迭代,对于后10%进行512序列长度的迭代;S300、模型训练微调:对模型进行训练微调,维系改进后的网络结构精确度;S400、对比实验:从不修改网络逐步减少中间层直到没有中间层,记录过程中精准度的变化、参数规模变化以及吞吐量的变化;S500、最优模型保存:选择保存参数变化最大的和吞吐量最大的模型。2.根据权利要求1所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S100数据采集中,从维基百科的相关公开数据集采集使用的主要数据集,并保证所有中间层个数的实验数据集来源都一致。3.根据权利要求2所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S200数据预处理中,将所有变量的初始学习率包括前1%训练的线性热身计划控制为10

4。4.根据权利要求3所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S300模型训练微调中...

【专利技术属性】
技术研发人员:潘晓光张娜焦璐璐令狐彬马文芳
申请(专利权)人:山西三友和智慧信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1