【技术实现步骤摘要】
一种基于BERT的中间层改进技术方法
[0001]本专利技术属于应用BERT模型的改进
,具体涉及一种基于BERT的中间层改进技术方法。
技术介绍
[0002]目前BERT作为一种预训练的语言表征模型在诸如阅读理解,自然语言推理和情感分析等各种自然语言处理任务种取得了极大的成功,因为其标准结构为自注意力模块后衔接中间层模块,在BERT的应用中并不会改变这一标准搭配,也就无法研究中间层具体对下游任务的总体网络性能的影响。
[0003]存在问题或缺陷的原因:目前BERT在很多自然语言处理的任务中都取得了极大的成功,但一直没有对其标准模型中必不可少的中间层的具体研究,也就无法针对中间层进行BERT的总体网络性能改进。
技术实现思路
[0004]针对上述方法无法研究中间层具体对下游任务的总体网络性能的影响、模型运行效率低等问题,本专利技术提供了一种显著降低网络复杂度和性能参数冗余从而减少运行模型的成本和硬件性能的需求,且有较高的性价比和运行效率的BERT改进方法。
[0005]为了解决上述技术问 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT的中间层改进技术方法,其特征在于:包括下列步骤:S100、数据采集:采集模型所需的文本数据,并对其类别进行标注,构建模型所需的数据集;S200、数据预处理:数据集进行预训练,对于文本数据的前90%进行序列长度为128的迭代,对于后10%进行512序列长度的迭代;S300、模型训练微调:对模型进行训练微调,维系改进后的网络结构精确度;S400、对比实验:从不修改网络逐步减少中间层直到没有中间层,记录过程中精准度的变化、参数规模变化以及吞吐量的变化;S500、最优模型保存:选择保存参数变化最大的和吞吐量最大的模型。2.根据权利要求1所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S100数据采集中,从维基百科的相关公开数据集采集使用的主要数据集,并保证所有中间层个数的实验数据集来源都一致。3.根据权利要求2所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S200数据预处理中,将所有变量的初始学习率包括前1%训练的线性热身计划控制为10
‑
4。4.根据权利要求3所述的一种基于BERT的中间层改进技术方法,其特征在于:所述S300模型训练微调中...
【专利技术属性】
技术研发人员:潘晓光,张娜,焦璐璐,令狐彬,马文芳,
申请(专利权)人:山西三友和智慧信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。