当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于Albert模型的改进预测方法、系统及装置制造方法及图纸

技术编号:28624297 阅读:37 留言:0更新日期:2021-05-28 16:20
本发明专利技术公开了一种基于Albert模型的改进预测方法、系统及装置,该方法包括:将样本映射得到第一层隐变量序列;逐层输入得到各层隐变量序列和各层停止分数;根据预设规则,判断是否进入预测结果计算阶段;判断到进入预测结果计算阶段,根据各层隐变量序列计算末尾权重;根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果。该系统包括:映射模块、逐层输入模块、判断模块、末尾权重计算模块和预测模块。该装置包括存储器以及用于执行上述基于Albert模型的改进预测方法的处理器。通过使用本发明专利技术,能够在保持模型预测准确率的同时,降低整体预测时延的效果。本发明专利技术作为一种基于Albert模型的改进预测方法、系统及装置,可广泛应用于任务预测领域。

【技术实现步骤摘要】
一种基于Albert模型的改进预测方法、系统及装置
本专利技术涉及任务预测领域,尤其涉及一种基于Albert模型的改进预测方法、系统及装置。
技术介绍
过去几年,大规模预训练语言模型在自然语言处理的众多问题上都展现出了强大的效果。这些模型首先在海量无标签数据上进行预训练以掌握语言的基本知识;当需要应用至某个任务时,再利用与任务相关的有标签数据对模型进行微调。为了使这些模型能够在海量数据上学习到通用知识,模型的参数量通常很大,意味着在推理过程中所需的计算量也很大,导致预测时延较高。这个缺点限制了此类模型在一些对预测及时性有较高要求的场合的应用。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种基于Albert模型的改进预测方法、系统及装置,根据样本的任务难度控制需要经过的计算层数,减少计算量,从而降低预测时延。本专利技术所采用的第一技术方案是:一种基于Albert模型的改进预测方法,包括以下步骤:获取样本并将样本输入到Albert模型,经过词嵌入层将样本映射,得到第一层隐变量序列;将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数;根据各层停止分数和预设规则,判断是否进入预测结果计算阶段;判断到进入预测结果计算阶段,根据各层隐变量序列计算末尾权重;根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果。进一步,还包括微调步骤,其具体包括:将预测结果和末尾权重分别与样本对应的标签计算损失值;根据损失值对Albert模型进行参数更新。进一步,所述将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数这一步骤,其具体还包括:将第一层隐变量序列由底向上逐层经过多个Transformer层和门模块;基于当前Transfomer层得到当前层的隐变量序列;基于门模块得到当前层的停止分数;所述当前层的隐变量序列作为下一Transformer层的输入和下一门模块的输入。进一步,所述门模块包括池化层、隐藏层和输出层。进一步,所述根据各层停止分数和预设规则,判断是否进入预测结果计算阶段这一步骤,其具体包括:在计算完当前层隐变量序列和当前层停止分数;将当前层停止分数与之前各层停止分数累加,得到累加停止分数;将累加停止分数与预设阈值比较,判断到累加停止分数不小于预设阈值,进入预测结果计算阶段。进一步,所述末尾权重的计算公式如下:上式中,R表示末尾权重,N表示已通过的层数,Sj表示第j层的停止分数。进一步,所述根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果这一步骤,其具体包括:根据各层隐变量序列、末尾权重、各层停止分数,计算最终输出隐变量;将最终输出隐变量送入输出层,得到预测结果。进一步,所述最终输出隐变量的计算公式如下:上式中,Ho表示最终输出隐变量,HN表示第N层输出隐变量,Hj表示第j层输出隐变量。本专利技术所采用的第二技术方案是:一种基于Albert模型的改进预测系统,包括:映射模块,用于获取样本并将样本输入到Albert模型,经过词嵌入层将样本映射,得到第一层隐变量序列;逐层输入模块,用于将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数;判断模块,用于根据各层停止分数和预设规则,判断是否进入预测结果计算阶段;末尾权重计算模块,用于判断到进入预测结果计算阶段,根据各层隐变量序列计算末尾权重;预测模块,用于根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果。本专利技术所采用的第三技术方案是:一种基于Albert模型的改进预测装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种基于Albert模型的改进预测方法。本专利技术方法、系统及装置的有益效果是:本专利技术使大规模预训练模型可以根据输入样本的难易程度选择计算量,简单的样本消耗较少的计算量,困难的样本消耗较多的计算量,从而达到在保持模型预测准确率的同时,降低整体预测时延的效果。附图说明图1是本专利技术一种基于Albert模型的改进预测方法的步骤流程图;图2是本专利技术一种基于Albert模型的改进预测系统的结构框图;图3是本专利技术具体实施例本预测方法的结构流程图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。参照图1和图3,本专利技术提供了一种基于Albert模型的改进预测方法,该方法包括以下步骤:获取样本并将样本输入到Albert模型,经过词嵌入层将样本映射,得到第一层隐变量序列;将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数;具体地,上一层隐变量序列Hi-1除了作为当前Transformer层的输入,还作为当前门模块的输入。根据各层停止分数和预设规则,判断是否进入预测结果计算阶段;判断到进入预测结果计算阶段,根据各层隐变量序列计算末尾权重;根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果。进一步作为本方法的优选实施例,还包括微调步骤,其具体包括:将预测结果和末尾权重分别与样本对应的标签计算损失值;根据损失值对Albert模型进行参数更新。具体地,预测结果P将会和末尾权重R均会被用来计算损失值l,其中损失函数Loss根据任务的不同而不同:l=Loss(P,Y)+α·R其中α为超参数,用以控制精度与计算量间的权衡关系,优化器将根据损失值更新模型参数,以此来训练模型。进一步作为本方法的优选实施例,所述将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数这一步骤,其具体还包括:将第一层隐变量序列由底向上逐层经过多个Transformer层和门模块;基于当前Transfomer层得到当前层的隐变量序列;基于门模块得到当前层的停止分数;所述当前层的隐变量序列作为下一Transformer层的输入和下一门模块的输入。进一步作为本方法优选实施例,所述门模块包括池化层、隐藏层和输出层。具体地,门模块由一个池化层和两层神经网络组成。其中,池化层取隐变量序列的首个隐变量隐藏层激活函数为ReLU,输出层激活函数为sigmoid。模块接收隐变量Hi-1作为输入,输出取值为本文档来自技高网...

【技术保护点】
1.一种基于Albert模型的改进预测方法,其特征在于,包括以下步骤:/n获取样本并将样本输入到Albert模型,经过词嵌入层将样本映射,得到第一层隐变量序列;/n将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数;/n根据各层停止分数和预设规则,判断是否进入预测结果计算阶段;/n判断到进入预测结果计算阶段,根据各层隐变量序列计算末尾权重;/n根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果。/n

【技术特征摘要】
1.一种基于Albert模型的改进预测方法,其特征在于,包括以下步骤:
获取样本并将样本输入到Albert模型,经过词嵌入层将样本映射,得到第一层隐变量序列;
将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数;
根据各层停止分数和预设规则,判断是否进入预测结果计算阶段;
判断到进入预测结果计算阶段,根据各层隐变量序列计算末尾权重;
根据各层隐变量序列、末尾权重和各层停止分数,计算得到预测结果。


2.根据权利要求1所述一种基于Albert模型的改进预测方法,其特征在于,还包括微调步骤,其具体包括:
将预测结果和末尾权重分别与样本对应的标签计算损失值;
根据损失值对Albert模型进行参数更新。


3.根据权利要求2所述一种基于Albert模型的改进预测方法,其特征在于,所述将第一层隐变量序列由底向上经过多个Transformer层和门模块,得到各层隐变量序列和各层停止分数这一步骤,其具体还包括:
将第一层隐变量序列由底向上逐层经过多个Transformer层和门模块;
基于当前Transfomer层得到当前层的隐变量序列;
基于门模块得到当前层的停止分数;
所述当前层的隐变量序列作为下一Transformer层的输入和下一门模块的输入。


4.根据权利要求3所述一种基于Albert模型的改进预测方法,其特征在于,所述门模块包括池化层、隐藏层和输出层。


5.根据权利要求4所述一种基于Albert模型的改进预测方法,其特征在于,所述根据各层停止分数和预设规则,判断是否进入预测结果计算阶段这一步骤,其具体包括:
在计算完当前层隐变量序列和当前层停止分数;
将当前层停止分数与之前各层停止分数累加,得到累加停止分数;
将累加停止分数与预设阈值比较,判断到累加停止分数...

【专利技术属性】
技术研发人员:权小军罗锐堃
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1