一种基于Albert模型的改进预测方法、系统及装置制造方法及图纸

技术编号：28624297 阅读：37 留言：0更新日期：2021-05-28 16:20

本发明专利技术公开了一种基于Albert模型的改进预测方法、系统及装置，该方法包括：将样本映射得到第一层隐变量序列；逐层输入得到各层隐变量序列和各层停止分数；根据预设规则，判断是否进入预测结果计算阶段；判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。该系统包括：映射模块、逐层输入模块、判断模块、末尾权重计算模块和预测模块。该装置包括存储器以及用于执行上述基于Albert模型的改进预测方法的处理器。通过使用本发明专利技术，能够在保持模型预测准确率的同时，降低整体预测时延的效果。本发明专利技术作为一种基于Albert模型的改进预测方法、系统及装置，可广泛应用于任务预测领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Albert模型的改进预测方法、系统及装置
本专利技术涉及任务预测领域，尤其涉及一种基于Albert模型的改进预测方法、系统及装置。
技术介绍
过去几年，大规模预训练语言模型在自然语言处理的众多问题上都展现出了强大的效果。这些模型首先在海量无标签数据上进行预训练以掌握语言的基本知识；当需要应用至某个任务时，再利用与任务相关的有标签数据对模型进行微调。为了使这些模型能够在海量数据上学习到通用知识，模型的参数量通常很大，意味着在推理过程中所需的计算量也很大，导致预测时延较高。这个缺点限制了此类模型在一些对预测及时性有较高要求的场合的应用。
技术实现思路
为了解决上述技术问题，本专利技术的目的是提供一种基于Albert模型的改进预测方法、系统及装置，根据样本的任务难度控制需要经过的计算层数，减少计算量，从而降低预测时延。本专利技术所采用的第一技术方案是：一种基于Albert模型的改进预测方法，包括以下步骤：获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。进一步，还包括微调步骤，其具体包括：将预测结果和末尾权重分别与样本...

【技术保护点】
1.一种基于Albert模型的改进预测方法，其特征在于，包括以下步骤：/n获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；/n将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；/n根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；/n判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；/n根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。/n

【技术特征摘要】
1.一种基于Albert模型的改进预测方法，其特征在于，包括以下步骤：
获取样本并将样本输入到Albert模型，经过词嵌入层将样本映射，得到第一层隐变量序列；
将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数；
根据各层停止分数和预设规则，判断是否进入预测结果计算阶段；
判断到进入预测结果计算阶段，根据各层隐变量序列计算末尾权重；
根据各层隐变量序列、末尾权重和各层停止分数，计算得到预测结果。

2.根据权利要求1所述一种基于Albert模型的改进预测方法，其特征在于，还包括微调步骤，其具体包括：
将预测结果和末尾权重分别与样本对应的标签计算损失值；
根据损失值对Albert模型进行参数更新。

3.根据权利要求2所述一种基于Albert模型的改进预测方法，其特征在于，所述将第一层隐变量序列由底向上经过多个Transformer层和门模块，得到各层隐变量序列和各层停止分数这一步骤，其具体还包括：
将第一层隐变量序列由底向上逐层经过多个Transformer层和门模块；
基于当前Transfomer层得到当前层的隐变量序列；
基于门模块得到当前层的停止分数；
所述当前层的隐变量序列作为下一Transformer层的输入和下一门模块的输入。

4.根据权利要求3所述一种基于Albert模型的改进预测方法，其特征在于，所述门模块包括池化层、隐藏层和输出层。

5.根据权利要求4所述一种基于Albert模型的改进预测方法，其特征在于，所述根据各层停止分数和预设规则，判断是否进入预测结果计算阶段这一步骤，其具体包括：
在计算完当前层隐变量序列和当前层停止分数；
将当前层停止分数与之前各层停止分数累加，得到累加停止分数；
将累加停止分数与预设阈值比较，判断到累加停止分数...

【专利技术属性】
技术研发人员：权小军，罗锐堃，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人