时间序列语音识别深度学习模型的量化方法及装置制造方法及图纸

技术编号:28053576 阅读:27 留言:0更新日期:2021-04-14 13:19
本发明专利技术提供一种时间序列语音识别深度学习模型的量化方法及装置,本实施例提供的时间序列语音识别深度学习模型的量化方法,包括:获取全精度模型的参数;根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,所述时间序列语音识别深度学习模型为二值模型;在二值模型中新增预设的注意力机制模块,对二值模型输入值的权重进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失。通过本发明专利技术实施例提供的时间序列语音识别深度学习模型的量化方法,实现在将深度学习模型量化为二值模型时能够降低精度损失,并且二值模型的表征能力较深度学习模型差异不大。差异不大。差异不大。

【技术实现步骤摘要】
时间序列语音识别深度学习模型的量化方法及装置


[0001]本专利技术涉及语音识别领域,尤其涉及一种时间序列语音识别深度学习模型的量化方法及装置。

技术介绍

[0002]语音识别是指机器通过识别和理解把语音信号转变为文本的技术。专业上通常用字错误率(Character Error Rate,CER)、词错误率(Word Error Rate, WER)考量语音识别模型的性能,比如,识别对象是英文时,用WER指标考察;识别对象是中文时,用CER指标考察。随着深度学习的兴起,基于深度神经网络的音频建模代替了原来的高斯混合模型方法。这类深度学习模型通常参数量较大,推理过程需要花费较多计算资源,而边缘计算场景中的边缘设备一般都是小型化设备,无法提供较大的存储空间,导致深度学习模型在进行边缘计算时成本很大,为此,现有技术中通过神经网络量化的方式将全精度(32bit)参数量化成低比特(如1bit),使深度学习模型所占内存成倍减少变为二值模型。这种处理方式能够减少内存空间的处理,但也会因参数的低比特带来信息损失,使得模型表征能力变差,性能降低。
[0003]现有技术中应对精度损失的降低,主要有六类方法:量化方法改进、梯度近似、结构设计改进、优化方法改进、损失函数设计以及神经网络架构搜索。这六类方法在图像分类任务上表现出较强的性能,能够减少量化带来的精度损失;但在语音识别任务上,精度损失的降低并不明显。
[0004]因此,如何保证在语音识别任务上对深度学习模型进行参数量化时降低精度损失是一个亟待解决的问题。

技术实现思路

[0005]本专利技术提供一种时间序列语音识别深度学习模型的量化方法,以实现在将深度学习模型量化为二值模型时能够降低精度损失,并且二值模型的表征能力较深度学习模型差异不大。
[0006]第一方面,本专利技术提供一种时间序列语音识别深度学习模型的量化方法,包括:
[0007]获取全精度模型的参数;
[0008]根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型;
[0009]在二值模型中新增预设的注意力机制模块,对二值模型输入值的权重进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。
[0010]在一种可能的设计中,根据特征反馈得到的损失函数,包括:
[0011]获取二值模型的深层特征和浅层特征;
[0012]根据浅层特征的维度,扩展深层特征的维度,确定扩展后的深层特征;
[0013]根据浅层特征和扩展后的深层特征,确定根据特征反馈得到的损失函数。
[0014]在一种可能的设计中,损失函数,包括:
[0015]L=L
p
+L
CTC
+L
F
[0016][0017][0018]其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;为第l 层卷积的第o个卷积核的全精度参数,为第l层卷积的第o个卷积核的二值参数,α
l
为第l层卷积的量化因子;L
p
为投影损失函数;L
CTC
为联结主义时间分类损失函数;L
F
为根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
[0019]第二方面,本专利技术提供一种基于深度学习模型的时间序列语音识别方法,包括:
[0020]获取待识别语音数据;
[0021]根据待识别语音数据以及预设深度学习模型确定语音识别结果,其中,预设深度学习模型为预设二值模型,预设二值模型中包括注意力机制模块以及损失函数模块,注意力机制模块用于对二值模型输入值的权重进行训练,损失函数模块用于对二值模型的参数进行训练,其中,损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。
[0022]第三方面,本专利技术还提供一种时间序列语音识别深度学习模型的量化装置,包括:
[0023]获取模块,用于获取全精度模型的参数;
[0024]确定模块,用于根据全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,时间序列语音识别深度学习模型为二值模型;
[0025]处理模块,用于在二值模型中新增预设的注意力机制模块,对二值模型的输入值进行训练;同时应用预设的损失函数对二值模型的参数进行训练,以降低由全精度模型量化为二值模型时的精度损失,其中,损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。
[0026]在一种可能的设计中,处理模块,用于:
[0027]获取二值模型的深层特征和浅层特征;
[0028]根据浅层特征的维度,扩展深层特征的维度,确定扩展后的深层特征;
[0029]根据浅层特征和扩展后的深层特征,确定根据特征反馈得到的损失函数。
[0030]在一种可能的设计中,损失函数,包括:
[0031]L=L
p
+L
CTC
+L
F
[0032][0033][0034]其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;为第l 层卷积的第o个卷积核的全精度参数,为第l层卷积的第o个卷积核的二值参数,α
l
为第l层卷积的量化因子;L
p
为投影损失函数;L
CTC
为联结主义时间分类损失函数;L
F
为根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。
[0035]第四方面,本专利技术还提供一种基于深度学习模型的时间序列语音识别装置,包括:
[0036]获取模块,用于获取待识别语音数据;
[0037]确定模块,用于根据待识别语音数据以及预设深度学习模型确定语音识别结果,其中,预设深度学习模型为预设二值模型,预设二值模型中包括注意力机制模块以及损失函数模块,注意力机制模块用于对二值模型输入值的权重进行训练,损失函数模块用于对二值模型的参数进行训练,其中,损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。
[0038]第五方面,本专利技术还提供一种模型平台,包括:
[0039]处理器;以及,
[0040]存储器,用于存储处理器的可执行指令;
[0041]其中,处理器配置为经由执行可执行指令来执行第一方面中任意一种时间序列语音识别深度学习模型的量化方法。
[0042]第六方面,本专利技术还提供一种电子设备,包括:
[0043]处理器;以及,
[0044]存储器,用于存储处理器的可执行指令;
[0045]其中,处理器配置为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时间序列语音识别深度学习模型的量化方法,其特征在于,包括:获取全精度模型的参数;根据所述全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,所述时间序列语音识别深度学习模型为二值模型;在所述二值模型中新增预设的注意力机制模块,对所述二值模型输入值的权重进行训练;同时应用预设的损失函数对所述二值模型的参数进行训练,以降低由所述全精度模型量化为所述二值模型时的精度损失,其中,所述损失函数包括根据特征反馈得到的损失函数、联结主义时间分类损失函数以及投影损失函数。2.根据权利要求1所述的方法,其特征在于,所述根据特征反馈得到的损失函数,包括:获取所述二值模型的深层特征和浅层特征;根据所述浅层特征的维度,扩展所述深层特征的维度,确定扩展后的深层特征;根据所述浅层特征和所述扩展后的深层特征,确定所述根据特征反馈得到的损失函数。3.根据权利要求2所述的方法,其特征在于,所述损失函数,包括:L=L
p
+L
CTC
+L
FF
其中,l表示第l层卷积,o表示该层卷积的第o个卷积核;为第l层卷积的第o个卷积核的全精度参数,为第l层卷积的第o个卷积核的二值参数,α
l
为第l层卷积的量化因子;L
p
为所述投影损失函数;L
CTC
为所述联结主义时间分类损失函数;L
F
为所述根据特征反馈得到的损失函数,f1表示第一个残差块后的浅层特征,f4代表第四个残差块后的深层特征,c表示特征图的通道数。4.一种基于深度学习模型的时间序列语音识别方法,其特征在于,包括:获取待识别语音数据;根据所述待识别语音数据以及预设深度学习模型确定语音识别结果,其中,所述预设深度学习模型为预设二值模型,所述预设二值模型中包括注意力机制模块以及损失函数模块,所述注意力机制模块用于对所述二值模型输入值的权重进行训练,所述损失函数模块用于对所述二值模型的参数进行训练,其中,所述损失函数包括联结主义时间分类损失函数、投影损失函数以及根据特征反馈得到的损失函数。5.一种时间序列语音识别深度学习模型的量化装置,其特征在于,包括:获取模块,用于获取全精度模型的参数;确定模块,用于根据所述全精度模型的参数和预设的量化算法,确定时间序列语音识别深度学习模型的参数,所述时间序列语音识别深度学习模型为二值模型;处理模块,用于在所述二值模型中新增预设的注意力机制模块,对所述二值模型的输
入值进行训练;同时应...

【专利技术属性】
技术研发人员:张宝昌赵文宇
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1