一种基于深度学习的语音识别方法技术

技术编号:38584156 阅读:8 留言:0更新日期:2023-08-26 23:27
本发明专利技术公开了一种基于深度学习的语音识别方法,该方法包括音源采集、音源预处理、抗噪增强、口语理解、说话人识别和语音识别,本发明专利技术属于语音识别技术领域,具体是指一种基于深度学习的语音识别方法。本方案采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,采用基于集成学习的口语识别架构进行口语理解,提高了语音识别的可用性和精确性,采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。性。性。

【技术实现步骤摘要】
一种基于深度学习的语音识别方法


[0001]本专利技术涉及语音识别
,具体是指一种基于深度学习的语音识别方法。

技术介绍

[0002]语音识别技术是指将人类语音转化为计算机可识别的文本或命令的技术,随着人工智能和机器学习技术的快速发展,语音识别技术在智能助理、智能音箱、语音搜索和语音翻译等领域得到越来越广泛的应用。
[0003]但是在已有的语音识别过程中,存在着音源噪声干扰较多,音源质量参差不齐,加大了语音特征提取的难度,对语音识别的准确率造成了负面影响的技术问题;在已有的语音识别方法中,存在着难以识别并理解言语中的口语意图,降低了语音识别的可用性和精确性的技术问题;在已有的语音识别方法中,存在着缺少一种能够识别、匹配并分类说话人的方法,影响了语音识别的可靠性和可延展性,降低了语音识别的信息获取密度的技术问题。

技术实现思路

[0004]针对上述情况,为克服现有技术的缺陷,本专利技术提供了一种基于深度学习的语音识别方法,针对在已有的语音识别过程中,存在着音源噪声干扰较多,音源质量参差不齐,加大了语音特征提取的难度,对语音识别的准确率造成了负面影响的技术问题,本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强,提高了音源数据的质量,进而降低了后续语音识别过程中特征提取等音源处理步骤的难度,提升了语音识别的总体准确率;针对在已有的语音识别方法中,存在着难以识别并理解言语中的口语意图,降低了语音识别的可用性和精确性的技术问题,本方案创造性地采用基于集成学习的口语识别架构进行口语理解,从音源数据中识别出口语言语的意图,提高了语音识别的可用性和精确性;针对在已有的语音识别方法中,存在着缺少一种能够识别、匹配并分类说话人的方法,影响了语音识别的可靠性和可延展性,降低了语音识别的信息获取密度的技术问题,本方案创造性地采用基于决策函数的说话人身份识别和分类算法,分析和处理音源数据进行说话人识别,提高了语音识别的信息获取密度和优化了语音识别的信息获取结构,进而优化了语音识别的可靠性、可延展性和适用性。
[0005]本专利技术采取的技术方案如下:本专利技术提供的一种基于深度学习的语音识别方法,该方法包括以下步骤:步骤S1:音源采集;
[0006]步骤S2:音源预处理;
[0007]步骤S3:抗噪增强;
[0008]步骤S4:口语理解;
[0009]步骤S5:说话人识别;
[0010]步骤S6:语音识别。
[0011]进一步地,在步骤S1中,所述音源采集具体指从音频数据中采集得到音频原始数据。
[0012]进一步地,在步骤S2中,所述音源预处理包括采样率调整、音量归一化和声道归一化,得到单声道音源数据S
MA

[0013]进一步地,在步骤S3中,所述抗噪增强,包括以下步骤:步骤S31:采用时频去噪网络对所述单声道音源数据S
MA
进行抗噪处理,包括以下步骤:
[0014]步骤S311:通过编码器encoder,计算得到单声道音源编码数据E
SMA
,计算公式为:;
[0015]其中,是编码器函数,所述编码器函数具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成,S
MA
是单声道音源数据;
[0016]步骤S312:通过掩码估计网络MaskEstNet,计算去噪掩码,计算公式为:;
[0017]其中,是去噪掩码,Mask
V
是语音数据掩码,Mask
N
是噪声数据掩码,是掩码估计网络;
[0018]步骤S313:通过解码器decoder,计算得到语音解码数据,计算公式为:;
[0019]其中,是语音解码数据,是解码器函数,所述解码器函数是逐元素点乘运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,Mask
V
是语音数据掩码,是点积运算,E
SMA
是单声道音源编码数据;
[0020]步骤S314:通过解码器decoder,计算得到噪声解码数据,计算公式为:;
[0021]其中,是噪声解码数据,是解码器函数,所述解码器函数是逐元素点积运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,Mask
V
是语音数据掩码,是点积运算,E
SMA
是单声道音源编码数据;
[0022]步骤S32:使用语音解码数据和噪声解码数据,通过多种训练损失函数,进行预测模型训练,计算得到多种训练损失,并得到抗噪增强预测模型,所述使用语音解码数据和噪声解码数据,通过多种训练损失函数,进行预测模型训练,包括以下步骤:步骤S321:通过信噪比损失函数L
SNR
,在保留单声道音源数据S
MA
的原始规模的基础上进行音源增强,所述信噪比损失函数L
SNR
的计算公式为:;
[0023]其中,是信噪比损失函数,θ是预测模型参数,是信噪比函数,是纯净语音数据和语音增强得到的语音解码数据之间的信噪比;
[0024]步骤S322:通过对数均方误差损失函数L
log

MSE
,降低预测语音和真实语音之间的差异,所述对数均方误差损失函数L
log

MSE
的计算公式为:;
[0025]其中,是对数均方误差损失函数,θ是预测模型参数,是纯净语音数据的振幅谱,Mask
V
是语音数据掩码,是点积运算,E
SMA
是单声道音源编码数据,||
·
||2是欧几里得范数;
[0026]步骤S323:通过噪声重建损失函数L
NR
,提高模型的鲁棒性,所述噪声重建损失函数L
NR
的计算公式为:;
[0027]其中,是噪声重建损失函数,θ是预测模型参数,是信噪比函数,是纯净语音数据和语音增强得到的语音解码数据之间的信噪比,是纯净噪声数据和语音增强得到的噪声解码数据之间的信噪比;
[0028]步骤S33:通过抗噪增强预测模型,对单声道音源数据S
MA
进行语抗噪增强,得到抗噪增强语音数据S
AN

[0029]进一步地,在步骤S4中,所述口语理解,包括以下步骤:步骤S41:特征提取,具体为提取大小为N
×
M的特征数组Fe,其中,在所述特征数组Fe中,每个特征数组中的元素Fe
i
可以表示为,得到特征数组中第i行和第j列的特征元素Fe
ij
,并计算网络特征集S
j
,所述网络特征集S
j
的计算公式为:;
[0030]其中,S
j
是网络特征集,N是特征数组Fe的长,Fe
ij
是特征数组中第i行和第j列的特征元素,i是特征数组Fe的行索引本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的语音识别方法,其特征在于:该方法包括以下步骤:步骤S1:音源采集;步骤S2:音源预处理;步骤S3:抗噪增强;步骤S4:口语理解;步骤S5:说话人识别;步骤S6:语音识别;在步骤S2中,所述音源预处理包括采样率调整、音量归一化和声道归一化,得到单声道音源数据S
MA
;在步骤S3中,所述抗噪增强,包括以下步骤:步骤S31:采用时频去噪网络对所述单声道音源数据S
MA
进行抗噪处理;步骤S32:使用语音解码数据和噪声解码数据,通过多种训练损失函数,进行预测模型训练,计算得到多种训练损失,并得到抗噪增强预测模型;步骤S33:通过抗噪增强预测模型,对单声道音源数据S
MA
进行语抗噪增强,得到抗噪增强语音数据S
AN
。2.根据权利要求1所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S31中,所述采用时频去噪网络对所述单声道音源数据S
MA
进行抗噪处理,包括以下步骤:步骤S311:通过编码器encoder,计算得到单声道音源编码数据E
SMA
,计算公式为:;其中,是编码器函数,所述编码器函数具体由短时傅里叶变换函数和ReLu激活函数构成的可学习一维卷积组成,S
MA
是单声道音源数据;步骤S312:通过掩码估计网络MaskEstNet,计算去噪掩码,计算公式为:;其中,是去噪掩码,Mask
V
是语音数据掩码,Mask
N
是噪声数据掩码,是掩码估计网络;步骤S313:通过解码器decoder,计算得到语音解码数据,计算公式为:;其中,是语音解码数据,是解码器函数,所述解码器函数是逐元素点乘运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,Mask
V
是语音数据掩码,是点积运算,E
SMA
是单声道音源编码数据;步骤S314:通过解码器decoder,计算得到噪声解码数据,计算公式为:;其中,是噪声解码数据,是解码器函数,所述解码器函数是逐元素点积运算,具体由逆短时傅里叶变换函数和可学习的一维反卷积层组成,Mask
V
是语音数据掩码,是点积运算,E
SMA
是单声道音源编码数据。3.根据权利要求2所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S32中,所述使用语音解码数据和噪声解码数据,通过多种训练损失函数,进行预测模型
训练,包括以下步骤:步骤S321:通过信噪比损失函数L
SNR
,在保留单声道音源数据S
MA
的原始规模的基础上进行音源增强,所述信噪比损失函数L
SNR
的计算公式为:;其中,是信噪比损失函数,θ是预测模型参数,是信噪比函数,是纯净语音数据和语音增强得到的语音解码数据之间的信噪比;步骤S322:通过对数均方误差损失函数L
log

MSE
,降低预测语音和真实语音之间的差异,所述对数均方误差损失函数L
log

MSE
的计算公式为:;其中,是对数均方误差损失函数,θ是预测模型参数,是纯净语音数据的振幅谱,Mask
V
是语音数据掩码,是点积运算,E
SMA
是单声道音源编码数据,||
·
||2是欧几里得范数;步骤S323:通过噪声重建损失函数L
NR
,提高模型的鲁棒性,所述噪声重建损失函数L
NR
的计算公式为:;其中,是噪声重建损失函数,θ是预测模型参数,是信噪比函数,是纯净语音数据和语音增强得到的语音解码数据之间的信噪比,是纯净噪声数据和语音增强得到的噪声解码数据之间的信噪比。4.根据权利要求3所述的一种基于深度学习的语音识别方法,其特征在于:在步骤S4中,所述口语理解,包括以下步骤:步骤S41:特征提取,具体为提取大小为N
×
M的特征数组Fe,其中,在所述特征数组Fe中,每个特征数组中的元素Fe
i
可以表示为,得到特征数组中第i行和第j列的特征元素Fe
ij
,并计算网络特征集S
j
,所述网络特...

【专利技术属性】
技术研发人员:陈志丰张灵芝
申请(专利权)人:北京安吉贝玛健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1