构建语音识别模型的方法、装置、设备和存储介质制造方法及图纸

技术编号:23240356 阅读:30 留言:0更新日期:2020-02-04 19:14
本申请涉及人工智能领域,提供了一种构建语音识别模型的方法、装置、设备和存储介质,方法包括:获取多个训练语音样本;通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型;将所述训练语音信息输入至所述语音识别模型,通过自然语言处理NLP技术、所述语音信息以及所述语音信息对应的文本标签更新所述语音识别模型的神经元权值,以得到目标模型;通过L(S)=‑ln∏

Methods, devices, devices and storage media for constructing speech recognition model

【技术实现步骤摘要】
构建语音识别模型的方法、装置、设备和存储介质
本申请涉及智能决策领域,尤其涉及一种构建语音识别模型的方法、装置、设备和存储介质。
技术介绍
语音识别用于将语音转换为文本。随着深度学习技术的不断发展,语音识别的应用范围也越来越广。目前,深度神经网络(deepneuralnetworks,DNN)已经成为自动语音识别领域研究的热点。卷积神经网络(convolutionalneuralnetworks,CNN)、循环神经网络(recurrentneuralnetworks,RNN)在语音识别模型创建上都取得了比较好的效果,深度学习已经成为语音识别的主流方案。在深度神经网络中,网络的深度往往与识别的正确率密切相关,因为传统的深度神经网络能够提取到低层、中层以及高层(low/mid/high-level)的多层次特征,网络的层数越多,意味着提取到的特征越丰富。但是,随着网络层级的不断加深,深度神经网络的“退化现象”也开始出现,导致语音识别的准确率很快达到饱和,出现网络层级越深,错误率反而越高的现象。此外,现有的语音识别模型在训练之前需要对语音训练样本进行对齐操作,对每一帧的语音数据与对应的标签进行对齐,以保证训练中所使用的损失函数能够准确估计语音识别模型的训练误差。然而,语音训练样本的对齐过程繁琐、复杂,需要耗费很大的时间成本。
技术实现思路
本专利技术实例中通过获取无标注数据的特征,将获得的特征其引入到监督学习中,使得可使用的样本数据得到扩充和提高未标注图像的利用效率,模型预测的准确率上升。第一方面,本申请提供一种构建语音识别模型方法,包括:获取多个训练语音样本,所述训练语音样本包括语音信息以及与语音信息对应的文本标签;通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型,所述卷积残差层包括多个顺次连接的残差堆叠层,所述残差堆叠层包含多个顺次连接的残差模块,所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道;将多个所述语音样本依次输入至所述语音识别模型,将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出,通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值,直至所述语音样本均已输入至所述语音识别模型,结束对所述语音识别模型的训练,所述训练结束后,将带有训练好神经元权值的所述语音识别模型作为目标模型;通过L(S)=-lnΠ(h(x),z)∈Sp(z|h(x))=-∑(h(x),z)∈Slnp(z|h(x))评估所述目标模型的误差,其中,L(S)为所述误差,x为所述语音信息,z为所述文本标签,p(z|h(x))为所述预测文本与所述文本标签的相似度,S为所述多个训练语音样本,所述预测文本是指所述语音信息输入至所述目标模型后,由所述目标模型根据神经元权值计算输出的文本信息;调整所述目标模型的神经元的权值,直至所述误差小于阈值,将所述误差小于阈值的神经元权值设为理想权值;将所述目标模型以及所述理想权值部署至客户端。在一些可能的设计中,所述将多个所述语音样本输入至所述语音识别模型之前,所述方法还包括:根据预设的分帧参数分帧处理所述训练语音信息,得到所述训练语音信息对应的语句,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;根据预设的二维参数和滤波器组特征提取算法转化所述语句,得到二维语音信息。在一些可能的设计中,所述根据预设的分帧参数分帧处理所述训练语音信息,包括:对所述二维语音信息进行离散傅里叶变换,以得到所述二维语音信息对应的线性频谱X(k);通过预设的带通滤波器对所述线性频谱滤波,以得到目标线性频谱,当所述带通滤波器的中心频率为f(m)时,则所述带通滤波器的传递函数为:所述f(m)的表达式为:所述带通滤波器包括多个具有三角形滤波特性的带通滤波器,所述fl为所述带通滤波器频率范围的最低频率,所述fh为带所述通滤波器频率范围的最高频率,所述N为DFT时的长度,所述fs为所述带通滤波器的采样频率,所述Fmel函数为Fmel=1125ln(1+f/700),所述Fmel的逆函数为:b为整数;根据0≤m≤M计算所述目标线性频谱对应的对数能量,得到语谱图,所述X(k)为所述线性频谱。在一些可能的设计中,所述全连接层包括分类函数,所述分类函数是指所述j为自然数,所述分类函数将卷积残差层输出的K维的语音频域信号向量z压缩到另一个K维实向量δ(z)j,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。在一些可能的设计中,所述残差模块的输入为x,所述输出残差模块的输出为y,则所述残差模块的数学表达式为:y=F(x,wi)+wsx,所述F(x,wi)为所述独立卷积层的输出,所述ws为所述残差模块的权值。在一些可能的设计中,所述F(x,wi)的采用ReLU函数作为所述独立卷积层的激活函数,所述ReLU函数的数学表达式为ReLU(x)=max(0,x),在一些可能的设计中,所述调整所述目标模型的神经元的权值,包括:通过随机梯度下降法调整所述神经元的权值。第二方面,本申请提供一种构建语音识别模型的装置,具有实现对应于上述第一方面提供的构建语音识别模型的平台的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述构建语音识别模型的装置包括:获取模块,用于获取多个训练语音样本,所述训练语音样本包括语音信息以及与语音信息对应的文本标签;处理模块,用于通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型,所述卷积残差层包括多个顺次连接的残差堆叠层,所述残差堆叠层包含多个顺次连接的残差模块,所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道,通过输入输出模块将多个所述语音样本依次输入至所述语音识别模型,将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出,通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值,直至所述语音样本均已输入至所述语音识别模型,结束对所述语音识别模型的训练,所述训练结束后,将带有训练好神经元权值的所述语音识别模型作为目标模型,通过L(S)=-lnΠ(h(x),z)∈Sp(z|h(x))=-∑(h(x),z)∈Slnp(z|h(x))评估所述目标模型的误差,其中,L(S)为所述误差,x为所述语音信息,z为所述文本标签,p(z|h(x))为所述预测文本与所述文本标签的相似度,S为所述多个训练语音样本,所述预测文本是指所述语音信息输入至所述目标模型后,由所述目标模型根据神经元权值计算输出的文本信息;调整所述目标模型的神经元的权值,直至所述误差小于阈值,将所述误差小于阈值的神经元权值设为理想权值,将所述目标模型以及所述理想权值部署至客户端。在一些可能的设计中,所述处本文档来自技高网...

【技术保护点】
1.一种构建语音识别模型的方法,其特征在于,所述方法包括:/n获取多个训练语音样本,所述训练语音样本包括语音信息以及与语音信息对应的文本标签;/n通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型,所述卷积残差层包括多个顺次连接的残差堆叠层,所述残差堆叠层包含多个顺次连接的残差模块,所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道;/n将多个所述语音样本依次输入至所述语音识别模型,将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出,通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值,直至所述语音样本均已输入至所述语音识别模型,结束对所述语音识别模型的训练,所述训练结束后,将带有训练好神经元权值的所述语音识别模型作为目标模型;/n通过L(S)=-lnΠ

【技术特征摘要】
1.一种构建语音识别模型的方法,其特征在于,所述方法包括:
获取多个训练语音样本,所述训练语音样本包括语音信息以及与语音信息对应的文本标签;
通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型,所述卷积残差层包括多个顺次连接的残差堆叠层,所述残差堆叠层包含多个顺次连接的残差模块,所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道;
将多个所述语音样本依次输入至所述语音识别模型,将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出,通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值,直至所述语音样本均已输入至所述语音识别模型,结束对所述语音识别模型的训练,所述训练结束后,将带有训练好神经元权值的所述语音识别模型作为目标模型;
通过L(S)=-lnΠ(h(x),z)∈Sp(z|h(x))=-∑(h(x),z)∈Slnp(z|h(x))评估所述目标模型的误差,其中,L(S)为所述误差,x为所述语音信息,z为所述文本标签,p(z|h(x))为所述预测文本与所述文本标签的相似度,S为所述多个训练语音样本,所述预测文本是指所述语音信息输入至所述目标模型后,由所述目标模型根据神经元权值计算输出的文本信息;
调整所述目标模型的神经元的权值,直至所述误差小于阈值,将所述误差小于阈值的神经元权值设为理想权值;
将所述目标模型以及所述理想权值部署至客户端。


2.根据权利要求1所述的方法,其特征在于,所述将多个所述语音样本输入至所述语音识别模型之前,所述方法还包括:
根据预设的分帧参数分帧处理所述训练语音信息,得到与所述训练语音信息对应的语句,所述预设分帧参数包括帧时长、帧数和前后帧重复时长;
根据预设的二维参数和滤波器组的特征提取转化为所述语句,得到二维语音信息。


3.根据权利要求2所述的方法,其特征在于,所述根据预设的分帧参数分帧处理所述训练语音信息,包括:
对所述二维语音信息进行离散傅里叶变换,以得到所述二维语音信息对应的线性频谱X(k);
通过预设的带通滤波器对所述线性频谱滤波,以得到目标线性频谱,当所述带通滤波器的中心频率为f(m)时,则所述带通滤波器的传递函数为:所述f(m)的表达式为:
所述带通滤波器包括多个具有三角形滤波特性的带通滤波器,所述fl为所述带通滤波器频率范围的最低频率,所述fh为所述带通滤波器频率范围的最高频率,所述N为DFT时的长度,所述fs为所述带通滤波器的采样频率,所述Fmel函数为Fmel=1125ln(1+f/70),所述Fmel的逆函数为:b为整数;
根据0≤m≤M计算所述目标线性频谱对应的对数能量,得到语谱图,所述X(k)为所述线性频谱。


4.根据权利要求1所述的方法,其特征在于,所述全连接层包括分类函数,所述分类函数是指所述...

【专利技术属性】
技术研发人员:王健宗贾雪丽
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1