构建语音识别模型的方法、装置、设备和存储介质制造方法及图纸

技术编号：23240356 阅读：30 留言：0更新日期：2020-02-04 19:14

本申请涉及人工智能领域，提供了一种构建语音识别模型的方法、装置、设备和存储介质，方法包括：获取多个训练语音样本；通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型；将所述训练语音信息输入至所述语音识别模型，通过自然语言处理NLP技术、所述语音信息以及所述语音信息对应的文本标签更新所述语音识别模型的神经元权值，以得到目标模型；通过L(S)＝‑ln∏

Methods, devices, devices and storage media for constructing speech recognition model

全部详细技术资料下载

【技术实现步骤摘要】
构建语音识别模型的方法、装置、设备和存储介质
本申请涉及智能决策领域，尤其涉及一种构建语音识别模型的方法、装置、设备和存储介质。
技术介绍
语音识别用于将语音转换为文本。随着深度学习技术的不断发展，语音识别的应用范围也越来越广。目前，深度神经网络(deepneuralnetworks，DNN)已经成为自动语音识别领域研究的热点。卷积神经网络(convolutionalneuralnetworks，CNN)、循环神经网络(recurrentneuralnetworks，RNN)在语音识别模型创建上都取得了比较好的效果，深度学习已经成为语音识别的主流方案。在深度神经网络中，网络的深度往往与识别的正确率密切相关，因为传统的深度神经网络能够提取到低层、中层以及高层(low/mid/high-level)的多层次特征，网络的层数越多，意味着提取到的特征越丰富。但是，随着网络层级的不断加深，深度神经网络的“退化现象”也开始出现，导致语音识别的准确率很快达到饱和，出现网络层级越深，错误率反而越高的现象。此外，现有的语音识别模型在训练之前需要对语音训练样本进行对齐操作，对每一帧的语音数据与对应的标签进行对齐，以保证训练中所使用的损失函数能够准确估计语音识别模型的训练误差。然而，语音训练样本的对齐过程繁琐、复杂，需要耗费很大的时间成本。
技术实现思路
本专利技术实例中通过获取无标注数据的特征，将获得的特征其引入到监督学习中，使得可使用的样本数据得到扩充和提高未标注图像的利用效率，模型预测的准确率上升...

【技术保护点】
1.一种构建语音识别模型的方法，其特征在于，所述方法包括：/n获取多个训练语音样本，所述训练语音样本包括语音信息以及与语音信息对应的文本标签；/n通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型，所述卷积残差层包括多个顺次连接的残差堆叠层，所述残差堆叠层包含多个顺次连接的残差模块，所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道；/n将多个所述语音样本依次输入至所述语音识别模型，将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出，通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值，直至所述语音样本均已输入至所述语音识别模型，结束对所述语音识别模型的训练，所述训练结束后，将带有训练好神经元权值的所述语音识别模型作为目标模型；/n通过L(S)＝-lnΠ

【技术特征摘要】
1.一种构建语音识别模型的方法，其特征在于，所述方法包括：
获取多个训练语音样本，所述训练语音样本包括语音信息以及与语音信息对应的文本标签；
通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型，所述卷积残差层包括多个顺次连接的残差堆叠层，所述残差堆叠层包含多个顺次连接的残差模块，所述残差模块包含多个顺次连接的隐藏层以及旁路于多个顺次连接的权值层的旁路通道；
将多个所述语音样本依次输入至所述语音识别模型，将所述语音信息及将所述语音信息对应的文本标签分别作为所述语音识别模型的输入以及输出，通过所述输入以及所述输出不断训练所述语音识别模型的神经元权值，直至所述语音样本均已输入至所述语音识别模型，结束对所述语音识别模型的训练，所述训练结束后，将带有训练好神经元权值的所述语音识别模型作为目标模型；
通过L(S)＝-lnΠ(h(x)，z)∈Sp(z|h(x))＝-∑(h(x)，z)∈Slnp(z|h(x))评估所述目标模型的误差，其中，L(S)为所述误差，x为所述语音信息，z为所述文本标签，p(z|h(x))为所述预测文本与所述文本标签的相似度，S为所述多个训练语音样本，所述预测文本是指所述语音信息输入至所述目标模型后，由所述目标模型根据神经元权值计算输出的文本信息；
调整所述目标模型的神经元的权值，直至所述误差小于阈值，将所述误差小于阈值的神经元权值设为理想权值；
将所述目标模型以及所述理想权值部署至客户端。

2.根据权利要求1所述的方法，其特征在于，所述将多个所述语音样本输入至所述语音识别模型之前，所述方法还包括：
根据预设的分帧参数分帧处理所述训练语音信息，得到与所述训练语音信息对应的语句，所述预设分帧参数包括帧时长、帧数和前后帧重复时长；
根据预设的二维参数和滤波器组的特征提取转化为所述语句，得到二维语音信息。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的分帧参数分帧处理所述训练语音信息，包括：
对所述二维语音信息进行离散傅里叶变换，以得到所述二维语音信息对应的线性频谱X(k)；
通过预设的带通滤波器对所述线性频谱滤波，以得到目标线性频谱，当所述带通滤波器的中心频率为f(m)时，则所述带通滤波器的传递函数为：所述f(m)的表达式为：
所述带通滤波器包括多个具有三角形滤波特性的带通滤波器，所述fl为所述带通滤波器频率范围的最低频率，所述fh为所述带通滤波器频率范围的最高频率，所述N为DFT时的长度，所述fs为所述带通滤波器的采样频率，所述Fmel函数为Fmel＝1125ln(1+f/70)，所述Fmel的逆函数为：b为整数；
根据0≤m≤M计算所述目标线性频谱对应的对数能量，得到语谱图，所述X(k)为所述线性频谱。

4.根据权利要求1所述的方法，其特征在于，所述全连接层包括分类函数，所述分类函数是指所述...

【专利技术属性】
技术研发人员：王健宗，贾雪丽，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人