一种语音识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：29875763 阅读：12 留言：0更新日期：2021-08-31 23:51

本申请涉及一种语音识别方法，包括：获取音频数据，对所述音频数据进行频谱分析，生成所述音频数据的梅尔倒谱图；利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取，得到特征音频信号，并识别所述特征音频信号的音素序列；对所述音素序列进行文字提取，将文字提取的结果作为所述音频数据的识别结果。此外，本申请还提供一种语音识别装置、电子设备以及计算机可读存储介质。本申请可以提高语音识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置、电子设备以及存储介质
本申请涉及人工智能领域，尤其涉及一种语音识别方法、装置、电子设备以及计算机可读存储介质。
技术介绍
近年来，机器学习发展迅猛，语音识别任务在深度学习的背景下发生巨大突破，虽然传统的语音识别框架，已经可以实现稳定的工业化识别，然而随着深度学习的引入，处于智能大数据时代的人们，已经不再满足于有限的模型精度，人们希望语音识别能够处理更加复杂的数据。目前，通常采用基于注意力机制的语音识别模型实现语音识别，由于基于注意力机制的语音识别模型对待识别语音的数据质量要求极高，然而在实际业务场景中，会产生不同的噪音环境的待识别语音数据，比如口音方言、嘈杂、远场等场景的数据，这样会影响基于注意力机制的语音识别模型的语音识别能力，从而会影响语音识别的准确率。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种语音识别方法、装置、电子设备以及计算机可读存储介质，可以提高语音识别的准确率。第一方面，本申请提供了一种语音识别方法，包括：获取音频数据，对所述音频数据进行频谱分析，生成所述音频数据的所述音频数据的梅尔倒谱图；利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取，得到特征音频信号，并识别所述特征音频信号的音素序列；对所述音素序列进行文字提取，将文字提取的结果作为所述音频数据的识别结果。可以看出，本申请首先基于音频数据的频谱分析，可以提取出所述音频数据的特征数据，从而降低所述音频数据的复杂...

【技术保护点】
1.一种语音识别方法，其特征在于，所述方法包括：/n获取音频数据，对所述音频数据进行频谱分析，生成所述音频数据的梅尔倒谱图；/n利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取，得到特征音频信号，并识别所述特征音频信号的音素序列；/n对所述音素序列进行文字提取，将文字提取的结果作为所述音频数据的识别结果。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：
获取音频数据，对所述音频数据进行频谱分析，生成所述音频数据的梅尔倒谱图；
利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取，得到特征音频信号，并识别所述特征音频信号的音素序列；
对所述音素序列进行文字提取，将文字提取的结果作为所述音频数据的识别结果。

2.如权利要求1所述的语音识别方法，其特征在于，所述对所述音频数据进行频谱分析，生成所述音频数据的梅尔倒谱图，包括：
对所述音频数据进行预处理，并将预处理后的音频数据进行短时傅里叶变换，得到所述音频数据的声谱图；
对所述声谱图进行梅尔谱滤波，并将梅尔谱滤波后的声谱图进行倒谱分析，得到所述音频数据的初始梅尔倒谱图；
对所述初始梅尔倒谱图进行离散变换，得到所述音频数据的梅尔倒谱图。

3.如权利要求1所述的语音识别方法，其特征在于，所述利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取之前，还包括：
获取训练倒谱图及对应的第一特征音频信号，从所述第一特征音频信号中提取音素序列，得到第一音素序列；
对所述训练倒谱图进行频谱增强，将频谱增强后的训练倒谱图和所述训练倒谱图作为模型训练数据；
将所述模型训练数据输入所述音频识别模型的卷积模块中，以输出所述模型训练数据的第二特征音频信号，并利用所述音频识别模型的音素识别模块识别所述第二特征音频信号的第二音素序列；
根据所述第一特征音频信号、第二特征音频信号、第一音素序列以及第二音素序列，计算所述音频识别模型的训练损失；
若所述训练损失不满足预设条件，调整所述音频识别模型的参数，并返回将所述模型训练数据输入所述音频识别模型的卷积模块中的步骤；
若所述训练损失满足预设条件，得到训练好的音频识别模型。

4.如权利要求3所述的语音识别方法，其特征在于，所述将所述模型训练数据输入所述音频识别模型的卷积模块中，以输出所述模型训练数据的第二特征音频信号，包括：
利用所述卷积模块中的卷积层对所述模型训练数据进行卷积操作，得到初始特征音频信号；
利用所述卷积模块中的线性整流层对所述初始特征音频信号进行线性调整；
利用卷积模块中的池化层对线性调整后的初始特征音频信号进行降维；
利用所述卷积模块中的全连接层输出降维后的初始特征音频信号，得到...

【专利技术属性】
技术研发人员：汪雪，黄石磊，程刚，
申请(专利权)人：深圳市北科瑞声科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人