一种语音识别方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:29875763 阅读:12 留言:0更新日期:2021-08-31 23:51
本申请涉及一种语音识别方法,包括:获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图;利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。此外,本申请还提供一种语音识别装置、电子设备以及计算机可读存储介质。本申请可以提高语音识别的准确率。

【技术实现步骤摘要】
一种语音识别方法、装置、电子设备以及存储介质
本申请涉及人工智能领域,尤其涉及一种语音识别方法、装置、电子设备以及计算机可读存储介质。
技术介绍
近年来,机器学习发展迅猛,语音识别任务在深度学习的背景下发生巨大突破,虽然传统的语音识别框架,已经可以实现稳定的工业化识别,然而随着深度学习的引入,处于智能大数据时代的人们,已经不再满足于有限的模型精度,人们希望语音识别能够处理更加复杂的数据。目前,通常采用基于注意力机制的语音识别模型实现语音识别,由于基于注意力机制的语音识别模型对待识别语音的数据质量要求极高,然而在实际业务场景中,会产生不同的噪音环境的待识别语音数据,比如口音方言、嘈杂、远场等场景的数据,这样会影响基于注意力机制的语音识别模型的语音识别能力,从而会影响语音识别的准确率。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种语音识别方法、装置、电子设备以及计算机可读存储介质,可以提高语音识别的准确率。第一方面,本申请提供了一种语音识别方法,包括:获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的所述音频数据的梅尔倒谱图;利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。可以看出,本申请首先基于音频数据的频谱分析,可以提取出所述音频数据的特征数据,从而降低所述音频数据的复杂度,进而可以提高后续音频数据的分析准确率;其次,本申请通过预先训练好的音频识别模型执行音频数据的梅尔倒谱图的特征提取及音素识别,即采用端到端的音频数据的音素序列识别,可以增强所述音频识别模型对复杂的音频数据的抗干扰性,进一步提高音频数据的分析准确率。因此,与现有技术相比,本申请可以增强模型对音频数据的抗干扰性,提高语音识别的准确率。在第一方面的一种可能实现方式中,所述对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图,包括:对所述音频数据进行预处理,并将预处理后的音频数据进行短时傅里叶变换,得到所述音频数据的声谱图;对所述声谱图进行梅尔谱滤波,并将梅尔谱滤波后的声谱图进行倒谱分析,得到所述音频数据的初始梅尔倒谱图;对所述初始梅尔倒谱图进行离散变换,得到所述音频数据的梅尔倒谱图。在第一方面的一种可能实现方式中,所述利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取之前,还包括:获取训练倒谱图及对应的第一特征音频信号,从所述第一特征音频信号中提取音素序列,得到第一音素序列;对所述训练倒谱图进行频谱增强,将频谱增强后的训练倒谱图和所述训练倒谱图作为模型训练数据;将所述模型训练数据输入所述音频识别模型的卷积模块中,以输出所述模型训练数据的第二特征音频信号,并利用所述音频识别模型的音素识别模块识别所述第二特征音频信号的第二音素序列;根据所述第一特征音频信号、第二特征音频信号、第一音素序列以及第二音素序列,计算所述音频识别模型的训练损失;若所述训练损失不满足预设条件,调整所述音频识别模型的参数,并返回将所述模型训练数据输入所述音频识别模型的卷积模块中的步骤;若所述训练损失满足预设条件,得到训练好的音频识别模型。在第一方面的一种可能实现方式中,所述将所述模型训练数据输入所述音频识别模型的卷积模块中,以输出所述模型训练数据的第二特征音频信号,包括:利用所述卷积模块中的卷积层对所述模型训练数据进行卷积操作,得到初始特征音频信号;利用所述卷积模块中的线性整流层对所述初始特征音频信号进行线性调整;利用卷积模块中的池化层对线性调整后的初始特征音频信号进行降维;利用所述卷积模块中的全连接层输出降维后的初始特征音频信号,得到第一特征音频信号。在第一方面的一种可能实现方式中所述利用所述音频识别模型的音素识别模块识别所述第二特征音频信号的第二音素序列,包括:利用所述音素识别模块中的输入层接收所述第二特征音频信号,并设置所述第二特征音频信号的延时数据;根据所述延时数据,利用所述音素识别模块中的隐藏层提取所述第二特征音频信号的音素序列;利用所述音素识别模块中的输出层输出提取的音素序列,得到第二音素序列。在第一方面的一种可能实现方式中,所述根据所述第一特征音频信号、第二特征音频信号、第一音素序列以及第二音素序列,计算所述音频识别模型的训练损失,包括:根据所述第一特征音频信号及第二特征音频信号,计算所述音频识别模型的第一训练损失;根据所述第一音素序列以及第二音素序列,计算所述音频识别模型的第二训练损失;根据所述第一训练损失和第二训练损失,计算所述音频识别模型的训练损失。在第一方面的一种可能实现方式中,所述对所述音素序列进行文字提取,包括:计算从所述音素序列的文字生成概率;根据所述文字生成概率,识别所述音素序列之间的文字信息关系,根据所述文字信息关系,生成对应的文字。第二方面,本申请提供了一种语音识别装置,包括:频谱分析模块,用于获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的所述音频数据的梅尔倒谱图;音素序列识别模块,用于利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;文字提取模块,用于对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。第三方面,本申请提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,以使所述至少一个处理器能够执行如上述第一方面中任意一项所述的语音识别方法。第四方面,本申请提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任意一项所述的语音识别方法。上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的一种语音识别方法的详细流程示意图;图2为本申请一实施例中图1提供的一种语音识别方法的其中一个步骤流程示意图;图3为为本申请一实施例中图1提供的一种语音识别方法的另外一个步骤流程示意图;图4为本申请一实施例中图1提供的一种语音识别方法的又一个步骤详细流程示意图;图5为本申请一实施例提供的一种语音识别装置的模本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图;/n利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;/n对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
获取音频数据,对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图;
利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取,得到特征音频信号,并识别所述特征音频信号的音素序列;
对所述音素序列进行文字提取,将文字提取的结果作为所述音频数据的识别结果。


2.如权利要求1所述的语音识别方法,其特征在于,所述对所述音频数据进行频谱分析,生成所述音频数据的梅尔倒谱图,包括:
对所述音频数据进行预处理,并将预处理后的音频数据进行短时傅里叶变换,得到所述音频数据的声谱图;
对所述声谱图进行梅尔谱滤波,并将梅尔谱滤波后的声谱图进行倒谱分析,得到所述音频数据的初始梅尔倒谱图;
对所述初始梅尔倒谱图进行离散变换,得到所述音频数据的梅尔倒谱图。


3.如权利要求1所述的语音识别方法,其特征在于,所述利用预先训练好的音频识别模型对所述梅尔倒谱图进行特征提取之前,还包括:
获取训练倒谱图及对应的第一特征音频信号,从所述第一特征音频信号中提取音素序列,得到第一音素序列;
对所述训练倒谱图进行频谱增强,将频谱增强后的训练倒谱图和所述训练倒谱图作为模型训练数据;
将所述模型训练数据输入所述音频识别模型的卷积模块中,以输出所述模型训练数据的第二特征音频信号,并利用所述音频识别模型的音素识别模块识别所述第二特征音频信号的第二音素序列;
根据所述第一特征音频信号、第二特征音频信号、第一音素序列以及第二音素序列,计算所述音频识别模型的训练损失;
若所述训练损失不满足预设条件,调整所述音频识别模型的参数,并返回将所述模型训练数据输入所述音频识别模型的卷积模块中的步骤;
若所述训练损失满足预设条件,得到训练好的音频识别模型。


4.如权利要求3所述的语音识别方法,其特征在于,所述将所述模型训练数据输入所述音频识别模型的卷积模块中,以输出所述模型训练数据的第二特征音频信号,包括:
利用所述卷积模块中的卷积层对所述模型训练数据进行卷积操作,得到初始特征音频信号;
利用所述卷积模块中的线性整流层对所述初始特征音频信号进行线性调整;
利用卷积模块中的池化层对线性调整后的初始特征音频信号进行降维;
利用所述卷积模块中的全连接层输出降维后的初始特征音频信号,得到...

【专利技术属性】
技术研发人员:汪雪黄石磊程刚
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1