基于残差卷积网络的建模方法、语音识别方法及电子设备技术

技术编号:27979627 阅读:39 留言:0更新日期:2021-04-06 14:14
本发明专利技术涉及语音识别技术领域,具体涉及一种基于残差卷积网络的建模方法及电子设备,通过对语料库中的音频数据进行特征提取以得到音频特征数据,并采用构建的残差卷积网络以对音频特征数据进行训练得到声学模型,以在采用声学模型对待识别语音数据进行识别时,有效提高识别结果的准确性。

【技术实现步骤摘要】
基于残差卷积网络的建模方法、语音识别方法及电子设备
本专利技术涉及语音识别
,特别地涉及一种基于残差卷积网络的建模方法、语音识别方法及电子设备。
技术介绍
语音识别是将语音片段输入转化为文本输出的过程,整个过程通常包括信息处理、特征提取、声学模型建立、语言模型建立和解码搜索四个阶段。传统的语音识别方法中,声学模型主要采用GMM-HMM模型。但是GMM等传统的声学模型存在音频信号表征低效,不能利用语境信息,进而存在准确率差的问题。
技术实现思路
本专利技术提供一种基于残差卷积网络的建模方法、语音识别方法及电子设备,采用构建的残差卷积网络对语料库中提取的音频特征数据进行训练得到声学模型,以在采用声学模型对待识别语音数据进行识别时,有效提高识别结果的准确性。为解决上述技术问题,本专利技术实施例提出如下技术方案:一种基于残差卷积网络的建模方法,所述方法包括:获取语料库中的多个音频数据;对所述音频数据进行特征提取,以得到音频特征数据;对所述音频特征数据采用构建的残差卷积网络进行训练本文档来自技高网...

【技术保护点】
1.一种基于残差卷积网络的建模方法,其特征在于,所述方法包括:/n获取语料库中的多个音频数据;/n对所述音频数据进行特征提取,以得到音频特征数据;/n对所述音频特征数据采用构建的残差卷积网络进行训练得到声学模型,所述声学模型用于对待识别语音数据进行识别。/n

【技术特征摘要】
1.一种基于残差卷积网络的建模方法,其特征在于,所述方法包括:
获取语料库中的多个音频数据;
对所述音频数据进行特征提取,以得到音频特征数据;
对所述音频特征数据采用构建的残差卷积网络进行训练得到声学模型,所述声学模型用于对待识别语音数据进行识别。


2.根据权利要求1所述的基于残差卷积网络的建模方法,其特征在于,对所述音频特征数据采用所述残差卷积网络进行训练得到声学模型的步骤包括:
将所述音频特征数据划分为训练数据集和验证数据集,其中,所述训练数据集和验证数据集分别包括多个音频特征数据;
将所述训练数据集输入至残差卷积网络中进行训练得到一初始模型;
将所述验证数据集输入至所述初始模型中以进行测试处理得到一声学模型。


3.根据权利要求2所述的基于残差卷积网络的建模方法,其特征在于,还包括:构建残差卷积网络的步骤,其包括:
构建包括卷积模块和残差模块的残差卷积网络,根据获得的参数信息设置该残差卷积网络中的模型参数语音长度、每个长度的特征大小、输出标签最大长度、模型训练参数的样本数量以及数据集被轮询次数。


4.根据权利要求3所述的基于残差卷积网络的建模方法,其特征在于,残差卷积网络还包括卷积池化层,所述卷积模块包括第一卷积模块和第二卷积模块,所述残差模块包括第一残差模块和第二残差模块,将所述训练数据集输入至残差卷积网络中进行训练得到一初始模型的步骤包括:
所述卷积池化层对音频特征数据进行卷积,对卷积后的音频数据进行再次卷积,从再次卷积后的音频特征数据中随机选取第一预设比例的数据作最大池化处理,以输出第一特征图;
所述第一卷积模块对所述第一特征图进行卷积,从卷积后的第一特征图中随机抽取第二预设比例的数据进行最大池化处理,输出第二特征图;
第二个卷积模块对所述第二特征图进行卷积,从卷积后的特征数据中随机抽取第三预设比例的数据进行最大池化处理,输出第三特征图;
所述第一残差模块对所述第三特征图进行卷积,对卷积后的第三特征图进行最大值池化,对池化后的第三特征图进行随机抽取,以输出第四特征图;
所述第二残差模块对所述第四特征图进行卷积,从卷积后的第四特征图中随机抽取第四预设比例的数据进行最大池化处理,对池化处理后的第四特征图按照第五预设比例再次进行抽取,以输出第五特征图;<...

【专利技术属性】
技术研发人员:陈功陈明威马雅奇刘坤陈彦宇
申请(专利权)人:珠海格力电器股份有限公司珠海联云科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1