一种语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23151352 阅读:38 留言:0更新日期:2020-01-18 14:19
本发明专利技术实施例提供一种语音识别方法、装置、电子设备及存储介质,所述方法包括:获取待识别语音数据;根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。本发明专利技术实施例提高了神经网络识别模型对待识别语音进行识别时的准确率。

A speech recognition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种语音识别方法、装置、电子设备及存储介质
本专利技术涉及语音识别
,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
技术介绍
在现阶段的语音识别模型中,是将音频文件整体作为输入,然后经卷积神经网络(ConvolutionalNeuralNetwork,CNN)层提取音频特征,然后通过双向长短时记忆(bidirectionallongshort-termmemory,BLSTM)和前瞻CNN层进行学习,通过全连接层进行降维,最后用连接时间分类(Connectionisttemporalclassification,CTC)层解码,得到最终的识别文字。但是,现阶段的语音识别模型的泛化能力依赖于语音语料库中足够多的说话人,通常语音语料库时长在10000小时以上才能保证足够的泛化能力,否则会降低对语音进行文字识别时的准确率。综上所述,现有技术中在通过语音识别模型对语音进行文字识别时,存在语音识别准确率较低的问题。
技术实现思路
本专利技术实施例提供一种语音识别方法、装置、电子设备及存储介质,以解决现有技术中在通过语音识别模型对语音进行文字识别时,语音识别准确率较低的问题。针对上述问题,第一方面,本专利技术实施例提供一种语音识别方法,所述方法包括:获取待识别语音数据;根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。第二方面,本专利技术实施例还提供一种语音识别装置,所述装置包括:获取模块,用于获取待识别语音数据;识别模块,用于根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的语音识别方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的语音识别方法的步骤。本专利技术实施例提供的语音识别方法、装置、电子设备及存储介质,通过获取待识别语音数据,并根据对预设语音预料库中语音的说话人的识别率小于或等于预设阈值的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1表示本专利技术实施例中语音识别方法的步骤流程图;图2表示本专利技术实施例中建立并训练得到神经网络识别模型的步骤流程图;图3表示本专利技术实施例中神经网络训练模型的模块框图;图4表示本专利技术实施例中语音识别装置的模块框图;图5表示本专利技术实施例中电子设备的模块框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术实施例中语音识别方法的步骤流程图,该方法包括如下步骤:步骤101:获取待识别语音数据。在本步骤中,具体的,待识别语音数据可以为音频文件。例如,该待识别语音数据可以为WAV格式的原始音频文件。当然,在此需要说明的是,在此并不具体限定该待识别语音数据。步骤102:根据预先训练得到的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字。在本步骤中,具体的,预先训练得到的神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。这样使得神经网络识别模型对语音的识别不会受到说话人的口音等相关因素的影响,即使得神经网络识别模型具有与说话人不相关的特性,从而保证了神经网络识别模型对语音的识别准确率。此外,具体的,预设阈值的设定可以根据实际需求进行设定,例如该预设阈值可以设置为0。当然,在此并不具体限定该预设阈值的数值。另外,具体的,本步骤根据神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,此时由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,即降低了神经网络识别模型受到说话人口音等相关因素的影响,从而提高了通过该神经网络识别模型对待识别语音数据进行识别时的准确率,保证了所得到的与待识别语音数据对应的识别文字的准确度。这样,本实施例通过根据对预设语音预料库中语音的说话人的识别率小于或等于预设阈值的神经网络识别模型,对待识别语音数据进行语音识别,得到与待识别语音数据对应的识别文字,由于神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,降低了神经网络识别模型所受到的说话人口音等相关因素的影响,从而提高了神经网络识别模型对待识别语音进行识别时的准确率。此外,进一步地,在根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别之前,还需要建立并训练得到所述神经网络识别模型。其中,如图2所示,建立并训练得到所述神经网络识别模型,包括如下步骤:步骤201:建立神经网络训练模型,其中神经网络训练模型包括特征学习单元以及分别与特征学习单元连接的语音识别单元和说话人识别单元。在本步骤中,具体的,在建立并训练得到神经网络识别模型时,可以先建立神经网络训练模型。具体的,如图3所示,神经网络训练模型可以包括特征学习单元31以及分别与特征学习单元31连接的语音识别单元32和说话人识别单元33。其中,特征学习单元31用于对输入的语音进行特征提取和学习,语音识别单元32用于对预设语音语料库中的语音进行识别,说话人识别单元33用于对预设语音语料库中语音的说话人进行识别。此外,具体的,所述特征学习单元31包括相连接的第一卷积神经网络(简称CNN)层和双向长短时记忆(简称BLSTM)层本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n获取待识别语音数据;/n根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,/n所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音数据;
根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别,得到与所述待识别语音数据对应的识别文字,其中,
所述神经网络识别模型对预设语音语料库中语音的说话人的识别率小于或等于预设阈值,所述预设语音语料库用于训练得到所述神经网络识别模型。


2.根据权利要求1所述的方法,其特征在于,所述根据预先训练得到的神经网络识别模型,对所述待识别语音数据进行语音识别之前,所述方法还包括:
建立并训练得到所述神经网络识别模型;其中,
所述建立并训练得到所述神经网络识别模型,包括:
建立神经网络训练模型,其中所述神经网络训练模型包括特征学习单元以及分别与所述特征学习单元连接的语音识别单元和说话人识别单元;
将预设语音语料库中的语音作为训练数据输入至所述特征学习单元,分别由所述语音识别单元对所述语音进行识别,得到语音识别结果,由所述说话人识别单元对所述语音的说话人进行识别,得到说话人识别结果;
根据所述语音识别结果和所述说话人识别结果,得到所述神经网络训练模型的损失函数;
根据所述损失函数,对所述神经网络训练模型进行优化训练,得到优化训练后的神经网络训练模型,其中所述优化训练后的神经网络训练模型对所述预设语音语料库中语音的说话人的识别率小于或等于预设阈值;
将优化训练后的神经网络训练模型中的特征学习单元和语音识别单元建立为模型,并将所述模型确定为神经网络识别模型。


3.根据权利要求2所述的方法,其特征在于,所述特征学习单元包括相连接的第一卷积神经网络CNN层和双向长短时记忆BLSTM层;
所述语音识别单元包括依次相连接的前馈CNN层、全连接层和连接时间分类CTC层,其中所述BLSTM层连接所述前馈CNN层;
所述说话人识别单元包括依次相连接的第二CNN层、全连接层和Softmax层,其中所述BLSTM层连接所述第二...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1