基于口音瓶颈特征的声学模型自适应方法技术

技术编号:15692535 阅读:405 留言:0更新日期:2017-06-24 06:38
本发明专利技术属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明专利技术提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明专利技术的方法,提高了带口音语音识别的准确率。

Acoustic model adaptive method based on accent bottleneck feature

The invention belongs to the technical field of speech recognition, in particular to an acoustic model self-adapting method based on the accent bottleneck feature. In order to achieve different accent user customization, acoustic model, the method of the invention comprises the following steps: first S1 depth based on neural network with multiple characteristic voiceprint stitching accents of audio data as the training sample, get the depth accent bottle neck network model; S2, the depth of accent bottleneck based network access the accent, accent stitching characteristics of audio data; S3, depth of second neural network based on the characteristics of the plurality of accent stitching accents and audio data as the training sample, a baseline acoustic model independent accent; parameters on the accent baseline acoustic model independent of the S4, with the accent stitching feature accent audio data specific to adjust, generate accent dependent acoustic model. By using the method of the invention, the accuracy of speech recognition with an accent is improved.

【技术实现步骤摘要】
基于口音瓶颈特征的声学模型自适应方法
本专利技术属于语音识别
,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。
技术介绍
迄今为止,语音识别技术已经成为人机交互的重要入口,使用该技术的用户人数日益增长。由于这些用户来自五湖四海,口音千差万别,因而通用的语音识别声学模型很难适用于所有用户。因此,需要针对不同口音的用户,个性化定制相应的声学模型。目前,提取声纹特征的技术已经在说话人领域得到了广泛的应用,而说话人的声纹特征与说话人的口音有着千丝万缕的联系。虽然此前已经有不少学者通过提取声纹特征的技术来提取口音特征,然而这种技术并不能高层次地表征口音特征,而如何高层次地表征口音特征对个性化定制声学模型至关重要。因此,本领域需要一种新的方法来解决上述问题。
技术实现思路
为了解决现有技术中的上述问题,即为了能够实现针对不同口音的用户,进行个性化定制声学模型,本专利技术提供了一种基于口音瓶颈特征的声学模型自适应方法。该方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。优选地,在步骤S1中,获取所述声纹拼接特征的步骤包括:S11、从口音音频数据中提取声学特征;S12、利用所述声学特征提取说话人的声纹特征向量;S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。优选地,在步骤S1中,所述第一神经网络是深度前馈神经网络模型,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络模型进行训练,得到深度口音瓶颈网络。优选地,步骤S2进一步包括:S21、利用所述深度口音瓶颈网络模型提取所述口音音频数据的口音瓶颈特征;S22、融合所述口音瓶颈特征与所述声学特征,得到所述口音音频数据的口音拼接特征。优选地,步骤S21进一步包括:将所述口音音频数据的声纹拼接特征作为所述深度口音瓶颈网络模型的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征。优选地,在步骤S3中,所述第二神经网络是深度双向长短时记忆循环神经网络,以多个所述口音拼接特征对所述深度双向长短时记忆循环神经网络进行训练,得到口音独立的深度双向长短时记忆循环神经网络的声学模型;将所述口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型。优选地,在步骤S4中,利用所述口音拼接特征对所述口音独立的基线声学模型的输出层的参数进行调整,生产口音依赖的声学模型。优选地,在步骤S4中,对所述口音独立的基线声学模型的最后一个输出层的参数进行调整。优选地,采用后向传播算法对所述口音独立的基线声学模型的输出层的参数进行调整。通过采用本专利技术的基于口音瓶颈特征的声学模型自适应方法,具有以下有益效果:(1)采用深度口音瓶颈网络提取的口音拼接特征具有更抽象,更通用的表达,能准确获取口音的高层次表征。(2)利用口音拼接特征去对口音独立的基线声学模型的输出层进行自适应,每一种口音都有对应的输出层,共享隐层参数,能减少模型的存储空间。(3)通过本专利技术的基于口音瓶颈特征的声学模型自适应方法,提高了带口音语音识别的准确率。附图说明图1是本专利技术的基于口音瓶颈特征的声学模型自适应方法的流程图;图2是本专利技术实施例的整体流程图;图3是本专利技术实施例的生成声纹拼接特征的流程图;图4是本专利技术实施例的生成口音拼接特征的流程图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。参照图1,图1示出了本专利技术的基于口音瓶颈特征的声学模型自适应方法的流程图。本专利技术的方法包括以下步骤:S1、基于第一神经网络模型,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二神经网络模型,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。图2示出了2是本专利技术实施例的整体流程图。下面参照图2对本专利技术的方法进行详细说明。在步骤S1中,获取所述声纹拼接特征的步骤包括:S11、从口音音频数据中提取声学特征。具体地,该步骤中主要采用梅尔频谱特征或者梅尔倒谱特征。以梅尔倒谱特征为例,梅尔倒谱特征的静态参数可以为13维,对其做一阶差分和二阶差分,最终参数的维度为39维,然后利用这39维的特征做后续处理。S12、利用所述声学特征提取说话人的声纹特征向量。具体地,利用该声学特征训练高斯混合模型-通用背景模型,进而利用该高斯混合模型-通用背景模型从所述声学特征中来提取每个人的声纹特征向量,且该声纹特征向量的维度为80维。S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。如图3所示,在生产声纹拼接特征的过程中,将S11中提取的声学特征与S12中提取的声纹特征向量融合。具体地,将每个人的声纹特征向量拼接到每帧的声学特征上,从而生成声纹拼接特征。在步骤S1中,第一神经网络可以是深度前馈神经网络模型,以生成的声纹拼接特征对该深度前馈神经网络模型进行训练,得到深度口音瓶颈网络。在本实施例中,该深度口音瓶颈网络的最后一个隐层节点为60,比其他隐层节点数少,其他隐层节点可为1024或者2048。在本实施例中,该深度前馈神经网络模型的训练准则为交叉熵,训练方法为后向传播算法。深度前馈神经网络模型的激活函数可以为双弯曲激活函数或者双曲线正切激活函数,该网络的损失函数为交叉熵,其属于本领域已知技术,在此不再详细描述。在步骤S2中,获取口音拼接特征的步骤包括:S21、利用所述深度口音瓶颈网络提取所述口音音频数据的口音瓶颈特征;S22、融合所述口音瓶颈特征与所述声学特征,得到所述口音音频数据的口音拼接特征。具体而言,将步骤S1中得到的深度口音瓶颈网络视为一个特征提取器,以步骤S13中生成的声纹拼接特征作为所述深度口音瓶颈网络的输入,利用前向传播算法得到该口音音频数据的口音瓶颈特征。在本实施例中,该口音瓶颈特征为60维。如图4所示,在生产口音拼接特征的过程中,在帧级别将S21提取的口音瓶颈特征与S11提取的声学特征进行融合,从而生成口音拼接特征。在步骤S3中,第二神经网络可以是深度双向长短时记忆循环神经网络,以步骤S2中得到的口音拼接特征对该深度双向长短时记忆循环神经网络进行训练,即将S2中得到的口音拼接特征输入该深度双向长短时记忆循环神经网络,其输出层的标签为声韵母。得到口音独立的深度双向长短时记忆循环神经网络的声学模型,并将该口音独立的深度双向长短时记忆循环神经网络的声学模型作为口音独立的基线声学模型。在本实施例中,深度双向长短时记忆循环神经网络的训练准则为联结时序分类函数,训练方法为后向传播算法。深度双向长短时记忆循环神经网络本文档来自技高网...
基于口音瓶颈特征的声学模型自适应方法

【技术保护点】
一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。

【技术特征摘要】
1.一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。2.根据权利要求1所述的方法,其特征在于,在步骤S1中,获取所述声纹拼接特征的步骤包括:S11、从口音音频数据中提取声学特征;S12、利用所述声学特征提取说话人的声纹特征向量;S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述第一神经网络是深度前馈神经网络,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络进行训练,得到深度口音瓶颈网络。4.根据权利要求3所述的方法,其特征在于,步骤S2进一步包括:S21、利用所述深度口音瓶颈网络模型...

【专利技术属性】
技术研发人员:陶建华易江燕温正棋倪浩
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1