The invention belongs to the technical field of speech recognition, in particular to an acoustic model self-adapting method based on the accent bottleneck feature. In order to achieve different accent user customization, acoustic model, the method of the invention comprises the following steps: first S1 depth based on neural network with multiple characteristic voiceprint stitching accents of audio data as the training sample, get the depth accent bottle neck network model; S2, the depth of accent bottleneck based network access the accent, accent stitching characteristics of audio data; S3, depth of second neural network based on the characteristics of the plurality of accent stitching accents and audio data as the training sample, a baseline acoustic model independent accent; parameters on the accent baseline acoustic model independent of the S4, with the accent stitching feature accent audio data specific to adjust, generate accent dependent acoustic model. By using the method of the invention, the accuracy of speech recognition with an accent is improved.
【技术实现步骤摘要】
基于口音瓶颈特征的声学模型自适应方法
本专利技术属于语音识别
,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。
技术介绍
迄今为止,语音识别技术已经成为人机交互的重要入口,使用该技术的用户人数日益增长。由于这些用户来自五湖四海,口音千差万别,因而通用的语音识别声学模型很难适用于所有用户。因此,需要针对不同口音的用户,个性化定制相应的声学模型。目前,提取声纹特征的技术已经在说话人领域得到了广泛的应用,而说话人的声纹特征与说话人的口音有着千丝万缕的联系。虽然此前已经有不少学者通过提取声纹特征的技术来提取口音特征,然而这种技术并不能高层次地表征口音特征,而如何高层次地表征口音特征对个性化定制声学模型至关重要。因此,本领域需要一种新的方法来解决上述问题。
技术实现思路
为了解决现有技术中的上述问题,即为了能够实现针对不同口音的用户,进行个性化定制声学模型,本专利技术提供了一种基于口音瓶颈特征的声学模型自适应方法。该方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。优选地,在步骤S1中,获取所述声纹拼接特征的步骤包括:S11、从口音音频数据中提取声学特征;S12、利用所述声学特征提取说话人的声纹特征向量;S ...
【技术保护点】
一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。
【技术特征摘要】
1.一种基于口音瓶颈特征的声学模型自适应方法,其特征在于,所述方法包括下列步骤:S1、基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于第二深度神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。2.根据权利要求1所述的方法,其特征在于,在步骤S1中,获取所述声纹拼接特征的步骤包括:S11、从口音音频数据中提取声学特征;S12、利用所述声学特征提取说话人的声纹特征向量;S13、融合所述声纹特征向量与所述声学特征,生成声纹拼接特征。3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述第一神经网络是深度前馈神经网络,以所述多个所述口音音频数据的声纹拼接特征对所述深度前馈神经网络进行训练,得到深度口音瓶颈网络。4.根据权利要求3所述的方法,其特征在于,步骤S2进一步包括:S21、利用所述深度口音瓶颈网络模型...
【专利技术属性】
技术研发人员:陶建华,易江燕,温正棋,倪浩,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。