一种基于残差网络及融合特征的说话人年龄性别分类方法技术

技术编号:25954604 阅读:23 留言:0更新日期:2020-10-17 03:47
本发明专利技术提供了一种基于残差网络及融合特征的说话人年龄性别分类方法,本发明专利技术将MFCC参数和基频F0结合,将它们的复合特征作为说话人性别年龄分类的语音特征;本发明专利技术采用卷积残差网络训练说话人性别年龄识别模型,残差网络解决了深度神经网络中,因为网络层次的加深导致的梯度爆炸和消失,使得在训练中能够使用更深的网络,提取出更深层的语音特征,从而提高识别的准确度。本发明专利技术根据说话人的性别年龄,仅仅将说话人分为(未成年男女<18)、(18=<成年男女<55)、(老年男女>=55)共六个分类,以提高识别度。

【技术实现步骤摘要】
一种基于残差网络及融合特征的说话人年龄性别分类方法
本专利技术属于声纹识别
,尤其涉及一种基于残差网络及融合特征的说话人年龄性别分类方法。
技术介绍
随着深度神经网络应用于声纹识别领域,声纹识别技术取得了较大的突破,逐步应用于实际场景,但相对于声纹识别技术,说话人性别年龄等属性分类的准确度还有待提高。当前对于说话人性别年龄分类主与声纹识别技术类似,主要是有传统的统计学方法和深度神经网络的方法,虽然在性别分类方面有较高的识别率,但由于说话人的语音特征与年龄的关系较复杂,年龄分类的准确度都不太高。当前说话人性别年龄识别有以下几点难点:一是由于年龄预估的不确定性,当前对说话人性别年龄分类的研究为了保证性别分类的准确性,大多数是将说话人性别和年龄分开识别,这增加了系统的开销以及实际应用的难度;二是难以找到可以完全表征说话人性别和年龄的特征参数,这也增加了说话人性别年龄识别的难度;三是传统统计学方法的局限性,不能从大量的语音数据中准确地提取出说话人性别年龄的语音特征;四是语音数据集的缺失,目前想要进行说话人性别年龄识别,大部分需要自己采集语音数据,而由于采集设备的差异,也会导致识别结果有差异。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于残差网络及融合特征的说话人年龄性别分类方法,以实现对说话人性别年龄的识别分类。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种基于残差网络及融合特征的说话人年龄性别分类方法,包括以下步骤:S1、对输入的语音数据进行预处理,并提取混合特征参数;S2、利用所述混合特征参数对残差网络进行训练;S3、利用经训练好的残差网络对说明人年龄性别进行分类。本专利技术的有益效果是:本专利技术提出了一种端到端的说话人性别年龄分类方法,同时实现说话人的性别和年龄分类,本专利技术采用端到端方式,将训练、识别分类结合,直接得到最终的分类结果,端到端的学习方式避免了多个模块训练的目标不一致而导致的偏差,又减少了工程的复杂度。进一步地,所述步骤S1包括以下步骤:S101、对输入的语音数据进行采样,并对其进行预处理;S102、根据所述预处理后的语音数据计算得到MFCC参数;S103、根据所述MFCC参数利用差分运算计算得到MFCC一阶差分;S104、提取语音数据的基频FO,并将所述MFCC参数以及MFCC一阶差分进行拼接,完成对混合特征参数的提取。上述进一步方案的有益效果是:本专利技术提出了MFCC+MFCC一阶差分+F0基频的复合特征,相较于当前所采用的如MFCC特征进行识别分类,融合了对说话人性别敏感的F0基频特征,提取更能表征说话人信息的语音特征。再进一步地,所述步骤S102包括以下步骤:S1021、将预处理后的语音数据进行预加重处理,提高语音的高频信息;S1022、将经预加重处理后的读音信息进行分帧处理;S1023、将分帧后的每一帧语音进行加窗处理,增加每一帧的左端和右端的连续性;所述进行加窗处理的表达式如下:S'(x)=S(x)*W(x,a)其中,S'(x)表示加窗处理,S(x)表示分帧后的语音信号,W(x,a)表示窗函数,X表示帧长,x表示0到X-1的自然数,a为常数;S1024、将经加窗处理后的每一帧进行傅里叶变换处理,使每帧的语音数据按时序连接成频谱;所述进行傅里叶变换处理的表达式如下:其中,Xa(k)表示进傅里叶变换处理,x(n)表示输入的语音数据,N表示傅里叶变换的点数,n表示0到N-1的自然数,k表示采样点的编号,j表示虚数;S1025、利用Mel滤波器组对所述频谱进行平滑处理,并将处理结果进行对数运算;所述Mel滤波器的表达式如下:其中,Hm(k)表示Mel滤波器,k表示采样点编号,fm表示第m个滤波器的中心频率,M表示滤波器个数;所述进行对数运算的表达式如下:其中,S(m)表示对数运算,N表示傅里叶变换的点数,k为自然数,Xa(k)表示傅里叶变换后的信号,Hm(k)表示第m个Mel滤波器,M表示滤波器个数;S1026、将对数运算结果经离散余弦变换得到MFCC参数;所述MFCC参数的表达式如下:其中,C(n)表示经离散余弦变换得到的MFCC参数,M表示三角滤波器个数,N表示傅里叶变换的点数,s(m)表示经过对数运算的信号,n为0到N-1的自然数。上述进一步方案的有益效果是:MFCC由于其优越性,被大量用于声纹识别领域,取得了较好的效果,并且在说话人年龄识别也有应用,结合其一阶差分,能够体现出语音得静态和动态特征,提高系统的识别性能,而基频F0与说话人性别有较大的区分性,本专利技术将MFCC参数和基频F0结合,将它们的复合特征作为说话人性别年龄分类的语音特征。再进一步地,所述步骤S103中MFCC一阶差分的表达式如下:其中,其中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,k为自然数,K表示一阶导数的时间差,Ct+k表示第t+k个倒谱系数,Q表示倒谱系数的阶数。上述进一步方案的有益效果是:标准的MFCC参数反映了语音参数的静态特征,可以用MFCC的一阶差分来描述其动态特征。再进一步地,所述步骤S104包括以下步骤:S1041、提取语音数据的基频FO,并将每一帧语音的基频FO标记为f,并将MFCC参数标记为n1,n2,n3,...,n13,将MFCC一阶差分标记为m1,m2,m3,...,m13;S1042、将基频FO、MFCC参数以及MFCC一阶差拼接为27维的新参数S,完成对混合特征参数的提取,其中,S={n1,n2,n3,...,n13,m1,m2,m3,...,m13,f},S表示每一帧语音的新特征。上述进一步方案的有益效果是:基频F0与说话人性别有较大的区分性,本专利技术将MFCC参数和基频F0结合,将它们的复合特征作为说话人性别年龄分类的语音特征。再进一步地,所述步骤S2包括以下步骤:S201、构建残差网络,并初始化连接权值;S202、将提取的混合特征参数依次输入至残差网络中的四个残差层中;S203、利用三元组损失作为残差网络的损失函数;S204、由残差层输入一个512维的特征向量,并利用全连接层整合四个残差层的特征信息以及利用采样层输出结果,完成对残差网络的训练。上述进一步方案的有益效果是:本专利技术采用卷积残差网络训练说话人性别年龄识别模型。残差网络解决了深度神经网络中,因为网络层次的加深导致的梯度爆炸和消失,使得在训练中能够使用更深的网络,提取出更深层的语音特征,从而提高识别的准确度。再进一步地,所述残差网络包括依次连接的第一残差层、第二残差层、第三残差层、第四残差层、全连接层以及采样层;所述四个残差层均由一个卷积层和若干个残差块组成。上述进一步方案的有益效果是:使用tri本文档来自技高网...

【技术保护点】
1.一种基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,包括以下步骤:/nS1、对输入的语音数据进行预处理,并提取混合特征参数;/nS2、利用所述混合特征参数对残差网络进行训练;/nS3、利用经训练好的残差网络对说明人年龄性别进行分类。/n

【技术特征摘要】
1.一种基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,包括以下步骤:
S1、对输入的语音数据进行预处理,并提取混合特征参数;
S2、利用所述混合特征参数对残差网络进行训练;
S3、利用经训练好的残差网络对说明人年龄性别进行分类。


2.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S1包括以下步骤:
S101、对输入的语音数据进行采样,并对其进行预处理;
S102、根据所述预处理后的语音数据计算得到MFCC参数;
S103、根据所述MFCC参数利用差分运算计算得到MFCC一阶差分;
S104、提取语音数据的基频FO,并将所述MFCC参数以及MFCC一阶差分进行拼接,完成对混合特征参数的提取。


3.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S102包括以下步骤:
S1021、将预处理后的语音数据进行预加重处理,提高语音的高频信息;
S1022、将经预加重处理后的读音信息进行分帧处理;
S1023、将分帧后的每一帧语音进行加窗处理,增加每一帧的左端和右端的连续性;所述进行加窗处理的表达式如下:
S'(x)=S(x)*W(x,a)



其中,S'(x)表示加窗处理,S(x)表示分帧后的语音信号,W(x,a)表示窗函数,X表示帧长,x表示0到X-1的自然数,a为常数;
S1024、将经加窗处理后的每一帧进行傅里叶变换处理,使每帧的语音数据按时序连接成频谱;所述进行傅里叶变换处理的表达式如下:



其中,Xa(k)表示傅里叶变换处理,x(n)表示输入的语音数据,N表示傅里叶变换的点数,n为0到N-1的自然数,k表示采样点的编号,j表示虚数;
S1025、利用Mel滤波器组对所述频谱进行平滑处理,并将处理结果进行对数运算;
所述Mel滤波器的表达式如下:






其中,Hm(k)表示Mel滤波器,k表示采样点编号,fm表示第m个滤波器的中心频率,M表示滤波器个数;
所述进行对数运算的表达式如下:



其中,S(m)表示对数运算,N表示傅里叶变换的点数,k表示采样点编号,Xa(k)表示傅里叶变换后的信号,Hm(k)表示第m个Mel滤波器,M表示滤波器个数;
S1026、将对数运算结果经离散余弦变换得到MFCC参数;
所述MFCC参数的表达式如下:



其中,C(n)表示经离散余弦变换得到的MFCC参数,M表示滤波器个数,N表示傅里叶变换的点数,s(m)表示经过对数运算的信号,n为0到N-1的自然数。


4.根据权利要求2所述的基于残...

【专利技术属性】
技术研发人员:文军汪伟宋文豪
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1