【技术实现步骤摘要】
一种基于残差网络及融合特征的说话人年龄性别分类方法
本专利技术属于声纹识别
,尤其涉及一种基于残差网络及融合特征的说话人年龄性别分类方法。
技术介绍
随着深度神经网络应用于声纹识别领域,声纹识别技术取得了较大的突破,逐步应用于实际场景,但相对于声纹识别技术,说话人性别年龄等属性分类的准确度还有待提高。当前对于说话人性别年龄分类主与声纹识别技术类似,主要是有传统的统计学方法和深度神经网络的方法,虽然在性别分类方面有较高的识别率,但由于说话人的语音特征与年龄的关系较复杂,年龄分类的准确度都不太高。当前说话人性别年龄识别有以下几点难点:一是由于年龄预估的不确定性,当前对说话人性别年龄分类的研究为了保证性别分类的准确性,大多数是将说话人性别和年龄分开识别,这增加了系统的开销以及实际应用的难度;二是难以找到可以完全表征说话人性别和年龄的特征参数,这也增加了说话人性别年龄识别的难度;三是传统统计学方法的局限性,不能从大量的语音数据中准确地提取出说话人性别年龄的语音特征;四是语音数据集的缺失,目前想要进行说话人性别年龄识别,大部分需要自己采集语音数据,而由于采集设备的差异,也会导致识别结果有差异。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于残差网络及融合特征的说话人年龄性别分类方法,以实现对说话人性别年龄的识别分类。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种基于残差网络及融合特征的说话人年龄性别分类方法,包括以下步骤:S1、对输入的语 ...
【技术保护点】
1.一种基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,包括以下步骤:/nS1、对输入的语音数据进行预处理,并提取混合特征参数;/nS2、利用所述混合特征参数对残差网络进行训练;/nS3、利用经训练好的残差网络对说明人年龄性别进行分类。/n
【技术特征摘要】
1.一种基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,包括以下步骤:
S1、对输入的语音数据进行预处理,并提取混合特征参数;
S2、利用所述混合特征参数对残差网络进行训练;
S3、利用经训练好的残差网络对说明人年龄性别进行分类。
2.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S1包括以下步骤:
S101、对输入的语音数据进行采样,并对其进行预处理;
S102、根据所述预处理后的语音数据计算得到MFCC参数;
S103、根据所述MFCC参数利用差分运算计算得到MFCC一阶差分;
S104、提取语音数据的基频FO,并将所述MFCC参数以及MFCC一阶差分进行拼接,完成对混合特征参数的提取。
3.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S102包括以下步骤:
S1021、将预处理后的语音数据进行预加重处理,提高语音的高频信息;
S1022、将经预加重处理后的读音信息进行分帧处理;
S1023、将分帧后的每一帧语音进行加窗处理,增加每一帧的左端和右端的连续性;所述进行加窗处理的表达式如下:
S'(x)=S(x)*W(x,a)
其中,S'(x)表示加窗处理,S(x)表示分帧后的语音信号,W(x,a)表示窗函数,X表示帧长,x表示0到X-1的自然数,a为常数;
S1024、将经加窗处理后的每一帧进行傅里叶变换处理,使每帧的语音数据按时序连接成频谱;所述进行傅里叶变换处理的表达式如下:
其中,Xa(k)表示傅里叶变换处理,x(n)表示输入的语音数据,N表示傅里叶变换的点数,n为0到N-1的自然数,k表示采样点的编号,j表示虚数;
S1025、利用Mel滤波器组对所述频谱进行平滑处理,并将处理结果进行对数运算;
所述Mel滤波器的表达式如下:
其中,Hm(k)表示Mel滤波器,k表示采样点编号,fm表示第m个滤波器的中心频率,M表示滤波器个数;
所述进行对数运算的表达式如下:
其中,S(m)表示对数运算,N表示傅里叶变换的点数,k表示采样点编号,Xa(k)表示傅里叶变换后的信号,Hm(k)表示第m个Mel滤波器,M表示滤波器个数;
S1026、将对数运算结果经离散余弦变换得到MFCC参数;
所述MFCC参数的表达式如下:
其中,C(n)表示经离散余弦变换得到的MFCC参数,M表示滤波器个数,N表示傅里叶变换的点数,s(m)表示经过对数运算的信号,n为0到N-1的自然数。
4.根据权利要求2所述的基于残...
【专利技术属性】
技术研发人员:文军,汪伟,宋文豪,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。