【技术实现步骤摘要】
一种语音性别识别方法、装置及计算设备
本专利技术涉及语音处理领域,特别涉及一种语音性别识别方法、装置及计算设备。
技术介绍
声纹识别(Voiceprintrecognition,VPR)又称说话人识别(Speakerrecognition,SRE),是一项根据说话人语音信号中反映说话人生理和行为特征的语音参数(“声纹”)自动识别说话人身份的技术。说话人性别识别是声纹识别的一个重要领域,是一项基于说话人的声学特征识别说话人性别的技术。电话咨询服务例如400电话,目前广泛用于企业售前售后,在服务客户的过程中,企业会积累大量的高价值数据来构建用户画像。通过用户画像,企业可进行针对性地广告投放,做到精准营销,提升广告转化率。其中,用户性别信息对于用户画像的构建是至关重要的,对于通话用户的性别信息进行标注往往需要投入大量的人工成本,通过声纹识别技术对用户通话语音进行自动化实时性别识别可以帮助企业提升工作效率,节约人工标注成本。目前的电话语音性别自动化识别首先将通话录音保存下来,然后通过音频信号处理或者深度学习的方法对保 ...
【技术保护点】
1.一种语音性别识别方法,在计算设备中执行,并包括如下步骤:/n获取待识别的语音数据;/n对所述语音数据进行特征提取,得到所述语音数据的声学特征;/n将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;/n基于所述高斯混合分布提取所述语音数据的均值超矢量;/n对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;/n将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。/n
【技术特征摘要】
1.一种语音性别识别方法,在计算设备中执行,并包括如下步骤:
获取待识别的语音数据;
对所述语音数据进行特征提取,得到所述语音数据的声学特征;
将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;
基于所述高斯混合分布提取所述语音数据的均值超矢量;
对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;
将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
2.如权利要求1所述的方法,其中,所述获取待识别的语音数据,包括:
对语音流进行端点检测,根据端点检测结果从所述语音流中截取预定时长的连续语音,作为待识别的语音数据。
3.如权利要求1或2所述的方法,其中,所述对所述语音数据进行特征提取,得到所述语音数据的声学特征,包括:
对所述语音数据进行预加重、分帧和加窗处理;
对加窗后的每个语音帧进行离散傅里叶变换,得到各语音帧的频谱;
从各语音帧的频谱中提取梅尔标度滤波器组FBANK特征,并对FBANK特征进行离散余弦变换,得到梅尔倒谱系数MFCC特征;
将所有语音帧的MFCC特征构造为特征序列,并将该特征序列作为所述语音数据的声学特征。
4.如权利要求3所述的方法,其中,在将所有语音帧的MFCC特征构造为特征序列之前,还包括:
计算各语音帧的能量值;
将各语音帧的MFCC特征的第一个系数,替换为该语音帧的能量值。
5.如权利要求1至4中任一项所述的方法,其中,所述对所述均值超矢量进行因子分析,得到所述语音数据的降维特征,包括:
...
【专利技术属性】
技术研发人员:王佳琦,张丽娜,
申请(专利权)人:北京皮尔布莱尼软件有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。