基于语音图谱和深度学习的实时性别识别方法技术

技术编号:22058710 阅读:23 留言:0更新日期:2019-09-07 16:34
本发明专利技术涉及语音识别领域,尤其涉及于语音图谱和深度学习的实时性别识别方法,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。本发明专利技术针对语音可以实时性别识别,同时提升了性别识别的准确率。

Real-time gender recognition based on speech atlas and in-depth learning

【技术实现步骤摘要】
基于语音图谱和深度学习的实时性别识别方法
本专利技术涉及语音识别领域,尤其涉及基于语音图谱和深度学习的实时性别识别方法。
技术介绍
随着大数据和深度学习技术的发展,语音识别和声纹识别越来越多的运用于各行各业,包括目标任务确认,语音开锁,智能语音机器人等行业,还包括智能人机交互,声控机器人,智能家居语音唤醒等,随着深度学习技术的不断发展,声纹识别和语音识别技术已经出现了很多影响人们生活的产品,越来越大的影响了人类生活。而在性别识别这块也有一些传统的方法尝试,例如:直接基于声音的基音频率差异,按男女不同范围的基音频率识别男女;采用多个传统模型融合的方式去实现,特征不断变换多个融合模型共同发挥作用。但是这些方法存在以下问题:基音频率差异这种方式,因为男女本身的基音频率就存在交叉,而且由于个体的特殊性导致准确率特别低;多模型融合方式的过程往往特别复杂,模型可解释性不强,而且预测时间特别长,没办法做到实时的性别识别;对话的音频信息往往含有一些外界噪音和背景音,或者是第二个人的说话信息以上方法在这个场景下准确率低下;对话中含有大量的静音部分(包括对话中单声道填充和对话人本身的停顿部分),会影响识别的准确率。
技术实现思路
为解决上述问题,本专利技术提出涉及基于语音图谱和深度学习的实时性别识别方法。基于语音图谱和深度学习的实时性别识别方法,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。优选的,所述基于深度学习算法建立模型包括以下步骤:S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。优选的,所述语音图谱包括若干个768*32的二维数字矩阵。优选的,所述语音图谱包括音频流的频域和时域信息。本专利技术具备以下有益效果:1.本专利技术通过VAD切除静音部分,提升了性别识别的准确率;2.本专利技术采用语音图谱和深度学习结合的方案,利用迁移学习重新训练resnet网络,结合多个语音图谱综合计算概率的方式大大简化了整个识别过程;3.在通话过程中,每一句话的实时识别,可以识别出一通对话中出现男女多个人的识别。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1是本专利技术一实施例一种涉及于语音图谱和深度学习的实时性别识别方法的流程示意图;图2是本专利技术一实施例一种涉及于语音图谱和深度学习的实时性别识别方法中步骤S1的流程示意图。具体实施方式以下结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。基于以上构思及技术,本专利技术实施例提出一种涉及基于语音图谱和深度学习的实时性别识别方法,如图1所示,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或语音识别)。在本实施例中,基于深度学习算法建立模型,基于建立的模型来实现语音性别识别。具体的,如图2,包括以下步骤:S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;S12:对语音图谱作归一化和正则化处理,保存样本集合的均值和方差信息;S13:将训练集合输入给下游的resnet网络,重新训练网络最后一层和softmax层,多次循环,不断拟合神经网络的相关参数,直到损失达到阀值或者迭代次数达到预设值;S14:用测试集合进行测试,若模型准确度达到预期值,则输出模型,否则调整参数或者样本信息重新训练模型。为实现语音对话过程中性别的实时识别,因此需要在语音的对话过程中实时获取音频流。基于语音对话过程中存在静音部分,因此需要将静音部分切除以排除干扰,以提高本方法的识别准确度。在本实施例中,将获取的音频流通过VAD切除静音部分。VAD的全称是:VoiceActivityDetection(语音激活检测),能够区分传输语音信号中的语音信号和背景噪音,当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音。在切除静音部分之后,通过fbank提取音频的数字特征。具体包括以下步骤:S31:预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;S32:分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为32ms,帧移为16ms;S33:加窗:采用汉明窗对一帧语音加窗,以减小吉布斯效应的影响;S34:快速傅立叶变换(FastFourierTransformation,FFT):将时域信号变换成为信号的功率谱(频域信号);S35:梅尔滤波器组:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应。一般取40个三角滤波器,取对数后即40维fbank;S36:求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;S37:得到数字特征。将得到的数字特征转换成多个语音图谱,将多个语音图谱分别通过模型进行性别预测,得到性别识别结果。语音图谱包括若干个768*32的二维数字矩阵,同时包括音频流的频域和时域信息。最后按男女图谱计算概率,概率大于50%的类别即位最终的性别。本专利技术通过步骤S1中基于深度学习训练得到的模型,结合多个语音图谱综合计算概率的方式大大简化了整个识别过程,识别准确度高。本专利技术在实际应用中,可以通过智能终端采用pythonflask搭建web应用,然后加载模型文件,下载音频信息,vad切除静音,特征提取生成语音图谱,进行归一化和正则化,调用模型预测,按多个语音图谱的性别结果计算男女的概率,概率>50%即为男性,小于50%即为女性。本专利技术所属
的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本专利技术的精神或者超越所附权利要求书所定义的范围。本文档来自技高网
...

【技术保护点】
1.基于语音图谱和深度学习的实时性别识别方法,其特征在于,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。

【技术特征摘要】
1.基于语音图谱和深度学习的实时性别识别方法,其特征在于,包括以下步骤:S1:基于深度学习算法建立模型;S2:语音对话过程中实时获取音频流;S3:将获取的音频流通过VAD切除静音部分;S4:通过fbank提取音频的数字特征;S5:将数字特征转换成语音图谱,将语音图谱通过模型进行性别预测,得到性别识别结果。2.根据权利要求1所述的基于语音图谱和深度学习的实时性别识别方法,其特征在于,所述基于深度学习算法建立模型包括以下步骤:S11:语音图谱结合打标标签生成样本信息,按照设定比例划分训练集合和测试集合;S12:对语音图谱作归一化和正则化处理,...

【专利技术属性】
技术研发人员:王磊
申请(专利权)人:浙江百应科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1