当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于性别和语言的说话人识别方法及系统技术方案

技术编号:33133264 阅读:30 留言:0更新日期:2022-04-17 00:54
本发明专利技术公开了一种基于性别和语言的说话人识别方法及系统,属于说话人识别领域。包括:获取待识别语音数据,具体为包含有效说话人音频的音频文件;将音频文件通过降噪处理得到低噪声的语音音频;将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图;将语音频谱特征图输入ResNet模型中得到语音特征向量;将语音特征向量输入到多目标学习模型中,识别得到说话人身份、说话人性别以及说话人使用的语言信息;通过将三个识别任务结果进行加权融合,得到待识别语音数据对应的说话人识别结果。本发明专利技术综合利用了语音中带有的性别信息和语言信息,有效的提高了说话认识别的鲁棒性,特别是在说话人语音变化的情况下,识别精度高。识别精度高。识别精度高。

【技术实现步骤摘要】
一种基于性别和语言的说话人识别方法及系统


[0001]本专利技术涉及说话人识别领域,尤其涉及一种基于性别和语言的说话人识别方法及系统。

技术介绍

[0002]随着人工智能的不断发展,越来越多的智能身份识别技术被应用在了生活中,包括了人脸识别、指纹识别以及近些年来兴起的声纹识别。声纹识别又称为说话人识别,通过分析一段音频内容来识别该音频是属于哪一位说话人的。说话人可以被用来进行身份认证,因为其便捷的特性而被广泛关注。
[0003]现有技术中,对于说话人识别的方法大多关注单一因素即说话人本身的识别,这种方式要求说话人在注册声纹以及识别声纹两个阶段,需要保持说话的方式相似,当说话人使用不同音调时,会导致识别准确度下降。

技术实现思路

[0004]本专利技术要解决的技术问题,在于提供一种基于性别和语言的说话认识别方法及系统,结合语音内容中包含的性别信息以及语言信息进行说话人识别,解决当语言音调变化情况下,单一因素识别方法的准确率下降的技术问题。
[0005]为实现上述目的,本专利技术采用下述技术方案:
[0006]本专利技术的第一个目的在于提供一种基于性别和语言的说话人识别方法,所述方法包括:
[0007]获取待识别语音数据,所述的语音数据为包含有效说话人音频的wav格式的音频文件;
[0008]将音频文件通过降噪处理得到低噪声的语音音频;
[0009]将语音音频通过SMAC特征提取得到语音频谱特征图;
[0010]将语音频谱特征图输入ResNet模型中得到语音特征向量;
[0011]将语音特征向量输入到多目标学习模型中,识别得到说话人身份、说话人性别以及说话人使用的语言信息;
[0012]通过将识别得到的说话人身份、说话人性别以及说话人使用的语言信息进行加权融合,得到待识别语音数据对应的说话人识别结果。
[0013]进一步的,所述的多目标学习模型包含三个识别任务:说话人身份识别、说话人性别识别以及说话人使用的语言信息识别,由N层共享层、三层隐含层和一层融合层构成;
[0014]所述的N层共享层依次连接,在训练过程中,共享层的参数受三个任务的识别结果影响;三层隐含层的输入分别连接第N层共享层的输出,三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果,在训练过程中,隐藏层的参数只受到相应识别任务的影响;
[0015]所述的融合层用于融合三个识别任务的输出结果,每一个识别任务的输出结果设
有可训练权重参数,融合层将三个识别任务的加权结果作为最终识别结果。
[0016]本专利技术的第二个目的在于提供一种基于性别和语言的说话人识别系统,用于实现上述的说话人识别方法;所述系统包括:
[0017]声音采集模块,用于采集说话人的语音音频数据;
[0018]音频滤波模块,用于对采集的语音音频数据进行滤波,消除噪音;
[0019]说话人识别模块,用于对滤波处理后的语音音频数据进行说话人识别;
[0020]识别结果展示模块,用于将识别结果进行可视化处理。
[0021]本专利技术的有益效果在于:本专利技术综合利用了语音中带有的性别信息和语言信息,有效的提高了说话认识别的鲁棒性,特别是在说话人语音变化的情况下,识别精度高。
附图说明
[0022]图1为本专利技术提供的一种基于性别和语言的说话人识别方法及系统的流程框图。
[0023]图2为本专利技术提供的一个示例中说话人识别框架的结构示意图。
[0024]图3为本专利技术提供的一种基于语音和文字的说话人识别系统的示意图。
具体实施方式
[0025]下面结合附图对专利技术的技术框架进行说明。
[0026]现有技术中,对于说话人识别的方法大多关注单一因素即说话人本身的识别,这种方式要求说话人在注册声纹以及识别声纹两个阶段,需要保持说话的方式相似,当说话人使用不同音调时,会导致识别准确度下降。
[0027]为了能够解决现有技术中大多数基于单一因素即说话人本身的识别,导致说话人识别鲁棒性较低的技术问题,本专利技术实施例提供一种基于性别和语言的说话人识别方法及系统。
[0028]以下结合附图,详细说明本专利技术中各实施例提供的技术方案。
[0029]一种基于语音和文字的说话人识别方法,如附图1所示,所述方法包括:
[0030]步骤S101,获取待识别语音的数据。
[0031]所述的语音数据为包含有效说话人音频的wav格式的音频文件。
[0032]步骤S102,将音频文件通过降噪处理得到低噪声的语音音频,将降噪后的语音音频通过频谱转换得到语音频谱特征图;
[0033]步骤S103,将语音频谱特征图输入ResNet模型中得到语音特征向量;
[0034]步骤S104,将语音特征向量输入到多目标学习模型中,识别得到说话人身份、说话人性别以及说话人使用的语言信息;
[0035]针对步骤S104,在一个示例中,如附图2所示,该多目标学习模型的模型框架包括多个识别任务:说话人识别(主要任务),性别识别以及语言识别,通过引入多个辅助的识别因素来提高说话人识别的准确性。另外,框架包含一组共享层,其中共享层中的参数为多个识别任务所共有的,体现在训练的过程中,每个识别任务都可以对该模型下的共享层的参数进行优化。框架包含多个任务特有的隐含层,隐含层是每个识别任务所特有的,体现在训练的过程中,只有相应的识别任务的结果才能影响隐含层的参数。
[0036]步骤S105,通过将识别得到说话人身份、说话人性别以及说话人使用的语言信息
进行加权融合得到待识别语音的说话人识别结果。本实施例中,通过在上述的多目标学习模型三个隐含层之后引入融合层实现,所述的融合层用于融合三个识别任务的输出结果,每一个识别任务的输出结果设有可训练权重参数,融合层将三个识别任务的加权结果作为最终识别结果。
[0037]在三者识别结果融合过程中选择最优的权重系数组合,该权重系数组合是在模型训练时测试不同权重系数组合的准确度,选择最高准确度的一组为最终的权重系数。权重系数受到识别任务的识别分辨率以及副任务与主要任务的相对关系影响。
[0038]在本专利技术的一项具体实施中,所述的语音频谱特征图由语音的SMAC特征构成,所述的SMAC特征提取方法为:
[0039]将语音音频通过滤波器处理:
[0040][0041]X
q
(ω,t)=X(ω,t)H
q
(ω)
[0042]q=1,2,...,Q
[0043]其中,t表示在第t帧时刻,ω是频谱的自变量,X(ω,t)表示的第t帧时刻频率为ω时的信息强度;H
q
(ω)表示第q个滤波器,α表示控制滤波器带宽宽度的参数,ωq是第q个滤波器的中心频率,Q是滤波器的数量,X
q
(ω,t)表示第q个滤波器的滤波结果。
[0044]计算滤波结果的0阶中心矩和1阶中心矩:...

【技术保护点】

【技术特征摘要】
1.一种基于性别和语言的说话人识别方法,其特征在于,包括:获取待识别语音数据,所述的语音数据为包含有效说话人音频的音频文件;将音频文件通过降噪处理得到低噪声的语音音频;将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图;将语音频谱特征图输入ResNet模型中得到语音特征向量;将语音特征向量输入到多目标学习模型中,识别得到说话人身份、说话人性别以及说话人使用的语言信息;通过将识别得到的说话人身份、说话人性别以及说话人使用的语言信息进行加权融合,得到待识别语音数据对应的说话人识别结果。2.根据权利要求1所述的一种基于性别和语言的说话人识别方法,其特征在于,所述的SMAC特征提取方法为:将语音音频通过滤波器处理:x
q
(ω,t)=x(ω,t)H
q
(ω)q=1,2,...,Q其中,t表示在第t时刻,ω是频谱的自变量,X(ω,t)表示的第t时刻不同频率下的信息强度;H
q
(ω)表示第q个滤波器,α表示控制滤波器带宽宽度的参数,ω
q
是第q个滤波器的中心频率,Q是滤波器的数量;X
q
(ω,t)表示第q个滤波器的滤波结果;计算滤波结果的0阶中心矩和1阶中心矩:其中,m表示中心距的阶数,M
m
(q,t)表示滤波结果的m阶中心矩;将1阶中心矩和0阶中心矩的比值作为语音频谱特征:其中,R1(q,t)表示第q个语音频谱特征,Q个语音频谱特征构成语音频谱特征图。3.根据权利要求1所述的一种基于性别和语言的说话人识别方法,其特征是,所述的多目标学习模型包含三个识别任务:说话人身份识别、说话人性别识别以及说话人使用的语言信息识别,由N层共享层和三层隐含层构成;所述的N层共享层依次连接,在训练过程中,共享层的参数受三个任务的识别结果影响;三层隐含层的输入分别连接第N层共享层的输出,三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果,在训练过程中,隐藏层的参数只受到相应识别任务的影响。4...

【专利技术属性】
技术研发人员:徐文渊冀晓宇程雨诗高逸卓
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1