一种基于性别和语言的说话人识别方法及系统技术方案

技术编号：33133264 阅读：30 留言：0更新日期：2022-04-17 00:54

本发明专利技术公开了一种基于性别和语言的说话人识别方法及系统，属于说话人识别领域。包括：获取待识别语音数据，具体为包含有效说话人音频的音频文件；将音频文件通过降噪处理得到低噪声的语音音频；将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图；将语音频谱特征图输入ResNet模型中得到语音特征向量；将语音特征向量输入到多目标学习模型中，识别得到说话人身份、说话人性别以及说话人使用的语言信息；通过将三个识别任务结果进行加权融合，得到待识别语音数据对应的说话人识别结果。本发明专利技术综合利用了语音中带有的性别信息和语言信息，有效的提高了说话认识别的鲁棒性，特别是在说话人语音变化的情况下，识别精度高。识别精度高。识别精度高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于性别和语言的说话人识别方法及系统

[0001]本专利技术涉及说话人识别领域，尤其涉及一种基于性别和语言的说话人识别方法及系统。

技术介绍

[0002]随着人工智能的不断发展，越来越多的智能身份识别技术被应用在了生活中，包括了人脸识别、指纹识别以及近些年来兴起的声纹识别。声纹识别又称为说话人识别，通过分析一段音频内容来识别该音频是属于哪一位说话人的。说话人可以被用来进行身份认证，因为其便捷的特性而被广泛关注。
[0003]现有技术中，对于说话人识别的方法大多关注单一因素即说话人本身的识别，这种方式要求说话人在注册声纹以及识别声纹两个阶段，需要保持说话的方式相似，当说话人使用不同音调时，会导致识别准确度下降。

技术实现思路

[0004]本专利技术要解决的技术问题，在于提供一种基于性别和语言的说话认识别方法及系统，结合语音内容中包含的性别信息以及语言信息进行说话人识别，解决当语言音调变化情况下，单一因素识别方法的准确率下降的技术问题。
[0005]为实现上述目的，本专利技术采用下述技术方案：
[0006]本专利技术的第一个目的在于提供一种基于性别和语言的说话人识别方法，所述方法包括：
[0007]获取待识别语音数据，所述的语音数据为包含有效说话人音频的wav格式的音频文件；
[0008]将音频文件通过降噪处理得到低噪声的语音音频；
[0009]将语音音频通过SMAC特征提取得到语音频谱特征图；
[0010]将语音频谱特征图输入ResNet模型中

【技术保护点】

【技术特征摘要】
1.一种基于性别和语言的说话人识别方法，其特征在于，包括：获取待识别语音数据，所述的语音数据为包含有效说话人音频的音频文件；将音频文件通过降噪处理得到低噪声的语音音频；将降噪后的语音音频通过SMAC特征提取得到语音频谱特征图；将语音频谱特征图输入ResNet模型中得到语音特征向量；将语音特征向量输入到多目标学习模型中，识别得到说话人身份、说话人性别以及说话人使用的语言信息；通过将识别得到的说话人身份、说话人性别以及说话人使用的语言信息进行加权融合，得到待识别语音数据对应的说话人识别结果。2.根据权利要求1所述的一种基于性别和语言的说话人识别方法，其特征在于，所述的SMAC特征提取方法为：将语音音频通过滤波器处理：x
q
(ω，t)＝x(ω，t)H
q
(ω)q＝1,2,...，Q其中，t表示在第t时刻，ω是频谱的自变量，X(ω,t)表示的第t时刻不同频率下的信息强度；H
q
(ω)表示第q个滤波器，α表示控制滤波器带宽宽度的参数，ω
q
是第q个滤波器的中心频率，Q是滤波器的数量；X
q
(ω,t)表示第q个滤波器的滤波结果；计算滤波结果的0阶中心矩和1阶中心矩：其中，m表示中心距的阶数，M
m
(q,t)表示滤波结果的m阶中心矩；将1阶中心矩和0阶中心矩的比值作为语音频谱特征：其中，R1(q,t)表示第q个语音频谱特征，Q个语音频谱特征构成语音频谱特征图。3.根据权利要求1所述的一种基于性别和语言的说话人识别方法，其特征是，所述的多目标学习模型包含三个识别任务：说话人身份识别、说话人性别识别以及说话人使用的语言信息识别，由N层共享层和三层隐含层构成；所述的N层共享层依次连接，在训练过程中，共享层的参数受三个任务的识别结果影响；三层隐含层的输入分别连接第N层共享层的输出，三层隐含层的输出分别为说话人身份、说话人性别以及说话人使用的语言信息识别结果，在训练过程中，隐藏层的参数只受到相应识别任务的影响。4...

【专利技术属性】
技术研发人员：徐文渊，冀晓宇，程雨诗，高逸卓，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人