一种基于联合模型的声纹属性识别训练方法和装置制造方法及图纸

技术编号:32132345 阅读:29 留言:0更新日期:2022-01-29 19:34
本发明专利技术公开了一种基于联合模型的声纹属性识别训练方法和装置,该方法包括获取带声纹属性标注的语音数据和带说话人标注的语音数据;对所述语音数据提取特征表示;构建基于说话人识别和声纹属性识别的联合模型;将所述带说话人标注的语音数据和带声纹属性标注的语音数据输入基于说话人识别和声纹属性识别的联合模型中进行训练,得到训练完备的联合模型。本发明专利技术提供的声纹属性识别训练方法可以有效利用带说话人标注的数据辅助声纹属性识别模型的训练,解决在具有声纹属性标记的数据不足的情况下,声纹属性识别模型无法拟合或训练效果欠佳的问题。本发明专利技术可以实现两个子模型之间的信息交互,从不同维度挖掘数据信息,增强模型效果。模型效果。模型效果。

【技术实现步骤摘要】
一种基于联合模型的声纹属性识别训练方法和装置


[0001]本专利技术涉及语音信号处理、声纹识别
,尤其涉及一种基于联合模型的声纹属性识别训练方法和装置。

技术介绍

[0002]随着人工智能技术的快速发展,越来越多融合了人工智能技术的产品出现在人们的日常生活中。其中,声纹信息作为重要的生物特征提供了用户身份信息及丰富的属性信息。声纹信息的挖掘和识别近年来也取得了良好的发展和广泛的应用,特别是在安防领域和智能设备产品上。其中,声纹属性信息广泛应用于用户画像、推荐系统、个性化定制等服务。
[0003]随着深度学习技术的发展,结构更复杂的神经网络通常可以取得更好的声纹属性识别效果。但是这类网络参数量巨大,需要大量带有声纹属性标记的数据用于训练和拟合。然而,带有声纹属性标注的数据往往难以获得。一旦用于模型训练的数据量无法达到一定的规模,模型的效果将会有明显下降。其次,由于噪音数据和标签错误等问题,直接将语音数据通过网络映射到属性标签,可能存在同一个说话人的声纹属性识别结果一致性较差的问题。而一致性较差问题将影响后续用户画像生成和推荐系统等应本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联合模型的声纹属性识别训练方法,其特征在于,包括:获取带声纹属性标注的语音数据和带说话人标注的语音数据;对所述语音数据提取特征表示;构建基于说话人识别和声纹属性识别的联合模型;将所述带说话人标注的语音数据和带声纹属性标注的语音数据输入基于说话人识别和声纹属性识别的联合模型中进行训练,得到训练完备的联合模型。2.根据权利要求1所述的一种基于联合模型的声纹属性识别训练方法,其特征在于,所述带声纹属性标注的语音数据和带说话人标注的语音数据为同样的语音数据附带不同的标注信息,或是不同的语音数据附带不同的标注信息。3.根据权利要求1所述的一种基于联合模型的声纹属性识别训练方法,其特征在于,所述属性标注包括:性别、年龄、地域、民族、口音、情绪。4.根据权利要求1所述的一种基于联合模型的声纹属性识别训练方法,其特征在于,所述获取带声纹属性标注的语音数据和带说话人标注的语音数据之后,还包括:对获取的数据进行数据增广,数据增广的方法包括在原数据上叠加噪音、混响,或者对数据进行拼接、截断、反转操作。5.根据权利要求1所述的一种基于联合模型的声纹属性识别训练方法,其特征在于,对所述语音数据提取特征表示的方法包括:提取梅尔频率倒谱系数,常数Q倒频谱系数,提取基于神经网络的嵌入表示。6.根据权利要求1所述的一种基于联合模型的声纹属性识别训练方法,其特征在于,构建基于说话人识别和声纹属性识别的联合模型的方法包括:构建特征提取模块、说话人识别模块、声纹属性识别模块以及一种连接说话人识别模块和声纹属性识别模块的信息交互机制;特征提取模块,对语音信号进行快速傅里叶变化,得到频谱特征,再进行归一化处理;说话人识别模块,包括残差网络、平均池化层和一个说话人分类器,通过残差网络生成多个通道来提取说话人特征,平均池化层对上一层输出进行降维,从而将特征表示为一个固定长度的向量,最终通过分类器预测说话人标签;声纹属性识别模块,包括残差网络、平均池化层和一个声纹属性分类器,通过残差网络提取声纹属性特征,平均池化层对上一层输出进行降维,最后通过分类器预测声纹属性标签;信息交互机制,将说话人识别模块隐藏层的输出连接到声纹属性识别模块的输入层,实现两个模块之间的信息交互和...

【专利技术属性】
技术研发人员:汪欣谢川展华益
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1