当前位置: 首页 > 专利查询>新疆大学专利>正文

一种面向大规模说话人识别的方法和系统技术方案

技术编号:43876877 阅读:34 留言:0更新日期:2024-12-31 18:59
本发明专利技术提出一种面向大规模说话人识别的方法和系统。通过使用动态全连接层替换说话人识别任务中用于分类的使用独热编码的全连接层,解决大规模说话人识别任务训练过程中硬件资源受限和训练时间花费多的问题。它的使用包含以下步骤:1、对提取的音频特征进行不同的数据增强,分别送进结构相同的训练网络和前向网络。训练网络提取声纹特征矢量,前向网络生成伪身份中心。前向网络使用动量更新的方式更新参数。2、数据通过前向网络后使用一个动态类队列存储伪身份中心,然后计算声纹特征矢量和动态类队列中的伪身份中心的内积得到logits。动态类队列大小是一个超参数,可以设置为远小于数据集中说话人数目的数值实现内存和时间的节省。

【技术实现步骤摘要】

本专利技术属于说话人识别领域,特别地涉及面向大规模说话人识别的方法和系统


技术介绍

1、说话人识别任务是通过对说话人语音进行提取和分析,对个体身份进行识别的一种生物特征识别技术。最近几年,深度神经网络(比如:tdnn、resnet、ecapa-tdnn以及mfa-conformer等)在说话人识别任务中取得了巨大进展,不断提升系统性能。

2、对于应用到说话人识别任务的模型来说,通常采用x-vector网络框架,主要包括帧级别特征学习模块、池化模块、段级别特征学习模块和损失函数四个部分。在段级别模块中通常包含两个全连接层,第一个全连接层输出一个固定维度的声纹特征矢量,用于推理阶段说话人之间的区分,第二个全连接层主要用于有标签的说话人计算损失,该全连接层需要训练的参数维度为m×n,其中,m为模型训练过程中的声纹特征矢量的维度,n为数据集中的说话人数目。使用大规模说话人识别数据集会提升系统性能和使得模型的泛化性更优。但随之而来,大规模说话人数目会使得模型中用于分类的采用独热编码的全连接层(即第二个全连接层)参数数目呈线性增长。当数据集中包含百万甚至本文档来自技高网...

【技术保护点】

1.本专利技术提出一种面向大规模说话人识别的方法和系统,其特征在于,使用对比学习的方法,选取正负样本对送到网络训练,并使用一个动态类队列存储特征,通过控制动态类队列的大小,可以减少全连接层的参数数目,实现模型训练过程中内存和时间的节省。

2.根据权利要求1所述的面向大规模说话人识别的方法和系统,其特征在于采用不同的数据增强方式产生正负样本对进行模型的训练。

3.根据权利要求1所述的面向大规模说话人识别的方法和系统,其特征在于使用对比学习的方法,它包括两个网络训练网络和前向网络,两个网络结构相同,由深度神经网络(TDNN、ResNet、ECAPA-TDNN或MFA-...

【技术特征摘要】

1.本发明提出一种面向大规模说话人识别的方法和系统,其特征在于,使用对比学习的方法,选取正负样本对送到网络训练,并使用一个动态类队列存储特征,通过控制动态类队列的大小,可以减少全连接层的参数数目,实现模型训练过程中内存和时间的节省。

2.根据权利要求1所述的面向大规模说话人识别的方法和系统,其特征在于采用不同的数据增强方式产生正负样本对进行模型的训练。

3.根据权利要求1所述的面向大规模说话人识别的方法和系统,其特征在于使用对比学习的方法,它包括两个网络训练网络和前向网络,两个网络结构相同,由深度神经网络(tdnn、resnet、ecapa-tdnn或mfa-conformer等)、池化层(注意力统计池化等)以及一个全连接层组成。采用动量更新的方式利用训练网络中参数更新...

【专利技术属性】
技术研发人员:何亮宋志达郭晓晨
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1