一种基于知识蒸馏的文本无关说话人确认方法技术

技术编号:32829774 阅读:31 留言:0更新日期:2022-03-26 20:40
本发明专利技术公开了一种基于知识蒸馏的文本无关说话人确认方法,步骤为:数据预处理,其由数据准备和数据封装两部分组成;特征提取,其由音频读取、信号预加重、特征转换、样本归一化四部分组成;学生模型设计,其由学生模型网络结构设计以及训练算法部分组成;模型性能评估,对设计的学生模型进行性能评估,通过直观的计算教师学生网络输出的speaker embedding间的余弦相似度来指导学生模型训练,使用ERR对学生模型进行性能评估。本发明专利技术可以有效的利用教师模型得到的先验知识指导学生网络进行训练,使得模型参数量较小的学生模型在模型参数量较大的教师网络的指导下达到接近于教师网络性能的目的,从而实现对说话人确认模型进行参数压缩的目的。数压缩的目的。数压缩的目的。

【技术实现步骤摘要】
一种基于知识蒸馏的文本无关说话人确认方法


[0001]本专利技术涉及一种基于知识蒸馏的文本无关说话人确认方法。

技术介绍

[0002]近年来,以声纹识别、人脸识别为代表的生物特征识别技术逐渐成为主流。其中,说话人识别(Speaker recognition,SR)技术能实现无接触式识别,文本无关说话人确认 (Text

independent speaker verification)是一种判决给定一段无内容限制语音是否对应目标说话人的技术。
[0003]从2010年开始,深度学习的蓬勃发展引起了说话人识别领域学者的关注,利用深度神经网络(Deep neural network,DNN)提取说话人特征逐渐成为主流。Chen.N等人提出身份

向量(i

vector)模型,将说话人模型映射到低维子空间,克服了以往系统中高斯分量相互独立的限定,提升了系统性能。2014年,E.Variani等人通过DNN提取频谱图的特征,将提取到的向量命名为d

vector。将一段语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的文本无关说话人确认方法,其特征在于,包括以下步骤:步骤1:数据预处理,其由数据准备和数据封装两部分组成;步骤2:特征提取,其由音频读取、信号预加重、特征转换、样本归一化四部分组成;步骤3:学生模型设计,其由学生模型网络结构设计以及训练算法部分组成;步骤4:模型性能评估,对设计的学生模型进行性能评估,通过直观的计算教师学生网络输出的speaker embedding间的余弦相似度来指导学生模型训练,使用ERR对学生模型进行性能评估。2.如权利要求1所述的基于知识蒸馏的文本无关说话人确认方法,其特征在于,在步骤1中,数据准备阶段包括对Voxceleb1数据集下载以及对Voxceleb1数据集进行训练集和测试集的划分,将说话人中不以字母“E”开头的说话人语音用作开发集数据,以字母“E”开头的说话人语音作为评估集数据,其中包含4...

【专利技术属性】
技术研发人员:汪澜李俊义
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1