当前位置: 首页 > 专利查询>南京大学专利>正文

基于深度学习的文本无关多标号说话人识别方法技术

技术编号:25640032 阅读:124 留言:0更新日期:2020-09-15 21:31
本发明专利技术公开了一种基于深度学习的文本无关多标号说话人识别方法。该方法包括以下步骤:(1)将训练数据集中每个说话人的语音平均分成N份,每份标记上不同的标号;(2)构建相应的神经网络模型,并保证输出层维度与训练数据集标号数一致;(3)将训练数据输入神经网络,并将输出层结果与数据对应的标号相比较,求出交叉熵损失函数,从而进行训练;(4)将测试集数据按照步骤1中训练数据集对应关系为每个说话人的语音数据预设好N个视为有效识别的标号,将测试数据集数据输入神经网络,将模型预测出的标号与预设好的N个标号相比较,只要满足其中之一即为正确识别。本发明专利技术的方法能够有效提升模型在纯净以及含噪环境下的说话人识别性能。

【技术实现步骤摘要】
基于深度学习的文本无关多标号说话人识别方法
本专利技术涉及一种基于深度学习的文本无关多标号说话人识别方法。
技术介绍
说话人识别又称话者识别、声纹识别,其目标是从说话人的语音特征中确认说话人的身份。说话人识别又分为说话人辨认和说话人确认两个过程,说话人辨认是指通过对说话人对应的语音处理分析后,辨认说话人是否在已记录的说话人集合中;说话人确认是指进一步确认输入语音对应的说话人是否是目标说话人的过程。i-vector方法可以用来实现说话人识别(N.Dehak,P.J.Kenny,R.Dehak,P.DumouchelandP.Ouellet,"Front-EndFactorAnalysisforSpeakerVerification,"inIEEETransactionsonAudio,Speech,andLanguageProcessing,vol.19,no.4,pp.788-798,May2011.)。文献(D.Snyder,P.Ghahremani,D.Povey,D.Garcia-Romero,andY.Carmiel,“Deep本文档来自技高网...

【技术保护点】
1.基于深度学习的文本无关多标号说话人识别方法,其特征在于,包括以下步骤:/n步骤1,将训练数据集中每个说话人的语音平均分成N份,并对每份语音标记上不同的标号,使得整个训练数据集的标号数是说话人数量的N倍,N≥2;/n步骤2,构建神经网络模型,模型的输出层维度与训练数据集标号总数量一致;/n步骤3,将步骤1的训练数据集输入步骤2的神经网络模型,并将输出结果与语音数据对应的标号相比较,求出交叉熵损失函数,从而进行有监督训练;/n步骤4,将测试集数据按照步骤1中训练数据集的语音与标号的对应关系,为每个说话人的语音数据预设好N个视为有效识别的标号,然后将测试数据集数据输入所述神经网络模型,将模型预测...

【技术特征摘要】
1.基于深度学习的文本无关多标号说话人识别方法,其特征在于,包括以下步骤:
步骤1,将训练数据集中每个说话人的语音平均分成N份,并对每份语音标记上不同的标号,使得整个训练数据集的标号数是说话人数量的N倍,N≥2;
步骤2,构建神经网络模型,模型的输出层维度与训练数据集标号总数量一致;
步骤3,将步骤1的训练数据集输入步骤2的神经网络模型,并将输出结果与语音数据对应的标号相比较,求出交叉熵损失函数,从而进行有监督训练;
步骤4,将测试集数据按照步骤1中训练数据集的语音与标号的对应关系,为每个说话人的语音数据预设好N个视为有效识别的标号,然后将测试数据集数据输入所述神经网络模型,将模型预测出的标号与之前设置好的N个视为有效识别的标号相比较,只要预测出的标号为N个视为有效识别的标号中的一个,即为...

【专利技术属性】
技术研发人员:邓克琦卢晶
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1