一种基于语谱图和注意力机制的声纹识别方法技术

技术编号:25311601 阅读:34 留言:0更新日期:2020-08-18 22:29
本发明专利技术公开了一种基于语谱图和注意力机制的声纹识别方法,包括步骤:数据预处理,将语音语料进行处理;特征提取,提取语谱图作为输入特征;特征处理,将语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;模型训练,利用X‑Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;打分判决,对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。和现有X‑Vector说话人识别技术相比,本发明专利技术引入卷积神经网络和语谱图,能更好地捕获说话人特征,并且采用注意力机制对统计层进行训练,成本低,效率高,提高了说话人识别系统的性能。

【技术实现步骤摘要】
一种基于语谱图和注意力机制的声纹识别方法
本专利技术涉及说话人识别领域,尤其涉及一种基于语谱图和注意力机制的声纹识别方法。
技术介绍
随着科技的发展,用户身份认证方式发生了巨大的变化,声纹识别由于简单易行,可以抵抗回放攻击,广泛应用在声纹支付、声纹考勤、声纹门禁、社保认证等领域,应用前景广泛。然而,声纹识别在实际应用中,由于应用场景复杂多变,存在噪声,导致声纹识别系统的鲁棒性不足,识别准确率下降。
技术实现思路
为克服传统说话人识别技术的鲁棒性差,系统抗噪能力弱的不足,本专利技术提出一种基于语谱图和注意力机制的声纹识别方法,以有效的提高说话人识别的鲁棒性和准确率。本专利技术的技术方案是这样实现的,一种基于语谱图和注意力机制的声纹识别方法,包括步骤S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;S2:特征提取,利用Kaldi语音识别工具提取语谱图(Spectrogram)作为输入特征;S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降本文档来自技高网...

【技术保护点】
1.一种基于语谱图和注意力机制的声纹识别方法,其特征在于,包括步骤/nS1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;/nS2:特征提取,利用Kaldi语音识别工具提取语谱图作为输入特征;/nS3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;/nS4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;/nS5:打分判决,利用概率线性判别分析算法PLDA对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。/n

【技术特征摘要】
1.一种基于语谱图和注意力机制的声纹识别方法,其特征在于,包括步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;
S2:特征提取,利用Kaldi语音识别工具提取语谱图作为输入特征;
S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;
S4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;
S5:打分判决,利用概率线性判别分析算法PLDA对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。


2.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S1数据预处理的实现步骤包括
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp文件。


3.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S2所述提取语谱图实现包括步骤
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对分帧加窗后的语音信号进行傅里叶变换;
S24,对傅里叶变换后的语音信号进行能量密度计算;
S25,对经能量密度计算后的语音信号以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。


4.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S4中所述引入注意力机制对其进行帧权重的优化和处理的实现,包括步骤
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信...

【专利技术属性】
技术研发人员:赵宏岳鲁鹏王伟杰郭岚郑厚泽傅兆阳刘璐党育马栋林
申请(专利权)人:兰州理工大学
类型:发明
国别省市:甘肃;62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1