【技术实现步骤摘要】
一种基于语谱图和注意力机制的声纹识别方法
本专利技术涉及说话人识别领域,尤其涉及一种基于语谱图和注意力机制的声纹识别方法。
技术介绍
随着科技的发展,用户身份认证方式发生了巨大的变化,声纹识别由于简单易行,可以抵抗回放攻击,广泛应用在声纹支付、声纹考勤、声纹门禁、社保认证等领域,应用前景广泛。然而,声纹识别在实际应用中,由于应用场景复杂多变,存在噪声,导致声纹识别系统的鲁棒性不足,识别准确率下降。
技术实现思路
为克服传统说话人识别技术的鲁棒性差,系统抗噪能力弱的不足,本专利技术提出一种基于语谱图和注意力机制的声纹识别方法,以有效的提高说话人识别的鲁棒性和准确率。本专利技术的技术方案是这样实现的,一种基于语谱图和注意力机制的声纹识别方法,包括步骤S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;S2:特征提取,利用Kaldi语音识别工具提取语谱图(Spectrogram)作为输入特征;S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语 ...
【技术保护点】
1.一种基于语谱图和注意力机制的声纹识别方法,其特征在于,包括步骤/nS1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;/nS2:特征提取,利用Kaldi语音识别工具提取语谱图作为输入特征;/nS3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;/nS4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;/nS5:打分判决,利用概率线性判别分析算法PLDA对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。/n
【技术特征摘要】
1.一种基于语谱图和注意力机制的声纹识别方法,其特征在于,包括步骤
S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;
S2:特征提取,利用Kaldi语音识别工具提取语谱图作为输入特征;
S3:特征处理,将所述语谱图输入卷积神经网络,利用卷积神经网络对多语谱图进行自动优化和降维;
S4:模型训练,利用X-Vector说话人识别模型对语谱图特征进行训练,并引入注意力机制对帧级别特征进行权重处理;
S5:打分判决,利用概率线性判别分析算法PLDA对两个待测样本的似然对数比得分和预设条件进行判定,给出两个样本是否为同一个说话人的判断。
2.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S1数据预处理的实现步骤包括
S11,语音语料采用Voxceleb1语音数据库;
S12,利用Kaldi生成spk2utt、utt2spk和wav.scp文件。
3.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S2所述提取语谱图实现包括步骤
S21,将语音信号输入Kaldi语音识别工具;
S22,对语音信号进行分帧加窗;
S23,对分帧加窗后的语音信号进行傅里叶变换;
S24,对傅里叶变换后的语音信号进行能量密度计算;
S25,对经能量密度计算后的语音信号以时间为横轴,频率为纵轴,将每一帧信号按照时序进行连接,得到语音信号的语谱。
4.如权利要求1所述的基于语谱图和注意力机制的声纹识别方法,其特征在于,所述步骤S4中所述引入注意力机制对其进行帧权重的优化和处理的实现,包括步骤
S41,在对语音信号处理时,将信号进行分帧处理,每一帧都用相应的向量表示,使得一个语音信...
【专利技术属性】
技术研发人员:赵宏,岳鲁鹏,王伟杰,郭岚,郑厚泽,傅兆阳,刘璐,党育,马栋林,
申请(专利权)人:兰州理工大学,
类型:发明
国别省市:甘肃;62
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。