一种基于深度卷积神经网络的声纹识别分析方法技术

技术编号:20684229 阅读:24 留言:0更新日期:2019-03-27 20:00
本发明专利技术公开一种基于深度卷积神经网络的声纹识别分析方法,包括步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。本发明专利技术提供的基于深度卷积神经网络的声纹识别分析方法,提取了语音信号的特征参数,并通过深度卷积神经网络训练、识别,能够正确的识别说话人的身份,取得了较好的效果,有效的提升了声纹识别的准确性和效率。

【技术实现步骤摘要】
一种基于深度卷积神经网络的声纹识别分析方法
本专利技术涉及人工智能领域,更具体的是,本专利技术涉及一种基于深度卷积神经网络的声纹识别分析方法。
技术介绍
随着科技水平的提高和人工智能的快速发展,声纹识别在诸多领域的重要性日益凸显。例如,在金融领域,利用电话声音认证来判定用户身份;在安全领域,使用声纹作为进出重要机密场合的授权信息;在公安司法领域,利用声纹作为一种有效的辅助手段对犯罪嫌疑人的身份进行判断;在军事领域,使用声纹判断人员的身份;在医学应用中,声纹用于某些相关疾病的诊断等等。声纹信号获取极其方便,充斥在人们日常生活的各个场所。研究高性能的声纹识别系统有着重要的实际价值。为此,为了提升声纹识别的准确性和高效性,设计一种基于机器学习的声纹识别分析方法是非常必要的。
技术实现思路
本专利技术设计开发了一种基于深度卷积神经网络的声纹识别分析方法,提取了语音信号的特征参数,并通过深度卷积神经网络训练、识别,能够正确的识别说话人的身份,有效的提升了声纹识别的准确性和效率。本专利技术提供的技术方案为:一种基于深度卷积神经网络的声纹识别分析方法,包括如下步骤:步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练,其包括5个隐藏层,3个卷积层和2个降采样层,且卷积和降采样交替进行:第一卷积层,其由8个特征映射组成,采用5×5的卷积核,且卷积的方式采用未使用边缘补0部分进行计算;第一降采层,其由8个特征映射组成,采用2×2的卷积核,实现降采样和局部平均;第二卷积层,其由20个特征映射组成,采用5×5的卷积核,且每个特征映射由10×10个神经元组成;第二降采层,其由20个特征映射组成,采用5×5的卷积核;第三卷积层,其将得到的特征图拉成向量,并对每个特征图采用5×5的卷积核;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。优选的是,步骤1中,所述语音信号的预处理包括采样与量化、预加重、分帧加窗和端点检测。优选的是,所述语音信号的采样与量化包括:将语音信号以8kHz的采样速率数字化,每个采样用8bit表示。优选的是,所述语音信号的预加重包括:将经过采样与量化转换后的数字语音信号,通过一阶高通滤波器来作预加重处理,凸显高频部分,所述一阶高通滤波器的传递函数为:H(z)=1-0.9375z-1其中,z为语音信号的频率。优选的是,所述语音信号的分帧加窗包括:将连续语音信号按照10~30ms拆分为多帧语音信号;采用汉明窗的窗函数对所述多帧语音信号进行加窗处理,所述汉明窗的窗函数为:其中,W(n)为第n帧语音信号的汉明窗的窗函数,N为语音信号的帧数。优选的是,所述语音信号的端点检测包括:采用短时能量方法和短时过零率方法将语音信号中的静音片段剔除。优选的是,步骤1中,所述灰度语谱图的生成包括:将每一帧语音信号通过离散傅里叶变换分解成幅值谱:其中,M为每一帧的采样点数,X(n,k)为第n帧语音信号经过傅里叶变换得到的序列,k为傅里叶变换参数,e为自然对数的底数,xp(n)为第n帧语音信号的第p个采样点的信号;获得每帧语音信号经过傅里叶变换后得到的复数序列的能量密度谱:E(n,k)=|X(n,k)|=XR(n,k)2+XI(n,k)2其中,E(n,k)为地第n帧语音信号经过傅里叶变换后得到的复数序列的能量密度谱,XR(n,k)为第n帧语音信号经过傅里叶变换后得到的复数序列的实数部分,XI(n,k)为第n帧语音信号经过傅里叶变换后得到的复数序列的虚数部分;对能量谱密度取对数:10log10E(n,k)=10log10|X(n,k)|2=20log10|X(n,k)|;将对数形式的能量谱密度映射为0-255之间的像素值Q(n,m),获得灰度语谱图:其中,T(n,m)为第n帧语音信号的m个对数形式的能量谱密度值,Tmax(n,m)为第n帧语音信号的m个对数形式的能量谱密度值中的最大值,Tmin(n,m)为第n帧语音信号的m个对数形式的能量谱密度值中的最小值。优选的是,采用梅尔顿频率倒谱系数参数作为所述灰度语谱图的特征参数,所述梅尔顿频率倒谱系数参数的获取包括:对所述能量谱密度取对数后进行离散余弦变换,舍去其直流分量,其余为梅尔顿频率倒谱系数参数。优选的是,所述步骤3包括:初始化S种说话人对应的语音信号的判定值A1,A2,...,Aω,...,AS,使得A1=A2=…=Aω=…=AS=0;将待测语音信号根据步骤1获得待识别语音信号的灰度语谱图的特征集合,分别输入训练好的卷积神经网络,当识别所述待测语音信号的灰度语谱图的特征属于ω种说话人对应的语音信号时,Aω=Aω+1;输出判定值max(A1,A2,…,Aω,…,AS)对应的语音信号所属的说话人。优选的是,将连续语音信号以10ms的帧长拆分为多帧语音信号。本专利技术所述的有益效果:本专利技术提供的基于深度卷积神经网络的声纹识别分析方法,提取了语音信号的特征参数,并通过深度卷积神经网络训练、识别,能够正确的识别说话人的身份,取得了较好的效果,有效的提升了声纹识别的准确性和效率。附图说明图1为本专利技术所述基于深度卷积神经网络的声纹识别分析框架示意图。图2为本专利技术所述完整的基于深度卷积神经网络的声纹识别算法流程图。图3为本专利技术所述识别模型总体结构图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。请参阅图1,基于深度卷积神经网络的声纹识别分析框架示意图。通过获取说话人的原始语音,作为输入,对说话人的语音信息进行预处理;对于经过预处理后的语音信息,通过傅里叶变换,对每一帧做傅里叶变换,计算每帧信号的能量谱密度,对能量谱密度取对数,将对数形式的能量谱密度映射为灰度语谱图;对于语谱图中的声纹特征进行特征提取,建立深度卷积神经网络(CNNs)对于训练样本中的特征参数进行分类训练,最后利用模板匹配法对于测试样本进行识别,得到识别分析结果。请参阅图2,为本专利技术完整的声纹识别分析算法流程图。语音信号预处理,过程如下:为了平衡声音获取过程产生一定衰减,对语音信号的影响,在处理语音信号之前,需要加重信号的高频部分,同时减小噪声的影响,使语音信号的频谱变得平坦,提高信噪比。将采样后的数字语音信号通过一个传递函数为H(z)=1-0.9375z-1的一阶高通滤波器来实现预加重。系统语音采样频率为8kHz,提取梅尔顿频率倒谱系数(MFCC)参数时相应地取语音帧的帧长10ms。为减少在信号两端处的预测误差,避免频谱中出现泄漏现象,采用汉明窗的窗函数对语音信号进行加窗处理,汉明窗函数为其中,W(n)为第n帧语音信号的汉明窗的窗函数,N为语音信号的帧数。说话人的语音中除了包括有效的语音片段外,往往还包括静音片段。静音片段的存在会导致声纹识别准确率和效率的降低。利用端点检测将语音中的静音片段剔除出去。本方法中采用短时能量和短时过零率相结合的方法,除去静音片段。语音信号经过采样与量化、预加重、分帧加窗、端点检测等步骤之后,就可以进行生成语谱图。生成语谱图方法具体包括:由离散傅里叶变换将每一帧分本文档来自技高网...

【技术保护点】
1.一种基于深度卷积神经网络的声纹识别分析方法,其特征在于,包括如下步骤:步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练,其包括5个隐藏层,3个卷积层和2个降采样层,且卷积和降采样交替进行:第一卷积层,其由8个特征映射组成,采用5×5的卷积核,且卷积的方式采用未使用边缘补0部分进行计算;第一降采层,其由8个特征映射组成,采用2×2的卷积核,实现降采样和局部平均;第二卷积层,其由20个特征映射组成,采用5×5的卷积核,且每个特征映射由10×10个神经元组成;第二降采层,其由20个特征映射组成,采用5×5的卷积核;第三卷积层,其将得到的特征图拉成向量,并对每个特征图采用5×5的卷积核;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。

【技术特征摘要】
1.一种基于深度卷积神经网络的声纹识别分析方法,其特征在于,包括如下步骤:步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练,其包括5个隐藏层,3个卷积层和2个降采样层,且卷积和降采样交替进行:第一卷积层,其由8个特征映射组成,采用5×5的卷积核,且卷积的方式采用未使用边缘补0部分进行计算;第一降采层,其由8个特征映射组成,采用2×2的卷积核,实现降采样和局部平均;第二卷积层,其由20个特征映射组成,采用5×5的卷积核,且每个特征映射由10×10个神经元组成;第二降采层,其由20个特征映射组成,采用5×5的卷积核;第三卷积层,其将得到的特征图拉成向量,并对每个特征图采用5×5的卷积核;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。2.如权利要求1所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,步骤1中,所述语音信号的预处理包括采样与量化、预加重、分帧加窗和端点检测。3.如权利要求2所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的采样与量化包括:将语音信号以8kHz的采样速率数字化,每个采样用8bit表示。4.如权利要求3所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的预加重包括:将经过采样与量化转换后的数字语音信号,通过一阶高通滤波器来作预加重处理,凸显高频部分,所述一阶高通滤波器的传递函数为:H(z)=1-0.9375z-1其中,z为语音信号的频率。5.如权利要求4所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的分帧加窗包括:将连续语音信号以10~30ms的帧长拆分为多帧语音信号;采用汉明窗的窗函数对所述多帧语音信号进行加窗处理,所述汉明窗的窗函数为:其中,W(n)为第n帧语音信号的汉明窗的窗函数,N为语音信号的帧数。6.如权利要求5所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的端点检测包括:采用短时能量方法和短时过零率方法将语音信号中的静音片段剔除。7.如权利要求2-6中任意...

【专利技术属性】
技术研发人员:仲珩李昕褚治广蔡盼
申请(专利权)人:辽宁工业大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1