【技术实现步骤摘要】
一种基于深度卷积神经网络的声纹识别分析方法
本专利技术涉及人工智能领域,更具体的是,本专利技术涉及一种基于深度卷积神经网络的声纹识别分析方法。
技术介绍
随着科技水平的提高和人工智能的快速发展,声纹识别在诸多领域的重要性日益凸显。例如,在金融领域,利用电话声音认证来判定用户身份;在安全领域,使用声纹作为进出重要机密场合的授权信息;在公安司法领域,利用声纹作为一种有效的辅助手段对犯罪嫌疑人的身份进行判断;在军事领域,使用声纹判断人员的身份;在医学应用中,声纹用于某些相关疾病的诊断等等。声纹信号获取极其方便,充斥在人们日常生活的各个场所。研究高性能的声纹识别系统有着重要的实际价值。为此,为了提升声纹识别的准确性和高效性,设计一种基于机器学习的声纹识别分析方法是非常必要的。
技术实现思路
本专利技术设计开发了一种基于深度卷积神经网络的声纹识别分析方法,提取了语音信号的特征参数,并通过深度卷积神经网络训练、识别,能够正确的识别说话人的身份,有效的提升了声纹识别的准确性和效率。本专利技术提供的技术方案为:一种基于深度卷积神经网络的声纹识别分析方法,包括如下步骤:步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练,其包括5个隐藏层,3个卷积层和2个降采样层,且卷积和降采样交替进行:第一卷积层,其由8个特征映射组成,采用5×5的卷积核,且卷积的方式采用未使用边缘补0部分进行计算;第一降采层,其由8个特征映射组成,采用2×2的卷积核,实现降采样和局部平均; ...
【技术保护点】
1.一种基于深度卷积神经网络的声纹识别分析方法,其特征在于,包括如下步骤:步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练,其包括5个隐藏层,3个卷积层和2个降采样层,且卷积和降采样交替进行:第一卷积层,其由8个特征映射组成,采用5×5的卷积核,且卷积的方式采用未使用边缘补0部分进行计算;第一降采层,其由8个特征映射组成,采用2×2的卷积核,实现降采样和局部平均;第二卷积层,其由20个特征映射组成,采用5×5的卷积核,且每个特征映射由10×10个神经元组成;第二降采层,其由20个特征映射组成,采用5×5的卷积核;第三卷积层,其将得到的特征图拉成向量,并对每个特征图采用5×5的卷积核;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。
【技术特征摘要】
1.一种基于深度卷积神经网络的声纹识别分析方法,其特征在于,包括如下步骤:步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练,其包括5个隐藏层,3个卷积层和2个降采样层,且卷积和降采样交替进行:第一卷积层,其由8个特征映射组成,采用5×5的卷积核,且卷积的方式采用未使用边缘补0部分进行计算;第一降采层,其由8个特征映射组成,采用2×2的卷积核,实现降采样和局部平均;第二卷积层,其由20个特征映射组成,采用5×5的卷积核,且每个特征映射由10×10个神经元组成;第二降采层,其由20个特征映射组成,采用5×5的卷积核;第三卷积层,其将得到的特征图拉成向量,并对每个特征图采用5×5的卷积核;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。2.如权利要求1所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,步骤1中,所述语音信号的预处理包括采样与量化、预加重、分帧加窗和端点检测。3.如权利要求2所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的采样与量化包括:将语音信号以8kHz的采样速率数字化,每个采样用8bit表示。4.如权利要求3所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的预加重包括:将经过采样与量化转换后的数字语音信号,通过一阶高通滤波器来作预加重处理,凸显高频部分,所述一阶高通滤波器的传递函数为:H(z)=1-0.9375z-1其中,z为语音信号的频率。5.如权利要求4所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的分帧加窗包括:将连续语音信号以10~30ms的帧长拆分为多帧语音信号;采用汉明窗的窗函数对所述多帧语音信号进行加窗处理,所述汉明窗的窗函数为:其中,W(n)为第n帧语音信号的汉明窗的窗函数,N为语音信号的帧数。6.如权利要求5所述的基于深度卷积神经网络的声纹识别分析方法,其特征在于,所述语音信号的端点检测包括:采用短时能量方法和短时过零率方法将语音信号中的静音片段剔除。7.如权利要求2-6中任意...
【专利技术属性】
技术研发人员:仲珩,李昕,褚治广,蔡盼,
申请(专利权)人:辽宁工业大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。