与文本无关的声纹验证方法、装置和计算机设备制造方法及图纸

技术编号:20591344 阅读:24 留言:0更新日期:2019-03-16 07:55
本申请揭示了一种与文本无关的声纹验证方法、装置和计算机设备,其中方法包括:截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。本申请利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征,具有更快的提取效率,节约系统的内存和显存等,上述声纹特征提取模型可以不间断的自我学习,其提取声纹特征的准确性会保持一定的准确性。

【技术实现步骤摘要】
与文本无关的声纹验证方法、装置和计算机设备
本申请涉及到计算机领域,特别是涉及到一种与文本无关的声纹验证方法、装置和计算机设备。
技术介绍
文本无关声纹系统主要利用个体之间不同的语音声学特征(发音器官特征和行为特征)来区分说话人。目前广泛使用的文本无关声纹系统核心有两部分:通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector;通过概率线性判别(PLDA)获取声学特征i-vector之间的相似度得分。但是存在以下缺点:(1)GMM-UBM模型性能难以优化;(2)计算步骤较多;(3)GMM-UBM模型参数较多,模型工程化占内存、显存较大。所以提供一种新的与文本无关的声纹验证方法,是目前亟需解决的问题。
技术实现思路
本申请的主要目的为提供与文本无关的声纹验证方法、装置和计算机设备,旨在解决现有技术中声纹特征提取计算步骤多、GMM-UBM模型性能难以优化、GMM-UBM模型参数较多,模型工程化占内存、显存较大等问题。为了实现上述专利技术目的,本申请提出一种与文本无关的声纹验证方法,包括:截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。进一步地,所述深度神经网络的目标函数为:其中,其中,x,y分别表示用户特征的矩阵,k为参数,用于计算x,y之间的相似度,e为自然常数,S为参数,T为x的矩阵转置。进一步地,所述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤,包括:根据预设规则对所述第一语音进行预处理;利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征,以用于输入到声纹特征提取模型。进一步地,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:对所述频谱特征进行均值方差归一化处理。进一步地,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤,包括:判断所述第一语音的发音者性别;根据所述发音者性别,调用根据对应性别的声音样本,基于所述深度神经网络训练而得的声纹特征提取模型;将所述第一语音输入到所述声纹特征提取模型中提取出所述第一声纹特征。进一步地,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:判断所述第一语音是否为经过变音软件处理过的声音;如果否,则通过预设的基于深度神经网络训练的声纹特征提取模型提取所述第一语音的第一声纹特征。进一步地,所述声纹特征提取模型的训练方法,包括:获取声音样本形成样本集,其中,所述样本集中包括多个人在两个不同的指定时间段的声音样本;将样本集按照预设比例分为训练集和测试集;利用训练集训所述深度神经网络,得到所述声纹特征提取模型;利用所述测试集验证所述声纹特征提取模型。本申请还提供一种与文本无关的声纹验证装置,包括:频谱提取单元,用于截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;声纹提取单元,用于通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;查找匹配单元,用于在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;判定单元,用于若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的与文本无关的声纹验证方法、装置和计算机设备,利用基于深度神经网络训练的声纹特征提取模型来提取待验证语音的声纹特征,相对于现有技术的通过高斯混合模型-通用背景模型(GMM-UBM)来提取声学特征i-vector,其具有更快的提取效率,将复杂的计算步骤用神经网络计算取代,参数少,所以更加节约系统的内存和显存等,节省系统资源。而且,上述声纹特征提取模型可以不间断的自我学习,其提取声纹特征的准确性会保持一定的准确性。而且本申请在提取频谱特征的时候,先将待待验证的语音中大于指定频率的声音信号过滤掉,以提高梅尔倒谱系数提取所述第一语音的频谱特征的。准确性和效率,进一步提高声纹验证的准确性和效率。附图说明图1为本申请一实施例的与文本无关的声纹验证方法的流程示意图;图2为本申请一实施例的与文本无关的声纹验证装置的结构示意框图;图3为本申请一实施例的计算机设备的结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。参照图1,本申请实施例提供一种与文本无关的声纹验证方法,包括步骤:S1、截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;S2、通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;S3、在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;S4、若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。如上述步骤S1所述,上述待验证的语音包括多种,如即时获取的语音、预先存储的语音等。获取待验证的第一语音的方法包括多种,比如,即时获取的语音的获取方法为:通过麦克风采集说话者的当前输出的语音,该语音即为即时获取的语音;预先存储的语音的获取方法为:根据存储语音的路径到其存储空间中进行复制、导入、剪切等操作即可,以得到需要的待验证语音。上述低于指定频率,是指可以保证梅尔倒谱系数提取准确性的频率。梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,MFCC已经广泛地应用在语音识别领域。由于梅尔频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。本实施例中先将验证的语音中高于上述指定频率的语音过滤或删除,以提高梅尔倒谱系数提取频谱特征的准确性,以提高后续声纹验证的准确性。如上述步骤S2所述,神经网络是一种大致模仿人类大脑构造设计的算法,用于识别模式。神经网络通过机器感知系统解释传感器数据,对原始输入进行标记或聚类。神经网络所能识别的模式是包含在向量中的数值形式,因此图像、声音、文本、时间序列等一切现实世界的数据必须转换为数值。深度神经网络是指神经元层的层数数较多的神经网络,本申请的神经网络包括多个NIN(Network-in-Network)层和一个池化层组成。本申请中,对于声纹的特征提取,是一个较为复杂的过程,所以优选深度神经网络,以提高声纹特征提取模型面对复杂问题的处理能力。上述声纹特征提取模型是通过大量的声音本文档来自技高网...

【技术保护点】
1.一种与文本无关的声纹验证方法,其特征在于,包括:截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。

【技术特征摘要】
1.一种与文本无关的声纹验证方法,其特征在于,包括:截取待验证的语音中低于指定频率的第一语音,并利用梅尔倒谱系数提取所述第一语音的频谱特征;通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征;在预设的声纹数据库中查找与所述第一声纹特征匹配的第二声纹特征;若查找到与所述第一声纹特征匹配的第二声纹特征,则判定所述待验证的语音验证通过。2.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述深度神经网络的目标函数为:其中,其中,x,y分别表示用户特征的矩阵,k为参数,用于计算x,y之间的相似度,e为自然常数,S为参数,T为x的矩阵转置。3.根据权利要求2所述的与文本无关的声纹验证方法,其特征在于,所述利用梅尔倒谱系数提取所述第一语音的频谱特征的步骤,包括:根据预设规则对所述第一语音进行预处理;利用所述梅尔倒谱系数提取预处理后的第一语音的频谱特征,以用于输入到声纹特征提取模型。4.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤之前,包括:对所述频谱特征进行均值方差归一化处理。5.根据权利要求1所述的与文本无关的声纹验证方法,其特征在于,所述通过预设的基于深度神经网络训练的声纹特征提取模型提取所述频谱特征的第一声纹特征的步骤,包括:判断所述第一语音的发音者性别;根据所述发音者性别,调用根据对应性别的声音样本,基于所述深度神经网络训练而得的声纹特征提取模型;将所述第一语音输入到所述声纹特征提取模型中提取出所述第一...

【专利技术属性】
技术研发人员:徐凌智彭俊清王健宗肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1