声纹识别方法、装置、设备及存储介质制造方法及图纸

技术编号:25227296 阅读:39 留言:0更新日期:2020-08-11 23:15
本发明专利技术涉及人工智能领域,公开了声纹识别方法,用于解决在声纹识别过程中识别准确度低下的问题。包括:获取待识别的目标语音信息集合,包括至少一个对象所对应的语音信息;利用预置算法在目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化目标特征信息,得到第一声纹识别结果;获取目标语音信道的目标语音信道信息,目标语音信道信息包括信道噪声信息,目标语音信道用于传输目标语音信息集合;抽取信道噪声信息中的目标特征向量,并根据第二损失函数优化目标特征向量,得到第二声纹识别结果;将第一声纹识别结果与第二声纹识别结果融合,确定最终的声纹识别结果。本发明专利技术还涉及区块链技术,所述目标语音信息集合存储于区块链中。

【技术实现步骤摘要】
声纹识别方法、装置、设备及存储介质
本专利技术涉及人工智能的声纹识别领域,尤其涉及一种声纹识别方法、装置、设备及存储介质。
技术介绍
声纹识别是生物识别技术的一种,也称为说话人识别,分为说话对象识别和说话对象辨认。目前常用的声纹识别系统包括传统的基于特征工程的i-vector浅层网络系统和x-vector深度网络系统,以及近年来主流的的端到端d-vector深度网络系统等。这些系统基本上都是通过捕捉说话对象声音的长时特征,将其编码到低维向量表示来有效解决识别问题。具体来说,将说话随想的语音信息通过网络的逐层嵌入最终获得具有固定维度的向量(如512维),然后计算不同说话对象的向量表示间的余弦相似度,进而完成说话对象的辨认和确认等操作。目前端到端的声纹识别系统,诸如google的GE2E系统,虽然可以完美实现端到端的声纹任务的训练和推理,但是这些系统的损失函数并没有对声音对声音的信道信息中的噪声进行处理,导致深度网络在训练过程中无法感知到信道的相关信息,进而深度网络在训练过后识别到声纹信息的准确度低下。
技术实现思路
本专利技术的主要目的在于解决在声纹识别过程中识别准确度低下的问题。本专利技术第一方面提供了一种声纹识别方法,包括:获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。可选的,在本专利技术第一方面的第一种实现方式中,所述目标语音信息集合存储于区块链中,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果包括:利用预置算法在所述目标语音信息集合中抽取目标特征信息;根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息;基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失,得到第一声纹识别结果。可选的,在本专利技术第一方面的第二种实现方式中,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息包括:利用预置算法采集所述目标语音信息集合中的语音序列,并获取所述语音序列的幅度谱;通过滤波器对所述语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;对所述语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。可选的,在本专利技术第一方面的第三种实现方式中,所述根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息包括:将目标特征信息转化为低维向量,所述低维向量为采用低维度表示所述目标特征信息的向量;基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息。可选的,在本专利技术第一方面的第四种实现方式中,所述抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果包括:抽取所述信道噪声信息中的目标特征向量,并计算所述目标特征向量的均值;根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。可选的,在本专利技术第一方面的第五种实现方式中,所述抽取所述目标语音信道信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果包括:获取所述第一声纹识别结果以及所述第二声纹识别结果;利用融合公式将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果,融合公式为:在式中,L表示融合后的最终的声纹识别结果,L1表示第一声纹识别结果,L2表示第二声纹识别结果,k表示声纹识别对象,N表示每个声纹识别对象的语音信息条数,γ表示调节因子。可选的,在本专利技术第一方面的第六种实现方式中,所述获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的包括:获取待处理的语音信息,并利用预置处理公式对所述待处理的语音信息s(n)进行预加重,得到处理后的语音信息s'(n),所述预置处理公式为s'(n)=s(n)-as(n-1),其中a为预加重系数,s(n-1)为待处理的语音信息的上一条语音信息;将所述处理后的语音信息进行分帧处理,并对每帧所述处理后的语音信息进行加窗处理,得到目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息。本专利技术第二方面提供了一种声纹识别装置,包括:第一获取模块,用于获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;第一优化模块,用于利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;第二获取模块,用于获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;第二优化模块,用于抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;融合模块,用于将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。可选的,在本专利技术第二方面的第一种实现方式中,所述第一优化模块包括:抽取单元,用于利用预置算法在所述目标语音信息集合中抽取目标特征信息;计算单元,用于根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息;优化单元,用于基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失,得到第一声纹识别结果。可选的,在本专利技术第二方面的第二种实现方式中,所述抽取单元具体用于:利用预置算法采集所述目标语音信息集合中的语音序列,并获取所述语音序列的幅度谱;通过滤波器对所述语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;对所述语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。可选的,在本专利技术第二方面的第三种实现方式中,计算单元具体用于:将目标特征信息转化为低维向量,所述低维向量为采用低维度表示所述目标特征信息的向量;基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息。可选的,在本专利技术第二方面的第四种实现方式中,第二优化模块具体用于:抽取所述信道噪声信息中的目标特征向量,并计算所述目标特征向量的均值;根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。可选的,在本专利技术第二方面的第五种实现方式中,融合模块具体用于:获取所述第一声纹识别结果以及所述第二声纹识别结果;利用融合公式将本文档来自技高网...

【技术保护点】
1.一种声纹识别方法,其特征在于,所述声纹识别方法包括:/n获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;/n利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;/n获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;/n抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;/n将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。/n

【技术特征摘要】
1.一种声纹识别方法,其特征在于,所述声纹识别方法包括:
获取待识别的目标语音信息集合,所述目标语音信息集合包括至少一个对象所对应的语音信息,所述语音信息是经过预处理过后得到的;
利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果;
获取目标语音信道的目标语音信道信息,所述目标语音信道信息包括信道噪声信息,所述目标语音信道用于传输所述目标语音信息集合;
抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果;
将所述第一声纹识别结果与所述第二声纹识别结果融合,确定最终的声纹识别结果。


2.根据权利要求1所述的声纹识别方法,其特征在于,所述目标语音信息集合存储于区块链中,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息,并根据第一损失函数优化所述目标特征信息,得到第一声纹识别结果包括:
利用预置算法在所述目标语音信息集合中抽取目标特征信息;
根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息;
基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失,得到第一声纹识别结果。


3.根据权利要求2所述的声纹识别方法,其特征在于,所述利用预置算法在所述目标语音信息集合中抽取目标特征信息包括:
利用预置算法采集所述目标语音信息集合中的语音序列,并获取所述语音序列的幅度谱;
通过滤波器对所述语音序列的幅度谱进行滤波,得到语音序列的滤波输出结果;
对所述语音序列的滤波输出结果进行离散余弦变换,得到目标特征信息。


4.根据权利要求2所述的声纹识别方法,其特征在于,所述根据预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息包括:
将目标特征信息转化为低维向量,所述低维向量为采用低维度表示所述目标特征信息的向量;
基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵,得到所述目标特征信息的映射信息。


5.根据权利要求1所述的声纹识别方法,其特征在于,所述抽取所述信道噪声信息中的目标特征向量,并根据第二损失函数优化所述目标特征向量,得到第二声纹识别结果包括:
抽取所述信道噪声信息中的目标特征向量,并计算所述目标特征向量的均值;
根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵,得到第二声纹识别结果。


6.根据权利要求1所述的声纹识别方法,其特征在于,所述将所述第...

【专利技术属性】
技术研发人员:郭跃超谯轶轩唐义君王俊高鹏谢国彤
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1