基于声纹的身份验证方法和装置制造方法及图纸

技术编号:18459724 阅读:26 留言:0更新日期:2018-07-18 13:04
本发明专利技术涉及基于声纹的身份验证方法和装置。该方法包括:一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。根据本发明专利技术的身份验证方法和装置,可以从较短的语音中提取说话者的全息声纹,使得验证结果更加鲁棒。

Authentication method and device based on sound pattern

The invention relates to voiceprint based authentication methods and devices. The method includes: an authentication method based on sound lines, including receiving unknown speech; using a sound pattern extractor based on neural networks trained in advance to extract the voiceprint in the unknown voice; splicing the extracted sound lines with the pre stored sound lines to the stitching stitching; and using pre training. The classification model of the training is used to judge the stitching of the voiceprint, and verify whether the extracted voiceprint and the pre stored voiceprint are from the same person. According to the authentication method and device of the invention, the speaker's hologram can be extracted from the shorter speech, so that the verification result is more robust.

【技术实现步骤摘要】
基于声纹的身份验证方法和装置
本专利技术涉及语音处理领域,更具体地涉及一种基于声纹的身份验证方法和装置。
技术介绍
声纹已在许多领域有着广泛的应用,包括用户接口,国土安全,电话银行等。传统的方法通过联合因子分析(jointfactoranalysis)将语音片段映射到某空间,得到一种i-vector作为声纹。但是这种方法有两种缺陷:1,为了得到满意的性能,必须采用较长(20-30秒)的语音段来提取i-vector;2,说话者的其他信息,例如年龄、性别、语种信息是有助于身份确认的,但是目前这种框架没有办法或者很难加入说话者的其他信息。因此,希望提供一种能够基于较短的、包含说话者的多种信息的声纹来进行身份验证的方法和装置。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的一个主要目的在于,提供了一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。根据本专利技术的一个方面,提供一种基于声纹的身份验证装置,包括:语音接收单元,被配置为接收未知语音;声纹提取单元,被配置为利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;声纹拼接单元,被配置为将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及身份验证单元,被配置为利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。另外,本专利技术的实施例还提供了用于实现上述方法的计算机程序。此外,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1示出了根据本专利技术的一个实施例的基于声纹的身份验证方法100的示例性过程的流程图;图2示出了训练得到基于神经网络的声纹提取器的示例性过程的流程图;图3A示出了用于提取声纹的层次神经网络;图3B示出了用于提取声纹的扁平神经网络;图4是示出根据本专利技术的另一个实施例的基于声纹的身份验证装置400的示例性配置的框图;图5是示出用于训练声纹提取器的声纹提取器训练装置500的一种示例性配置的框图;以及图6是示出可以用于实施本专利技术的基于声纹的身份验证方法和装置的计算设备的示例性结构图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的设备结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。本专利技术提出了一种基于声纹的身份验证方法,该方法不仅可以从较短(例如3-5秒)的语音中提取说话者的身份信息,还可以同时提取其他的说话者信息,包括发声通道、音素序列、性别、年龄、语种、生活区域、情感等,这种信息被称为全息声纹。下面结合附图详细说明根据本专利技术的实施例的基于声纹的身份验证方法和装置。下文中的描述按如下顺序进行:1.基于声纹的身份验证方法2.基于声纹的身份验证装置3.用以实施本申请的方法和装置的计算设备[1.基于声纹的身份验证方法]图1示出了根据本专利技术的一个实施例的基于声纹的身份验证方法100的示例性过程的流程图。首先,在步骤S102中,接收未知语音。接着,在步骤S104中,利用预先训练得到的基于神经网络的声纹提取器来提取未知语音中的声纹。图2示出了训练得到基于神经网络的声纹提取器的示例性过程的流程图。如图2所示,在步骤S1042中,采集来自不同说话者的语音。接着,在步骤S1044中,将说话者的辅助信息作为神经网络的分组标签进行标记,将标记过的语音作为训练样本输入神经网络。具体地,需要收集不同说话者的大量语音,并对这些语音进行标记。可以包括说话者身份(ID)、语种、音素序列、发声通道、情感、年龄、生活区域、性别等信息。在本专利技术中,使得提取的声纹包含以上这些信息,从而根据本专利技术的身份验证方法更加鲁棒。用这些标记过的语音作为训练样本输入神经网络。通常采用下述方法对收集的语音数据进行处理。将标记的语音数据分割成帧长25毫秒、帧移10毫秒的信号,提取13维的梅尔频率倒谱系数(MFCCs),以及该系数的一阶差分和二阶差分连接起来共39维做为特征。同时联合上下文共39帧(左25帧,右13帧)作为最终的特征共1521维(39*39)。本领域技术人员可以理解,对语音数据的处理也可以采用本领域公知的其它方法,在此不做赘述。其中,说话者的辅助信息包括:说话者的语种、音素序列、发声通道、情感、年龄、生活区域以及性别中的一项或多项。最后,在步骤S1046中,进行深度学习来得到所述基于神经网络的声纹提取器。在本专利技术中,分别采用了两种神经网络、即层次神经网络和扁平神经网络进行深度学习。图3A示出了用于提取声纹的层次神经网络,图3B示出了用于提取声纹的扁平神经网络。这两种神经网络的区别在于在何处放置分组标签。如图3A所示,层次神经网络是将不同的分组标签分别放置在神经网络的不同层进行深度学习,可以得到用于提取声纹的层次网络提取器;如图3B所示,扁平神经网络是将全部分组标签放置在神经网络的输出层进行深度学习,可以得到用于提取声纹的扁平网络提取器。两种神经网络的输入为在步骤S2042中得到的39*39的语音特征,将输出神经元分成若干个块,每一块关联说话者的一种信息,例如第一块和说话者ID相关,第二块和年龄相关等。每一块神经元的数目为说话者的数目、年龄的跨度、性别的种类、语种的数目、文本的类别、信道的种类(移动电话、固定电话)、情感的类别等等。输出的标签是独热(one-hot)向量,其中的非零元素对应说话者的身份、性别、年龄等。步骤S104(利用预先训练得到的基于神经网络的声纹提取器来提取未知语音中的声纹)具体地包括:分别利用所述层次网络提取器和所述扁平网络提取器提取来提取未知语音中的声纹,再将所述层次网络提取器所提取的声纹和所述扁平网络提取器所提取的声纹拼接在一起作为所提取的未知语音中的声纹。优选地,在层次神经网络中,分本文档来自技高网...

【技术保护点】
1.一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。

【技术特征摘要】
1.一种基于声纹的身份验证方法,包括:接收未知语音;利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹;将所提取的声纹与预先存储的声纹进行拼接得到拼接的声纹;以及利用预先训练的分类模型对所述拼接的声纹进行判断,验证所提取的声纹与预先存储的声纹是否来自同一个人。2.根据权利要求1所述的身份验证方法,其中,通过下述步骤来训练得到基于神经网络的声纹提取器:采集来自不同说话者的语音;将说话者的辅助信息作为神经网络的分组标签进行标记,将标记过的语音作为训练样本输入神经网络;以及进行深度学习来得到所述基于神经网络的声纹提取器。3.根据权利要求2所述的身份验证方法,其中,所述说话者的辅助信息包括:说话者的语种、音素序列、发声通道、情感、年龄、生活区域以及性别中的一项或多项。4.根据权利要求2所述的身份验证方法,其中,进行深度学习来得到所述基于神经网络的声纹提取器包括:采用层次神经网络将不同的分组标签分别放置在不同层进行深度学习得到层次网络提取器;以及采用扁平神经网络将全部分组标签放置在输出层进行深度学习得到扁平网络提取器。5.根据权利要求4所述的身份验证方法,其中,利用预先训练得到的基于神经网络的声纹提取器来提取所述未知语音中的声纹的步骤包括:分别利用所述层次网络提取器和所述扁平网络提取器提取来提取所述未知语音中的声纹;以及将所述层次网络提取器所提取的声纹和所述扁平网络提取器所提取的声纹拼接在一起作为所提取的所述未知语音中的声纹。6.根据权利要求4所述的身份验证方法,其中,所述分组标签...

【专利技术属性】
技术研发人员:石自强刘柳刘汝杰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1