文本无关说话人验证方法和装置制造方法及图纸

技术编号:22103375 阅读:21 留言:0更新日期:2019-09-14 03:49
本发明专利技术公开文本无关说话人验证方法和装置,其中,一种文本无关说话人验证方法,包括:提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;对所述幅度特征和所述相位特征进行处理以得到相位感知特征;对所述相位感知特征进行说话人分类以得到说话人嵌入;对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。本申请的方法和装置提供的方案通过在深度说话人嵌入学习中结合幅度特征和相位特征,说话人验证系统的对噪声鲁棒性能够得到提升。进一步地,本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案,更展现了使用相位特征来提升性能的各种可能。

Text-independent Speaker Verification Method and Device

【技术实现步骤摘要】
文本无关说话人验证方法和装置
本专利技术属于说话人验证
,尤其涉及文本无关说话人验证方法和装置。
技术介绍
相关技术中,现有的说话人验证系统大致分为两派:1)基于传统i-vector模型;2)基于深度学习框架。但目前市面上存有的说话人验证系统,通常需要训练和测试的环境相一致,如果测试环境比较嘈杂,其性能会大幅降低。目前市面上存在对噪声鲁棒的说话人验证系统大多通过构造带噪的数据集进行训练。存在的结合相位信息的说话人验证系统,也均是基于传统的说话人验证系统框架(高斯混合模型等)。传统i-vector系统通过GMM(gaussianmixturemodel,高斯混合模型)对说话人进行建模,并通过因子分析的得到说话人嵌入。而基于深度学习框架的说话人验证系统使用神经网络对说话人嵌入进行建模。结合相位信息的说话人验证系统将相位特征和幅度特征结合在一起,通过传统说话人验证模型进行建模。专利技术人在实现本申请的过程中发现,现有的方案至少存在以下缺陷:不特地对噪声环境进行优化的说话人验证系统通常需要训练和测试的环境相一致,如果测试环境比较嘈杂,其性能会大幅降低。而如果重新构造带噪训练集,需要花费较多人力和时间来录制新的音频。使用传统说话人验证框架结合相位信息的系统在性能方面不如基于深度学习框架。这些缺陷主要是由模型性能、数据集等内容导致。
技术实现思路
本专利技术实施例提供一种文本无关说话人验证方法和装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种文本无关说话人验证方法,包括:提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;对所述幅度特征和所述相位特征进行处理以得到相位感知特征;对所述相位感知特征进行说话人分类以得到说话人嵌入;对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。第二方面,本专利技术实施例提供一种文本无关说话人验证装置,包括:提取模块,配置为提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;处理模块,配置为对所述幅度特征和所述相位特征进行处理以得到相位感知特征;分类模块,配置为对所述相位感知特征进行说话人分类以得到说话人嵌入;验证模块,配置为对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的文本无关说话人验证方法的步骤。第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的文本无关说话人验证方法的步骤。本申请的方法和装置提供的方案对提取的幅度特征和相应的相位特征进行处理,之后获取处理后的相位感知特征的说话人嵌入,然后根据该说话人嵌入对待验证语音进行验证,通过在深度说话人嵌入学习中结合幅度特征和相位特征,说话人验证系统的对噪声鲁棒性能够得到提升。进一步地,本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案,更展现了使用相位特征来提升性能的各种可能。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种文本无关说话人验证方法的流程图;图2为本专利技术一实施例提供的另一种文本无关说话人验证方法的流程图;图3为本专利技术一实施例提供的又一种文本无关说话人验证方法的流程图;图4为本专利技术一实施例提供的再一种文本无关说话人验证方法的流程图;图5为本专利技术一实施例提供的一种文本无关说话人验证方案的具体实施例的系统架构图;图6为本专利技术一实施例提供的一种文本无关说话人验证方案的幅度特征和相位特征的提取流程图;图7为本专利技术一实施例提供的在“嘈杂”噪声条件下在Voxceleb1测试装置上评估的DET图;图8为本专利技术一实施例提供的一种文本无关说话人验证装置的框图;图9是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的文本无关说话人验证方法一实施例的流程图,本实施例的文本无关说话人验证方法可以适用于具备语言模型的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备说话人验证功能的智能终端等。如图1所示,在步骤101中,提取待验证语音的幅度特征和与幅度特征对应的相位特征;在步骤102中,对幅度特征和相位特征进行处理以得到相位感知特征;在步骤103中,对相位感知特征进行说话人分类以得到说话人嵌入;在步骤104中,对说话人嵌入进行概率线性判断分析以得到对待验证语音的说话人验证结果。在本实施例中,对于步骤101,文本无关说话人验证装置接收到用户提交的用于验证该用户身份的待验证语音后,提取该待验证语音的至少一个幅度特征及与该至少一个幅度特征对应的相位特征,例如提取了Fbank(filterbank,滤波器组特征)的幅度特征,则可以再提取其相位特征,具体提取的方式现有技术中已公开,例如通过傅里叶变换的方式等,在此不再赘述。进一步地,相位特征可以包括直接傅里叶变换得到的相位特征和正余弦处理后的相位(Sin)和相位(Cos),本申请在此没有限制。对于步骤102,文本无关说话人验证装置对幅度特征和对应的相位特征进行处理,例如正余弦运算、输入卷积层和/或残差层、相加等,然后可以得到相位感知特征。之后,对于步骤103,文本无关说话人验证装置对处理得到的相位感知特征进行说话人分类学习从而得到与该相位感知特征对应的说话人嵌入。最后,对于步骤104,文本无关说话人验证装置对该待验证语音对应的说话人嵌入进行改良线性判断分析从而得到对该待验证语音的说话人验证结果,如果验证结果验证通过,则说明与提交待验证语音的用户为同一人,如果验证结果为不通过,则说明与提交待验证语音的用户不是同一人,进而可以进行后续操作,例如允许用户登录。本实施例的方案对提取的幅度特征和相应的相位特征进行处理,之后获取处理后的相位感知特征的说话人嵌入,然后根据该说话人嵌入对待验证语音进行验证,通过在深度说话人嵌入学习中结合幅度特征和相位特征,说话人验证系统的对噪声鲁棒性能够得到提升。进一步地,本申请的方案不仅针对噪声鲁棒的说话人验证系统提出了新的方案,更展现了使用相位特征来提升性能的各种可能。并且该方案的架构不仅可以结合幅度和相位特征,通过改变输入,更能完成多种不同特征的组合(如Fbank和MFCC(mel-frequencycepstralcoefficients,梅尔倒谱频率特征本文档来自技高网...

【技术保护点】
1.一种文本无关说话人验证方法,包括:提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;对所述幅度特征和所述相位特征进行处理以得到相位感知特征;对所述相位感知特征进行说话人分类以得到说话人嵌入;对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。

【技术特征摘要】
1.一种文本无关说话人验证方法,包括:提取待验证语音的幅度特征和与所述幅度特征对应的相位特征;对所述幅度特征和所述相位特征进行处理以得到相位感知特征;对所述相位感知特征进行说话人分类以得到说话人嵌入;对所述说话人嵌入进行概率线性判断分析以得到对所述待验证语音的说话人验证结果。2.根据权利要求1所述的方法,其中,所述对所述幅度特征和所述相位特征进行处理以得到相位感知特征包括:将所述幅度特征、所述相位特征的正弦值和所述相位特征的余弦值拼接成三通道输入;将所述三通道输入经过卷积层和残差层对所述幅度特征和所述相位特征进行融合以得到相位感知特征。3.根据权利要求1所述的方法,其中,所述对所述幅度特征和所述相位特征进行处理以得到相位感知特征包括:将所述幅度特征、所述相位特征的正弦值和所述相位特征的余弦值分别通过独立的卷积层和独立的残差层以得到处理后的特征;将所述处理后的特征进行相加处理以得到相位感知特征。4.根据权利要求1-3中任一项所述的方法,其中,所述幅度特征包括:感知线性预测、梅尔倒谱频率特征和滤波器组特征。5.根据权利要求4所述的方法,其中,所述对所述相位感知特征进行说话人分类以得到说话人嵌入包括:将相位感知特征通过预设层数的残差网络进行说话人分类任务学习,在所述残差网络训练完成后,输入包含相位信息的音频特征,所述残差网络的中间层输出说话人嵌入。6.根据权利要求5所述的方法,其中,所述对所述说话人嵌入进...

【专利技术属性】
技术研发人员:俞凯钱彦旻杨叶新王帅黄厚军
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1