发声者识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33033256 阅读:13 留言:0更新日期:2022-04-15 09:10
本申请公开了一种发声者识别方法、装置、电子设备和存储介质。其中,发声者识别方法包括:提取发声者的目标声纹表征;对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。通过上述方式,本申请能够提升发声者识别结果的准确率。结果的准确率。结果的准确率。

【技术实现步骤摘要】
发声者识别方法、装置、电子设备和存储介质


[0001]本申请涉及技术语音
,特别是涉及一种发声者识别方法、装置、电子设备和存储介质。

技术介绍

[0002]发声者识别是指利用发声者的声音来检测发声者的身份的技术,例如声纹识别技术。相比于其他生物识别技术,发声者识别利用语音信号进行身份确认,具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点,同时也可以通过电话或网络等方式进行远程操作。因此,发声者识别在家居、安防、军事、经济等很多领域都具有良好而广阔的应用前景。
[0003]发声者识别按照应用场景可以分为同信道场景和跨信道场景。发声者注册时的语音为参考语音,发声者测试或应用时的语音为目标语音。同信道发声者识别是指目标语音和参考语音采用相同设备录制,其中,目标语音和参考语音属于同一信道;跨信道发声者识别是指目标语音和参考语音采用不同设备进行录制,即注册和测试时的录音设备发生了变化,即目标语音和参考语音属于不同的信道。由于跨信道的发声者识别中引入了新的变量(信道),从而会影响发声者识别效果。
[0004]目前,真实应用场景中往往遇到跨信道场景的发声者识别,因此解决这种跨信道场景的发声者识别问题,提升发声者识别效果,显得尤为重要。

技术实现思路

[0005]本申请主要解决的技术问题是提供一种发声者识别方法、装置、电子设备和存储介质,能够提升发声者识别结果的准确率。
[0006]为解决上述技术问题,本申请第一方面提供了一种发声者识别方法,该方法包括:提取发声者的目标声纹表征;对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。
[0007]为解决上述技术问题,本申请第二方面提供了一种发声者识别装置,该装置包括:提取模块,用于提取发声者的目标声纹表征;信道迁移模块,用于对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对模块,用于比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。
[0008]为解决上述技术问题,本申请第三方面提供了一种电子设备,该电子设备包括相互耦接的存储器和处理器,存储器用于存储程序数据,处理器用于执行程序数据以实现前述的方法。
[0009]为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现前述的方法。
[0010]本申请的有益效果是:区别于现有技术的情况,本申请通过提取发声者的目标声纹表征,然后对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,但是经过信道迁移之后的第一迁移声纹表征和参考声纹表征属于第二信道,由此,可以实现在同一信道下比对第一迁移声纹表征与参考声纹表征,得到发声者的识别结果,解决了跨信道场景的发声者识别问题,提升了发声者识别结果的准确率。
附图说明
[0011]为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要的附图作简单的介绍,显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0012]图1是本申请发声者识别方法一实施例的流程示意图;
[0013]图2是图1中步骤S11一实施方式的流程示意图;
[0014]图3是本申请发声者识别方法一实施例的流程示意图;
[0015]图4是图3中步骤S24一实施方式的流程示意图;
[0016]图5是本申请发声者识别方法一实施例的流程示意图;
[0017]图6是图5中步骤S31一实施例的流程示意图;
[0018]图7是本申请声纹模型的预训练的流程示意图;
[0019]图8是两种信道数据混合训练的示意图;
[0020]图9是本申请中循环生成对抗网络的示意图;
[0021]图10是图5中步骤S32一实施例的流程示意图;
[0022]图11是声纹模型和信道迁移模型的联合训练的流程示意图;
[0023]图12是图5中步骤S33一实施例的流程示意图;
[0024]图13是本申请发声者识别装置一实施例的结构示意框图;
[0025]图14是本申请电子设备一实施例的结构示意框图;
[0026]图15是本申请计算机可读存储介质一实施例的结构示意框图。
具体实施方式
[0027]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0028]本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0029]录音设备变化(跨信道)问题是发音者识别领域经常遇到的难题,也是目前存在的
挑战之一。目前,常用的做法是获取不同信道的输入,使模型更适配测试场景,比如在神经网络之前,采用因子分析技术时,通常在获得声纹表征后,会采用跨信道数据训练后的PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)模型,从而将信道空间和发音者空间进行剥离,从而有效应对录音设备变化场景。随着深度神经网络逐步取代传统方案,直接将跨信道数据进行区分性训练是最为行之有效的方案,但是训练较好的深度神经网络模型需要大量的训练数据,通常情况下是缺少或者没有跨信道数据。无论是哪种方法中利用的跨信道数据都需要同一发声者同时具备两种不同的信道的数据。
[0030]基于此,数据增广是缺乏训练数据时常用的手段,比如采用加噪、加混响以及语音合成技术获得更多样性的训练数据,使模型具有更好的泛化能力。然而,通常采用的加噪、加混响的方法对信道去除本身就有局限性,噪声和混响与信道还是存在较大差异,而以语音合成方法生成跨信道数据,从语音合成角度实现难度较大。
[0031]针对上述情况,本申请提供了一种发声者识别方法,通过对目标声纹表征进行信道迁移,可以得到与参考声纹表征同信道的第一迁移声纹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种发声者识别方法,其特征在于,包括:提取发声者的目标声纹表征;对所述目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,所述目标声纹表征属于第一信道,所述第一迁移声纹表征和参考声纹表征属于第二信道;比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果。2.根据权利要求1中所述的方法,其特征在于,在所述比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果之前,还包括:对所述参考声纹表征进行信道迁移,得到第二迁移声纹表征,其中,所述第二迁移声纹表征属于所述第一信道;所述比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果,包括:比对所述第一迁移声纹表征与所述参考声纹表征、以及所述第二迁移声纹表征与所述目标声纹表征,得到所述发声者的识别结果。3.根据权利要求2中所述的方法,其特征在于,所述比对所述第一迁移声纹表征与所述参考声纹表征、以及所述第二迁移声纹表征与所述目标声纹表征,得到所述发声者的识别结果,包括:将所述第二迁移声纹表征与所述目标声纹表征进行相似度计算,得到第一信道得分;将所述第一迁移声纹表征与所述参考声纹表征进行相似度计算,得到第二信道得分;基于所述第一信道得分和所述第二信道得分,得到所述发声者的识别结果。4.根据权利要求1中所述的方法,其特征在于,所述提取发声者的目标声纹表征,包括:获取所述发声者的目标声学特征;对所述目标声学特征进行声纹提取,得到所述目标声纹表征。5.根据权利要求1中所述的方法,其特征在于,所述提取发声者的目标声纹表征是由声纹模型执行,所述信道迁移是由信道迁移模型执行。6.根据权利要求5中所述的方法,其特征在于,所述方法还包括以下步骤,以对所述声纹模型和所述信道迁移模型进行训练:对所述声纹模型进行预训练;利用经预训练的所述声纹模型得到第一样本声学特征的第一样本声纹表征,利用所述第一样本声纹表征训练所述信道迁移模型;利用第二样本声学特征联合训练所述声纹模型和所述信道迁移模型。7.根据权利要求6中所述的方法,其特征在于,所述信道迁移模型为循环生成对抗网络,和/或所述第一样本声学特征和第二样本声学特征均包括所述第一信道和第二信道的样本声学特征,训练所述信道迁移模型,包括:将所述声纹模型对第一信道声学特征提取得到的声纹表征,作为第一声纹表征,将所述声纹模型对第二信道声学特征提取得到的声纹表征,作为第二声纹表征,所述第一信道声学特征为第一信道的第一样本声学特征和第二样本声学特征,所述第二信道声学特征为第二...

【专利技术属性】
技术研发人员:张学阳高天
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1