端到端的声纹识别方法和声纹识别装置制造方法及图纸

技术编号:31712489 阅读:26 留言:0更新日期:2022-01-01 11:16
公开了一种端到端的声纹识别方法和声纹识别装置。所述声纹识别方法包括:基于接收的输入语音,使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务,以提取目标说话人的语音特征;基于目标说话人的语音特征,使用端到端深度学习网络的说话人识别模块执行说话人识别任务,以在接收的输入语音中识别目标说话人。别目标说话人。别目标说话人。

【技术实现步骤摘要】
端到端的声纹识别方法和声纹识别装置


[0001]本专利技术涉及语音
,更具体地,涉及一种声纹识别方法和声纹识别装置。

技术介绍

[0002]随着各种电子设备的普及,对电子设备的安全保护变得尤为重要。尤其是,期望电子设备仅在被注册的用户使用时才会被认证和/或解锁,从而防止电子设备被其他不被允许的人使用。
[0003]为了实现电子设备的安全保护,声音可作为用户的独特的信息而被使用。更具体地讲,声纹识别(Voiceprint Identification)技术(又称,说话人识别(Speaker Verification)技术)可被使用。通过声纹识别技术,可从说话人的语音中提取语音特征,并对语音特征进行身份验证。通常声纹识别分为注册和验证两个过程。在注册过程中,用户存储自身声纹信息作为注册用户;在验证过程中,将从说话人的语音中提取到的声纹特征与预先注册的声纹特征进行对比,得到特征的相似度得分,将该得分与阈值进行对比,若此得分大于阈值,判断为验证与注册为同一用户,若此得分小于或等于阈值,判断为验证与注册为不同用户。
[0004]然而,在实际应用场景中,用户的声音环境比较复杂。现有的声纹识别技术往往只能应对相对单一的应用的场景,而无法有效地满足用户的需要。

技术实现思路

[0005]本专利技术的目的在于提供一种端到端的声纹识别方法和声纹识别装置。
[0006]在本公开的一方面,提供一种端到端的声纹识别方法,所述声纹识别方法包括:基于接收的输入语音,使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务,以提取目标说话人的语音特征;基于目标说话人的语音特征,使用端到端深度学习网络的说话人识别模块执行说话人识别任务,以在接收的输入语音中识别目标说话人。
[0007]所述声纹识别方法还可包括:基于接收的输入语音,提取输入语音的原始语音特征;其中,执行说话人语音提取任务的步骤包括:基于原始语音特征和预先保存的注册人中间嵌入语音特征,执行说话人语音提取任务。
[0008]所述声纹识别方法还可包括:基于目标说话人的语音特征和原始语音特征,确定输入语音的说话场景,说话场景包括单人场景和多人场景,其中,执行说话人识别任务的步骤包括:基于输入语音的说话场景来执行说话人识别任务。
[0009]确定输入语音的说话场景是单人场景还是多人场景的步骤可包括:当目标说话人的语音特征与原始语音特征之间的均方误差小于阈值时,将输入语音的说话场景确定为单说话人场景;当目标说话人的语音特征与原始语音特征之间的均方误差大于或等于阈值时,将输入语音的说话场景确定为多说话人场景,其中,执行说话人识别任务的步骤包括:当输入语音的说话场景为单说话人场景时,将原始语音特征输入到说话人识别模块,利用预先保存的注册人最终语音特征在接收的输入语音中识别目标说话人;当输入语音的说话
场景为多说话人场景时,将目标说话人的语音特征输入到说话人识别模块,利用注册人最终语音特征在接收的输入语音中识别目标说话人。
[0010]在注册人的声纹注册阶段,所述声纹识别方法还可包括:基于接收的注册人语音,提取注册人语音的原始语音特征;基于注册人语音的原始语音特征,利用说话人识别模块提取注册人中间嵌入语音特征并保存;基于注册人中间嵌入语音特征,利用说话人识别模块提取注册人最终语音特征并保存。
[0011]执行说话人语音提取任务的步骤可包括:利用第一卷积层,从原始语音特征提取目标说话人中间嵌入语音特征;利用拼接层,将目标说话人中间嵌入语音特征和注册人中间嵌入语音特征拼接为拼接特征;利用全卷积层将输入的拼接特征生成掩膜;利用乘法器将掩膜与目标说话人中间嵌入语音特征相乘得到目标说话人的语音特征。
[0012]在端到端深度学习网络训练阶段,端到端深度学习网络还可包括:说话人一致性模块,被配置为对基于说话人识别模块输出的中间嵌入语音特征执行语音转换任务。
[0013]可通过监督学习训练说话人语音提取模块和说话人识别模块,通过自监督学习来训练说话人一致性模块,以获得加权和最小化的第一损失值、第二损失值和第三损失值,其中,第一损失值是说话人语音提取模块的损失值,第二损失值是说话人识别模块的损失值,第三损失值是说话人一致性模块的损失值。
[0014]在本公开的一方面,提供一种端到端的声纹识别装置,所述声纹识别装置包括:端到端深度学习网络的说话人语音提取模块,基于接收的输入语音,执行说话人语音提取任务,以提取目标说话人的语音特征;端到端深度学习网络的说话人识别模块,基于目标说话人的语音特征,执行说话人识别任务,以在接收的输入语音中识别目标说话人。
[0015]所述声纹识别装置还可包括:特征提取模块,基于接收的输入语音,提取输入语音的原始语音特征,其中,说话人语音提取模块被配置为:基于原始语音特征和预先保存的注册人中间嵌入语音特征,执行说话人语音提取任务。
[0016]所述声纹识别装置还可包括:说话场景确定模块,基于目标说话人的语音特征和原始语音特征,确定输入语音的说话场景,所述说话场景包括单人场景和多人场景,其中,说话人识别模块被配置为基于输入语音的说话场景来执行说话人识别任务。
[0017]说话场景确定模块可被配置为:当目标说话人的语音特征与原始语音特征之间的均方误差小于阈值时,将输入语音的说话场景确定为单说话人场景;当目标说话人的语音特征与原始语音特征之间的均方误差大于或等于阈值时,将输入语音的说话场景确定为多说话人场景,其中,说话人识别模块被配置为:当输入语音的说话场景为单说话人场景时,将原始语音特征输入到说话人识别模块,利用预先保存的注册人最终语音特征在接收的输入语音中识别目标说话人;当输入语音的说话场景为多说话人场景时,将目标说话人的语音特征输入到说话人识别模块,利用注册人最终语音特征在接收的输入语音中识别目标说话人。
[0018]在注册人的声纹注册阶段,所述声纹识别装置还可被配置为:基于接收的注册人语音,提取注册人语音的原始语音特征;基于注册人语音的原始语音特征,利用说话人识别模块提取注册人中间嵌入语音特征并保存;基于注册人中间嵌入语音特征,利用说话人识别模块提取注册人最终语音特征并保存。
[0019]说话人语音提取模块可被配置为:利用第一卷积层,从原始语音特征提取目标说
话人中间嵌入语音特征;利用拼接层,将目标说话人中间嵌入语音特征和注册人中间嵌入语音特征拼接为拼接特征;利用全卷积层将输入的拼接特征生成掩膜;利用乘法器将掩膜与目标说话人中间嵌入语音特征相乘得到目标说话人的语音特征。
[0020]在端到端深度学习网络训练阶段,端到端深度学习网络还可包括:说话人一致性模块,被配置为对基于说话人识别模块输出的中间嵌入语音特征执行语音转换任务。
[0021]可通过监督学习训练说话人语音提取模块和说话人识别模块,通过自监督学习来训练说话人一致性模块,以获得加权和最小化的第一损失值、第二损失值和第三损失值,其中,第一损失值是说话人语音提取模块的损失值,第二损失值是说话人识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端的声纹识别方法,所述声纹识别方法包括:基于接收的输入语音,使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务,以提取目标说话人的语音特征;基于目标说话人的语音特征,使用端到端深度学习网络的说话人识别模块执行说话人识别任务,以在接收的输入语音中识别目标说话人。2.如权利要求1所述的声纹识别方法,其中,所述声纹识别方法还包括:基于接收的输入语音,提取输入语音的原始语音特征;其中,执行说话人语音提取任务的步骤包括:基于原始语音特征和预先保存的注册人中间嵌入语音特征,执行说话人语音提取任务。3.如权利要求2所述的声纹识别方法,其中,所述声纹识别方法还包括:基于目标说话人的语音特征和原始语音特征,确定输入语音的说话场景,说话场景包括单人场景和多人场景,其中,执行说话人识别任务的步骤包括:基于输入语音的说话场景来执行说话人识别任务。4.如权利要求3所述的声纹识别方法,其中,确定输入语音的说话场景是单人场景还是多人场景的步骤包括:当目标说话人的语音特征与原始语音特征之间的均方误差小于阈值时,将输入语音的说话场景确定为单说话人场景;当目标说话人的语音特征与原始语音特征之间的均方误差大于或等于阈值时,将输入语音的说话场景确定为多说话人场景,其中,执行说话人识别任务的步骤包括:当输入语音的说话场景为单说话人场景时,将原始语音特征输入到说话人识别模块,利用预先保存的注册人最终语音特征在接收的输入语音中识别目标说话人;当输入语音的说话场景为多说话人场景时,将目标说话人的语音特征输入到说话人识别模块,利用注册人最终语音特征在接收的输入语音中识别目标说话人。5.如权利要求1所述的声纹识别方法,其中,在注册人的声纹注册阶段,所述声纹识别方法还包括:基于...

【专利技术属性】
技术研发人员:王凯张晓雷张淼
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1