当前位置: 首页 > 专利查询>浙江大学专利>正文

基于语音转换的声纹重构模型构建方法、装置和存储介质制造方法及图纸

技术编号:36932824 阅读:11 留言:0更新日期:2023-03-22 18:55
本说明书实施例提供了一种基于语音转换的声纹重构模型构建方法、装置和存储介质,所述方法包括:基于语音转换构建第一训练集和第二训练集,所述第一训练集用于指示伪装者的原声,所述第二训练集用于指示伪装者通过语音转化得到的声音;根据所述第一训练集,构建第一语音向量;根据所述第二训练集,构建第二语音向量;根据所述第一语音向量和所述第二语音向量,通过向量分解法,确定伪装者原声的特征向量。本申请提供的技术方案用以解决现有技术不能识别伪装者原声的问题。能识别伪装者原声的问题。能识别伪装者原声的问题。

【技术实现步骤摘要】
基于语音转换的声纹重构模型构建方法、装置和存储介质


[0001]本文件涉及人工智能与计算机安全领域,尤其涉及一种基于语音转换的声纹重构模型构建方法、装置和存储介质。

技术介绍

[0002]有部分用户利用语音转换技术,通过模仿他人的声音伪装成相应的身份,这会给个人安全带来隐患。
[0003]现有的语音转换检测技术通常基于人工智能,辨认一段音频是真实采样的还是虚假生成的。
[0004]然而,上述方案并不能识别伪装者的原声,因此很难识别伪装者的身份信息。对于个人安全而言,上述方法只能治标,不能治本,无法彻底消除存在的安全隐患。

技术实现思路

[0005]鉴于上述的分析,本申请旨在提出了一种基于语音转换的声纹重构模型构建方法、装置和存储介质,能够识别模仿声音的伪装者的原声,以便于识别伪装者的身份信息。
[0006]第一方面,本说明书一个或多个实施例提供了一种基于语音转换的声纹重构模型构建方法,包括:基于语音转换构建第一训练集和第二训练集,所述第一训练集用于指示伪装者的原声,所述第二训练集用于指示伪装者通过语音转化得到的声音;根据所述第一训练集,构建第一语音向量;根据所述第二训练集,构建第二语音向量;根据所述第一语音向量和所述第二语音向量,通过向量分解法,确定伪装者原声的特征向量。
[0007]进一步地,所述基于语音转换构建第一训练集和第二训练集,包括:采集多个原声数据和多个语音转换模型;利用所述多个原声数据构建所述第一训练集;利用任一所述语音转换模型将任一所述原声数据对应的声纹转换成另一个所述原声语音数据对应的声纹,得到所述第二训练集的一个训练样本。
[0008]进一步地,根据所述第一训练集,构建第一语音向量,包括:确定所述第一训练集中的各训练样本对应的语音向量;确定各所述训练样本对应的语音向量的平均向量为所述第一语音向量。
[0009]进一步地,根据所述第二训练集,构建第二语音向量,包括:确定所述第二训练集中的各训练样本对应的语音向量;确定各所述训练样本对应的语音向量的平均向量为所述第二语音向量。
[0010]进一步地,所述根据所述第一语音向量和所述第二语音向量,通过向量分解法,确定伪装者原声的特征向量,包括:
以所述第二语音向量的方向为坐标轴,创建坐标系;在所述坐标系下,分解所述第一语音向量为正交分量和平行分量;根据所述平行分量和所述第一语音向量,确定所述伪装者原声的特征向量。
[0011]第二方面,本说明书一个或多个实施例提供了一种基于语音转换的声纹重构模型构建装置,包括:训练集构建模块、向量构建模块和数据处理模块;所述训练集构建模块用于基于语音转换构建第一训练集和第二训练集,所述第一训练集用于指示伪装者的原声,所述第二训练集用于指示伪装者通过语音转化得到的声音;所述向量构建模块用于根据所述第一训练集,构建第一语音向量;根据所述第二训练集,构建第二语音向量;所述数据处理模块用于根据所述第一语音向量和所述第二语音向量,通过向量分解法,确定伪装者原声的特征向量。
[0012]进一步地,所述训练集构建模块用于采集多个原声数据和多个语音转换模型;利用所述多个原声数据构建所述第一训练集;利用任一所述语音转换模型将任一所述原声数据对应的声纹转换成另一个所述原声语音数据对应的声纹,得到所述第二训练集的一个训练样本。
[0013]进一步地,所述向量构建模块用于确定所述第一训练集中的各训练样本对应的语音向量;确定各所述训练样本对应的语音向量的平均向量为所述第一语音向量。
[0014]进一步地,所述数据处理模块用于以所述第二语音向量的方向为坐标轴,创建坐标系;在所述坐标系下,分解所述第一语音向量为正交分量和平行分量;根据所述平行分量和所述第一语音向量,确定所述伪装者原声的特征向量。
[0015]第三方面,本说明书一个或多个实施例提供了一种存储介质,包括:用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现第一方面所述的方法。
[0016]与现有技术相比,本申请至少能实现以下技术效果:1、基于伪装者的原声和伪装者通过语音转化得到的声音构建训练集,为得到伪装者的原声提供数据基础。
[0017]2、通过向量分解法有效地分离伪装者原声和被伪装的声音,使得声纹重构模型能识别出伪装者的原声。
[0018]3、该方案计算过程简单,适用性较强,可以适用于音频语种未包含于训练集、模仿电话录音的物理域等场景下。
附图说明
[0019]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本说明书一个或多个实施例提供的一种基于语音转换的声纹重构模型构建方法流程图。
具体实施方式
[0021]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0022]基于机器学习的语音转换技术能够在保持说话内容不变的情况下,让原始说话人的声音听起来像是目标说话人,目前已在电影配音、言语障碍帮扶、声音模仿等领域得到了广泛的应用。因此,伪装者基于上述技术,将自己的声音转化成其他人的声音,上述行为会损害个人安全。而如果只是单纯识别声音是否被模仿,伪装者可以换一种方法继续模仿其他人的声音。显然,现有技术不能很好震慑这些伪装者,因此很难起到标本兼治的效果。
[0023]为了解决上述技术问题,本申请实施例提供了一种基于语音转换的声纹重构模型构建方法,如图1所示,包括以下步骤:步骤1、基于语音转换构建第一训练集和第二训练集。
[0024]在本申请实施例中,第一训练集用于指示伪装者的原声,第二训练集用于指示伪装者通过语音转化得到的声音。步骤1具体包括:(1.1)搜集说话人语音数据集:搜集若干开源的说话人语音数据集,构成总人数为n的训练数据集说话人集合,每个说话人包含若干条长度不一的音频数据,保证训练人数与训练数据的充足性。集合S即为第一训练集,s1,s2…
,s
n
即为原声数据。
[0025](1.2)预处理说话人语音数据集:将所有说话人语音数据集的命名格式调整为统一规范,并使用FFmpeg工具将音频数据重采样为所需采样率下的wav格式,便于后续语音转换模型的训练。
[0026](1.3)训练语音转换模型:调研多种现有的主流语音转换方法,采用开源的预训练模型或自行训练以复现预期效果,得到多种语音转换模型。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音转换的声纹重构模型构建方法,其特征在于,包括:基于语音转换构建第一训练集和第二训练集,所述第一训练集用于指示伪装者的原声,所述第二训练集用于指示伪装者通过语音转化得到的声音;根据所述第一训练集,构建第一语音向量;根据所述第二训练集,构建第二语音向量;根据所述第一语音向量和所述第二语音向量,通过向量分解法,确定伪装者原声的特征向量。2.根据权利要求1所述的方法,其特征在于,所述基于语音转换构建第一训练集和第二训练集,包括:采集多个原声数据和多个语音转换模型;利用所述多个原声数据构建所述第一训练集;利用任一所述语音转换模型将任一所述原声数据对应的声纹转换成另一个所述原声语音数据对应的声纹,得到所述第二训练集的一个训练样本。3.根据权利要求1所述的方法,其特征在于,根据所述第一训练集,构建第一语音向量,包括:确定所述第一训练集中的各训练样本对应的语音向量;确定各所述训练样本对应的语音向量的平均向量为所述第一语音向量。4.根据权利要求1所述的方法,其特征在于,根据所述第二训练集,构建第二语音向量,包括:确定所述第二训练集中的各训练样本对应的语音向量;确定各所述训练样本对应的语音向量的平均向量为所述第二语音向量。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一语音向量和所述第二语音向量,通过向量分解法,确定伪装者原声的特征向量,包括:以所述第二语音向量的方向为坐标轴,创建坐标系;在所述坐标系下,分解所述第一语音向量为正交分量和平行分量;根据所述平行分量和所述第一语音向量,确定所述伪装者原...

【专利技术属性】
技术研发人员:陈艳姣徐文渊邓江毅苗钱浩
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1