基于嵌入增强的超短时说话人确认方法、设备及介质技术

技术编号:38550929 阅读:14 留言:0更新日期:2023-08-22 20:57
本发明专利技术属于说话人确认技术领域,公开了一种基于嵌入增强的超短时说话人确认方法、设备及介质。本发明专利技术方法包括如下步骤:搭建网络模型,其包括预先训练好的说话人确认模型以及增强器模型;语音在网络模型中的处理流程如下:输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入,紧接着该第一说话人嵌入输入到增强器模型后,得到相对较好的第二说话人嵌入;保持说话人确认模型的模型参数不变,使用训练语音对网络模型进行训练,从而优化增强器模型的模型参数,进而得到训练好的增强器模型;利用训练好的网络模型,对输入的语音进行说话人确。本发明专利技术利于提升现有的说话人确认模型在超短时条件下的说话人确认效果。确认模型在超短时条件下的说话人确认效果。确认模型在超短时条件下的说话人确认效果。

【技术实现步骤摘要】
基于嵌入增强的超短时说话人确认方法、设备及介质


[0001]本专利技术属于说话人确认
,特别涉及一种基于嵌入增强的超短时说话人确认方法、设备及介质。

技术介绍

[0002]声纹识别是通过语音确定说话人身份的任务,说话人确认是声纹识别研究的一个分支。说话人确认是根据当前语音数据与注册过的说话人语音进行比对,从而判断是否是同一个说话人的任务。说话人确认模型可分为端到端的模型和分阶段的模型。
[0003]其中,端到端的说话人确认以一对语音作为输入,直接生成该对语音的相似性分数。分阶段的说话人确认分成前端和后端两个阶段,前端阶段用于说话人身份特征提取,即将说话人语音数据生成一个矢量,后端阶段用于对生成的一对矢量进行相似性计算从而判断两段语音是否属于同一说话人。现如今研究最多、使用最广泛的是分阶段的模型。
[0004]后端阶段常用余弦距离和概率线性判别分析帮助判别。而前端阶段的网络模型多种多样,最具代表性的是基于时延神经网络的x

vector,很多工作都是在其基础上做了改进,并且在特定测试条件下已经达到了非常好的效果。实验表明,说话人确认系统的性能随语音时长减少而降低,而现阶段得到的较优的效果都是基于尽可能长的语音测试而来的。
[0005]现实中很难获取到足够长的语音数据,所以在实际使用中系统的效果比预期要差很多。
[0006]曾经的研究认为5

10秒是短时问题,并做了很多优化。然而随着深度学习时代的到来,5

10秒已经不再是问题,并且现阶段的基于深度学习的说话人确认模型,在大于2秒的条件下也有不错的效果,而对于小于2秒也就是超短时条件下,判别效果较差。

技术实现思路

[0007]本专利技术的目的在于提出一种基于嵌入增强的超短时说话人确认方法,以提升现有的说话人确认模型在超短时条件下的说话人确认效果。
[0008]本专利技术为了实现上述目的,采用如下技术方案:一种基于嵌入增强的超短时说话人确认方法,包括如下步骤:基于嵌入增强的超短时说话人确认方法,包括如下步骤:步骤1. 搭建网络模型,其包括预先训练好的说话人确认模型以及增强器模型;语音在网络模型中的处理流程如下:输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入,紧接着该第一说话人嵌入输入到增强器模型后,得到相对较好的第二说话人嵌入;步骤2. 保持说话人确认模型的模型参数不变,使用训练语音对网络模型进行训练,从而优化增强器模型的模型参数,进而得到训练好的增强器模型;步骤3. 利用训练好的网络模型,对输入的语音进行说话人确认。
[0009]优选的,增强器模型包括输入层、隐藏层以及输出层;
输入层包含一个第一全连接层,该输入层使用LeakyReLU进行激活;隐藏层由三个残差块组成,隐藏层的输入输出维度为512;每个残差块由第二全连接层以及第三全连接层组成;第二全连接层用LeakyReLU进行激活,将第三全连接层的输出与残差块的输入相加后使用LeakyReLU进行激活;输出层使用一个第四全连接层;相对较差的第一说话人嵌入在增强器模型中的处理流程如下:定义第一说话人嵌入为D维的向量;第一说话人嵌入先经过第一全连接层和LeakyReLU激活函数的计算,得到512维的输入向量,该输入向量经过三个残差块的计算得到512维度的输出向量;最后该输出向量经过输出层得到D维的向量,即相对较好的第二说话人嵌入。
[0010]在上述基于嵌入增强的超短时说话人确认方法的基础上,本专利技术还提出了一种计算机设备,该计算机设备包括存储器和一个或多个处理器。
[0011]所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上面述及的基于嵌入增强的超短时说话人确认方法的步骤。
[0012]在上述基于嵌入增强的超短时说话人确认方法的基础上,本专利技术还提出了一种计算机可读存储介质,在计算机可读存储介质上存储有程序。
[0013]该程序被处理器执行时用于实现上述基于嵌入增强的超短时说话人确认方法的步骤。
[0014]本专利技术具有如下优点:如上所述,本专利技术述及了一种基于嵌入增强的超短时说话人确认方法、设备及介质。其中,本专利技术设计并训练了一个增强器模型,该增强器模型能够将差的嵌入映射到好的嵌入,差的说话人嵌入表现为较大的类内距离和较小的类间距离,区分度较差,而好的说话人嵌入表现为较小的类内距离和较大的类间距离,因此有较好的区分度,使用较好区分度的说话人嵌入进行打分后的结果也更准确,从而对语音身份的判别更准确。本专利技术方法既能够保持现有说话人确认模型在长语音条件下的性能,又能够提升在短语音条件下的性能,实用性强。
附图说明
[0015]图1为本专利技术实施例中基于嵌入增强的超短时说话人确认方法的模型图。
[0016]图2为本专利技术实施例中增强器的模型图。
[0017]图3为本专利技术实施例中增强器训练的原理示意图。
具体实施方式
[0018]下面结合附图以及具体实施方式对本专利技术作进一步详细说明:实施例1将长语音输入说话人确认模型后提取出来的说话人嵌入(即代表说话人身份的向量),会呈现同一人的说话人嵌入聚集在一起,而不同人的说话人嵌入离得比较远,即类内距离小、类间距离大,这样就很容易判别不同人的语音。
[0019]因此,在长语音条件下,说话人确认模型的判别效果比较好。
[0020]然而,在短语音条件下,说话人嵌入的类内距离大,类间距离小。因此,在短语音条件下,现有说话人确认模型无法很好地区分不同的说话人,判别效果较差。
[0021]综上,造成短语音条件下性能下降的主要原因是,提取出来的说话人嵌入较“差”。
[0022]基于此,本实施例1提出了一种嵌入增强的超短时说话人确认方法,该方法的主要思想是使用一个深度学习模型来增强“差”的说话人嵌入,增强后变成“好”的说话人嵌入,也就是表现出类内距离小、类间距离大的说话人嵌入。
[0023]其原理图见图1,它与原先说话人确认系统的唯一区别是增加了一个增强器模型。
[0024]如图1所示,本实施例中基于嵌入增强的超短时说话人确认方法,包括如下步骤:步骤1. 搭建网络模型,其包括预先训练好的说话人确认模型以及增强器模型。
[0025]本实施例中的说话人确认模型可采用ECAPA

TDNN模型。当然,也并不局限于采用该ECAPA

TDNN模型,其他现有说话人确认模型也非常适用。
[0026]本专利技术所提基于嵌入增强的超短时说话人确认方法能够应用于多种说话人确认模型。
[0027]语音在网络模型中的处理流程如下:输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入,紧接着该第一说话人嵌入输入到增强器模型后,得到相对较好的第二说话人嵌入。
[0028]增强器模型的结构见图2,该增强器模型的输入和输出均为说话人嵌入。其中,模型输入为相对较差的第一说话人嵌入,模型输出为相对较好的第二说话人嵌本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于嵌入增强的超短时说话人确认方法,其特征在于,包括如下步骤:步骤1. 搭建网络模型,其包括预先训练好的说话人确认模型以及增强器模型;语音在网络模型中的处理流程如下:输入的语音首先经过说话人确认模型输出第一说话人嵌入,紧接着该第一说话人嵌入输入到增强器模型后,得到第二说话人嵌入;步骤2. 保持说话人确认模型的模型参数不变,使用训练语音对网络模型进行训练,从而优化增强器模型的模型参数,进而得到训练好的增强器模型;步骤3. 利用训练好的网络模型,对输入的语音进行说话人确认。2.根据权利要求1所述的基于嵌入增强的超短时说话人确认方法,其特征在于,所述步骤1中,增强器模型包括输入层、隐藏层以及输出层;输入层包含一个第一全连接层,该输入层使用LeakyReLU进行激活;隐藏层由三个残差块组成,隐藏层的输入输出维度为512;每个残差块由第二全连接层以及第三全连接层组成;第二全连接层用LeakyReLU进行激活,将第三全连接层的输出与残差块的输入相加后使用LeakyReLU进行激活;输出层使用一个第四全连接层;第一说话人嵌入在增强器模型中的处理流程如下:定义第一说话人嵌入为D维的向量;第一说话人嵌入先经过第一全连接层和LeakyReLU激活函数的计算,得到512维的输入向量,该输入向量经过三个残差块的计算得到512维度的输出向量;最后该输出向量经过输出层得到D维的向量,即第二说话人嵌入。3.根据权利要求2所述的基于嵌入增强的超短时说话人确认方法,其特征在于,所述步骤2中,增强器模型的训练过程如下:定义一共有N条用于训练的语音,每个批次的训练过程如下:步骤2.1. 从N个训练语音中随机选择n个语音,n为每批训练的语音数量;步骤2.2. 对n个语音中的每一个语音,均使用随机的方式截取t秒的短语音以及2t秒的长语音,则一共得到n个短语音和n个长语音;步骤2.3....

【专利技术属性】
技术研发人员:杨爽刘天黄开李波孙彬晁聪陈聪纪发蕾
申请(专利权)人:国网山东省电力公司菏泽供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1