基于声学特征生成的身份特征提取方法、设备及存储介质技术

技术编号:38614166 阅读:15 留言:0更新日期:2023-08-26 23:41
本发明专利技术属于说话人确认技术领域,公开了一种基于声学特征生成的身份特征提取方法、设备及存储介质。其中,长声学特征中包含的说话人特征信息多,因此身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征;然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。本发明专利技术利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型能够利用更多的语音信息提取出具有更强区分性的身份特征。出具有更强区分性的身份特征。出具有更强区分性的身份特征。

【技术实现步骤摘要】
基于声学特征生成的身份特征提取方法、设备及存储介质


[0001]本专利技术属于说话人确认
,涉及一种基于声学特征生成的身份特征提取方法、设备及存储介质。

技术介绍

[0002]说话人日志解决的是“谁在什么时候说话”的问题。说话人日志说话人日志通常分成语音活动检测、语音分割、身份特征提取、打分聚类等步骤。
[0003]语音活动检测就是检测静音片段并去除,语音分割就是将整段语音分割成小片段,当小片段足够短的时候可以认为该片段只包含一个说话人,身份特征提取就是使用身份特征提取模型提取小片段的身份特征,最后就是将所有的身份特征两两打分并聚类。
[0004]其中最影响结果的就是提取出来的身份特征的好坏,好的身份特征表现为较小的类内距离,较大的类间距离,相对应的同类的打分高,不同类的打分低。
[0005]可见,身份特征提取的质量决定了后续打分聚类的结果。
[0006]现今即使是最好的身份特征提取模型,虽然面对较长的语音时效果出色,然而在面对较短的语音时效果严重下降。所以通过语音分割的片段越长,提取出来的身份特征越好,打分越靠谱。但是小片段过长,则有很大概率包含多个人的声音,所以小片段不能过长。
[0007]如图1所示,为了保证分割出的语音片段中只包含一个人的语音,往往分割出的语音片段比较短。而短语音片段中包含的信息较少,提取出来的身份特征也没有很强的区分度。
[0008]因此,需要提出一个在短语音条件下更鲁棒的身份特征提取模型,以便针对短语音条件下的身份特征提取进行优化,从而改善整个说话人日志任务的效果。

技术实现思路

[0009]本专利技术的目的在于提出一种基于声学特征生成的身份特征提取方法,以实现在短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
[0010]本专利技术为了实现上述目的,采用如下技术方案:一种基于声学特征生成的身份特征提取方法,包括如下步骤:步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型;生成模型包括上下文编码器、时间步编码器以及解码器;上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征;身份特征提取模型采用预训练好的身份特征提取模型;其中,短音频在网络模型中的信号处理流程如下:短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特
征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;步骤2. 利用训练集对生成模型进行训练,优化生成模型的网络参数;步骤3. 在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。
[0011]在上述基于声学特征生成的身份特征提取方法的基础上,本专利技术还提出了一种计算机设备,该计算机设备包括存储器和一个或多个处理器。
[0012]所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上面述及的基于声学特征生成的身份特征提取方法的步骤。
[0013]在上述基于声学特征生成的身份特征提取方法的基础上,本专利技术还提出了一种计算机可读存储介质,在计算机可读存储介质上存储有程序。
[0014]该程序被处理器执行时用于实现上述基于声学特征生成的身份特征提取方法的步骤。
[0015]本专利技术具有如下优点:如上所述,本专利技术述及了一种基于声学特征生成的身份特征提取方法,该身份特征提取方法设计并训练出一个生成模型,其能够根据短音频的声学特征生成更长的声学特征,从而使得身份特征提取模型能够利用生成的长声学特征提取出具有较好区分度的身份特征,实现了短语音条件下的身份特征提取的优化,从而利于改善整个说话人日志任务的效果。
附图说明
[0016]图1为现有技术中身份特征提取方法的流程图。
[0017]图2为本专利技术实施例中基于声学特征生成的身份特征提取方法的流程图。
[0018]图3为本专利技术实施例中上下文编码器的结构示意图。
[0019]图4为本专利技术实施例中时间步编码器的结构示意图。
[0020]图5为本专利技术实施例中解码器的结构示意图。
具体实施方式
[0021]下面结合附图以及具体实施方式对本专利技术作进一步详细说明:实施例1长声学特征中包含的说话人特征信息多,因此,身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征。然而声学特征越短,其中包含的说话人特征信息就越少,因此,身份特征提取模型提取出的身份特征较差。
[0022]针对该问题,本实施例利用预训练好的身份特征提取模型训练出一个生成模型,该生成模型能够生成更长的声学特征。在使用时,先将声学特征输入训练好的生成模型中,以获得更长的声学特征,再将更长的声学特征输入身份特征提取模型中,身份特征提取模型将利用更多的语音信息提取出具有更强区分性的身份特征,最终获得更加准确的打分。
[0023]如图2所示,本专利技术的核心就是训练出一个生成模型,输入较短的数据例如1.5秒的声学特征,输出生成的1.5秒的声学特征,再利用一共3秒的声学特征提取出身份特征,该身份特征相比于只利用1.5秒声学特征提取出的身份特征可区分性更强。
[0024]通过此种方式获得了在短语音条件下更鲁棒的身份特征提取。
[0025]如图2所示,本实施例中基于声学特征生成的身份特征提取方法,包括如下步骤:步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型。
[0026]生成模型包括上下文编码器、时间步编码器以及解码器。
[0027]上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征。
[0028]身份特征提取模型采用预训练好的身份特征提取模型。
[0029]其中,短音频在网络模型中的信号处理流程如下:短音频的第一声学特征(将获取到的短音频的声学特征)首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量。
[0030]本实施例中短音频是指小于或等于2秒的音频。
[0031]解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征。
[0032]将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征。
[0033]如图3所示,上下文编码器包括一维卷积层、池化层以及线性层。
[0034]定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声学特征生成的身份特征提取方法,其特征在于,包括如下步骤:步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型;生成模型包括上下文编码器、时间步编码器以及解码器;上下文编码器用于提取输入的上下文内容信息并输出上下文向量;时间步编码器用于提取输入中关于时间的信息并输出时间向量,编码器用于生成声学特征;身份特征提取模型采用预训练好的身份特征提取模型;其中,短音频在网络模型中的信号处理流程如下:短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量;解码器基于上下文向量以及时间向量生成第二声学特征;将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接,得到拼接后的第三声学特征;将拼接后的第三声学特征输入到预训练好的身份特征提取模型中,输出身份特征;步骤2. 利用训练集对生成模型进行训练,优化生成模型的网络参数;步骤3. 在使用时,首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征,然后第一声学特征与第二声学特征拼接得到第三声学特征;将拼接得到的第三声学特征输入到身份特征提取模型中,从而提取出身份特征。2.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,所述上下文编码器包括一维卷积层、池化层以及线性层;定义短音频的第一声学特征的通道数为C,帧数为T,输入数据的尺寸为C
×
T,则一维卷积层的输入通道数是C,输出通道数是1500,卷积核大小是1;第一声学特征通过一维卷积层后输出尺寸为1500
×
T;池化层使用均值和方差进行池化,在通道维度上求均值和方差,再将均值和方差拼接输出,池化层的输出变成维度为3000的向量;最后通过一个线性层将数据维度变成512,线性层输出的上下文向量即为上下文编码器的输出,该上下文向量中包含声学特征的内容信息。3.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,所述时间步编码器其包含单层双向GRU层以及线性层;GRU层的输入维度是C,其隐藏层维度为512,将两个方向的隐藏层输出进行拼接,再输入线性层,最后输出512维的时间向量,该时间向量包含声学特征的时间信息。4.根据权利要求1所述的基于声学特征生成的身份特征提取方法,其特征在于,解码器包括GRU层以及线性层;GRU层是单层单向的,隐藏层维度是512;定义生成的声学特征的帧数为M帧,则需要进行M步计算,每步输出一帧数据,每帧数据都由GRU层和线性层计算得来;第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成,GRU的隐藏层输入为时间向量;第二步至第M步的计算过程为:当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到,GRU的隐藏层输...

【专利技术属性】
技术研发人员:魏光村许云飞张艳娜闵航潘志飞方卿阁孟春雨郭泊言
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1