基于声学特征生成的身份特征提取方法、设备及存储介质技术

技术编号：38614166 阅读：15 留言：0更新日期：2023-08-26 23:41

本发明专利技术属于说话人确认技术领域，公开了一种基于声学特征生成的身份特征提取方法、设备及存储介质。其中，长声学特征中包含的说话人特征信息多，因此身份特征提取模型能够利用长声学特征提取出具有较好区分度的身份特征；然而声学特征越短，其中包含的说话人特征信息就越少，因此，身份特征提取模型提取出的身份特征较差。本发明专利技术利用预训练好的身份特征提取模型训练出一个生成模型，该生成模型能够生成更长的声学特征。在使用时，先将声学特征输入训练好的生成模型中，以获得更长的声学特征，再将更长的声学特征输入身份特征提取模型中，身份特征提取模型能够利用更多的语音信息提取出具有更强区分性的身份特征。出具有更强区分性的身份特征。出具有更强区分性的身份特征。

全部详细技术资料下载

【技术实现步骤摘要】
基于声学特征生成的身份特征提取方法、设备及存储介质

[0001]本专利技术属于说话人确认
，涉及一种基于声学特征生成的身份特征提取方法、设备及存储介质。

技术介绍

[0002]说话人日志解决的是“谁在什么时候说话”的问题。说话人日志说话人日志通常分成语音活动检测、语音分割、身份特征提取、打分聚类等步骤。
[0003]语音活动检测就是检测静音片段并去除，语音分割就是将整段语音分割成小片段，当小片段足够短的时候可以认为该片段只包含一个说话人，身份特征提取就是使用身份特征提取模型提取小片段的身份特征，最后就是将所有的身份特征两两打分并聚类。
[0004]其中最影响结果的就是提取出来的身份特征的好坏，好的身份特征表现为较小的类内距离，较大的类间距离，相对应的同类的打分高，不同类的打分低。
[0005]可见，身份特征提取的质量决定了后续打分聚类的结果。
[0006]现今即使是最好的身份特征提取模型，虽然面对较长的语音时效果出色，然而在面对较短的语音时效果严重下降。所以通过语音分割的片段越长，提取出来的身份特征越好，打分越靠谱。但是小片段过长，则有很大概率包含多个人的声音，所以小片段不能过长。
[0007]如图1所示，为了保证分割出的语音片段中只包含一个人的语音，往往分割出的语音片段比较短。而短语音片段中包含的信息较少，提取出来的身份特征也没有很强的区分度。
[0008]因此，需要提出一个在短语音条件下更鲁棒的身份特征提取模型，以便针对短语音条件下的身份特征提取进行优化，从而...

【技术保护点】

【技术特征摘要】
1.一种基于声学特征生成的身份特征提取方法，其特征在于，包括如下步骤：步骤1. 搭建包括生成模型以及身份特征提取模型的网络模型；生成模型包括上下文编码器、时间步编码器以及解码器；上下文编码器用于提取输入的上下文内容信息并输出上下文向量；时间步编码器用于提取输入中关于时间的信息并输出时间向量，编码器用于生成声学特征；身份特征提取模型采用预训练好的身份特征提取模型；其中，短音频在网络模型中的信号处理流程如下：短音频的第一声学特征首先经过生成模型的上下文编码器、时间步编码器分别提取得到第一声学特征的上下文向量以及时间向量；解码器基于上下文向量以及时间向量生成第二声学特征；将短音频的第一声学特征以及解码器生成的第二声学特征进行拼接，得到拼接后的第三声学特征；将拼接后的第三声学特征输入到预训练好的身份特征提取模型中，输出身份特征；步骤2. 利用训练集对生成模型进行训练，优化生成模型的网络参数；步骤3. 在使用时，首先将短音频的第一声学特征输入训练好的生成模型中得到第二声学特征，然后第一声学特征与第二声学特征拼接得到第三声学特征；将拼接得到的第三声学特征输入到身份特征提取模型中，从而提取出身份特征。2.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，所述上下文编码器包括一维卷积层、池化层以及线性层；定义短音频的第一声学特征的通道数为C，帧数为T，输入数据的尺寸为C
×
T，则一维卷积层的输入通道数是C，输出通道数是1500，卷积核大小是1；第一声学特征通过一维卷积层后输出尺寸为1500
×
T；池化层使用均值和方差进行池化，在通道维度上求均值和方差，再将均值和方差拼接输出，池化层的输出变成维度为3000的向量；最后通过一个线性层将数据维度变成512，线性层输出的上下文向量即为上下文编码器的输出，该上下文向量中包含声学特征的内容信息。3.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，所述时间步编码器其包含单层双向GRU层以及线性层；GRU层的输入维度是C，其隐藏层维度为512，将两个方向的隐藏层输出进行拼接，再输入线性层，最后输出512维的时间向量，该时间向量包含声学特征的时间信息。4.根据权利要求1所述的基于声学特征生成的身份特征提取方法，其特征在于，解码器包括GRU层以及线性层；GRU层是单层单向的，隐藏层维度是512；定义生成的声学特征的帧数为M帧，则需要进行M步计算，每步输出一帧数据，每帧数据都由GRU层和线性层计算得来；第一步的GRU层输入由上下文编码器输出的上下文向量以及短音频的第一声学特征的最后一帧数据拼接而成，GRU的隐藏层输入为时间向量；第二步至第M步的计算过程为：当前步GRU层的输入均是由上下文编码器输出的上下文向量以及上一步生成的前一帧声学特征进行拼接得到，GRU的隐藏层输...

【专利技术属性】
技术研发人员：魏光村，许云飞，张艳娜，闵航，潘志飞，方卿阁，孟春雨，郭泊言，
申请(专利权)人：山东科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人