基于嵌入增强的超短时说话人确认方法、设备及介质技术

技术编号：38550929 阅读：14 留言：0更新日期：2023-08-22 20:57

本发明专利技术属于说话人确认技术领域，公开了一种基于嵌入增强的超短时说话人确认方法、设备及介质。本发明专利技术方法包括如下步骤：搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型；语音在网络模型中的处理流程如下：输入的语音首先经过说话人确认模型输出相对较差的第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到相对较好的第二说话人嵌入；保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型；利用训练好的网络模型，对输入的语音进行说话人确。本发明专利技术利于提升现有的说话人确认模型在超短时条件下的说话人确认效果。确认模型在超短时条件下的说话人确认效果。确认模型在超短时条件下的说话人确认效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于嵌入增强的超短时说话人确认方法、设备及介质

[0001]本专利技术属于说话人确认
，特别涉及一种基于嵌入增强的超短时说话人确认方法、设备及介质。

技术介绍

[0002]声纹识别是通过语音确定说话人身份的任务，说话人确认是声纹识别研究的一个分支。说话人确认是根据当前语音数据与注册过的说话人语音进行比对，从而判断是否是同一个说话人的任务。说话人确认模型可分为端到端的模型和分阶段的模型。
[0003]其中，端到端的说话人确认以一对语音作为输入，直接生成该对语音的相似性分数。分阶段的说话人确认分成前端和后端两个阶段，前端阶段用于说话人身份特征提取，即将说话人语音数据生成一个矢量，后端阶段用于对生成的一对矢量进行相似性计算从而判断两段语音是否属于同一说话人。现如今研究最多、使用最广泛的是分阶段的模型。
[0004]后端阶段常用余弦距离和概率线性判别分析帮助判别。而前端阶段的网络模型多种多样，最具代表性的是基于时延神经网络的x
‑
vector，很多工作都是在其基础上做了改进，并且在特定测试条件下已经达到了非常好的效果。实验表明，说话人确认系统的性能随语音时长减少而降低，而现阶段得到的较优的效果都是基于尽可能长的语音测试而来的。
[0005]现实中很难获取到足够长的语音数据，所以在实际使用中系统的效果比预期要差很多。
[0006]曾经的研究认为5
‑
10秒是短时问题，并做了很多优化。然而随着深度学习时代的到来，5
‑
10秒已经不再是问题...

【技术保护点】

【技术特征摘要】
1.基于嵌入增强的超短时说话人确认方法，其特征在于，包括如下步骤：步骤1. 搭建网络模型，其包括预先训练好的说话人确认模型以及增强器模型；语音在网络模型中的处理流程如下：输入的语音首先经过说话人确认模型输出第一说话人嵌入，紧接着该第一说话人嵌入输入到增强器模型后，得到第二说话人嵌入；步骤2. 保持说话人确认模型的模型参数不变，使用训练语音对网络模型进行训练，从而优化增强器模型的模型参数，进而得到训练好的增强器模型；步骤3. 利用训练好的网络模型，对输入的语音进行说话人确认。2.根据权利要求1所述的基于嵌入增强的超短时说话人确认方法，其特征在于，所述步骤1中，增强器模型包括输入层、隐藏层以及输出层；输入层包含一个第一全连接层，该输入层使用LeakyReLU进行激活；隐藏层由三个残差块组成，隐藏层的输入输出维度为512；每个残差块由第二全连接层以及第三全连接层组成；第二全连接层用LeakyReLU进行激活，将第三全连接层的输出与残差块的输入相加后使用LeakyReLU进行激活；输出层使用一个第四全连接层；第一说话人嵌入在增强器模型中的处理流程如下：定义第一说话人嵌入为D维的向量；第一说话人嵌入先经过第一全连接层和LeakyReLU激活函数的计算，得到512维的输入向量，该输入向量经过三个残差块的计算得到512维度的输出向量；最后该输出向量经过输出层得到D维的向量，即第二说话人嵌入。3.根据权利要求2所述的基于嵌入增强的超短时说话人确认方法，其特征在于，所述步骤2中，增强器模型的训练过程如下：定义一共有N条用于训练的语音，每个批次的训练过程如下：步骤2.1. 从N个训练语音中随机选择n个语音，n为每批训练的语音数量；步骤2.2. 对n个语音中的每一个语音，均使用随机的方式截取t秒的短语音以及2t秒的长语音，则一共得到n个短语音和n个长语音；步骤2.3....

【专利技术属性】
技术研发人员：杨爽，刘天，黄开，李波，孙彬，晁聪，陈聪，纪发蕾，
申请(专利权)人：国网山东省电力公司菏泽供电公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人