多模态语音分离方法、训练方法及相关装置制造方法及图纸

技术编号:36378795 阅读:6 留言:0更新日期:2023-01-18 09:39
本申请公开了一种多模态语音分离方法、训练方法及相关装置,该方法包括:获得包含目标对象的音视频数据;其中,所述音视频数据包含所述目标对象的唇部视频数据;将所述音视频数据输入至训练后的多模态语音分离网络中,获得与所述目标对象的唇部视频数据相关的音频数据;其中,训练所述多模态语音分离网络的多个训练样本基于其经过所述多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分所述子集对所述多模态语音分离网络再次进行训练。通过上述方式,本申请能够提高多模态语音分离的准确性。模态语音分离的准确性。模态语音分离的准确性。

【技术实现步骤摘要】
多模态语音分离方法、训练方法及相关装置


[0001]本申请涉及语音识别
,特别是涉及一种多模态语音分离方法、训练方法及相关装置。

技术介绍

[0002]随着人机交互方式的不断发展,从传统的触控交互,到语音交互,再到现在的多模态人机交互,其所带来的高效、便捷、舒适、安全等特点成为用户新的追求。多模态语音分离作为多模态前段最重要的技术之一,成为相关领域研究人员研究的热点。多模态语音分离通过提取说话人的唇形,更进一步识别出干扰语音以及说话人的语音。然而,多模态信号之间的时间偏差以及说话人唇形信号被遮挡等因素,容易对多模态语音分离的结果的准确性产生影响。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种多模态语音分离方法、训练方法及相关装置,能够提高多模态语音分离的准确性。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种多模态语音分离方法,包括:获得包含目标对象的音视频数据;其中,所述音视频数据包含所述目标对象的唇部视频数据;将所述音视频数据输入至训练后的多模态语音分离网络中,获得与所述目标对象的唇部视频数据相关的音频数据;其中,训练所述多模态语音分离网络的多个训练样本基于其经过所述多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分所述子集对所述多模态语音分离网络再次进行训练。
[0005]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种多模态语音分离网络训练方法,包括:利用多个第一训练样本训练多模态语音分离网络;其中,每个所述第一训练样本具有真实值标签;响应于所述多个第一训练样本在训练所述多模态语音分离网络时的第一损失之间的差值大于或等于第一阈值,基于多个所述第一损失将多个所述第一训练样本划分为多个子集;其中,同一所述子集内的多个所述训练样本的所述第一损失之间的差值小于所述第一阈值;基于至少部分所述子集对所述多模态语音分离网络再次进行训练。
[0006]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种多模态语音分离装置,包括:第一获得模块,用于获得包含目标对象的音视频数据;其中,所述音视频数据包含所述目标对象的唇部视频数据;第二获得模块,用于将所述音视频数据输入至训练后的多模态语音分离网络中,获得与所述目标对象的唇部视频数据相关的音频数据;其中,训练所述多模态语音分离网络的多个训练样本基于其经过所述多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分所述子集对所述多模态语音分离网络再次进行训练。
[0007]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种电子设备,包括
相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述技术方案中的多模态语音分离方法或上述技术方案中的多模态语音分离网络训练方法。
[0008]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,存储有能够被处理器运行的程序指令,所述程序指令用于实现上述技术方案中的多模态语音分离方法或上述技术方案中的多模态语音分离网络训练方法。
[0009]本申请的有益效果是:区别于现有技术的情况,本申请根据多个训练样本的第一损失将多个训练样本划分为多个子集。并针对不同的子集,利用不同的训练方式对多模态语音分离网络进行训练,以提高多模态语音分离网络的训练速度。并且,训练后的多模态语音分离网络对包含目标对象的音视频数据进行语音分离的准确性较高。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0011]图1是本申请中多模态语音分离方法一实施方式的流程示意图;
[0012]图2是图1中多模态语音分离网络一实施方式的网络结构示意图;
[0013]图3是本申请多模态语音分离网络训练方法一实施方式的流程示意图;
[0014]图4是本申请多模态语音分离装置一实施方式的结构示意图;
[0015]图5是本申请电子设备一实施方式的结构示意图;
[0016]图6是本申请提出的计算机可读存储介质一实施方式的结构示意图。
具体实施方式
[0017]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0018]请参阅图1,图1是本申请中多模态语音分离方法一实施方式的流程示意图,该方法包括:
[0019]S101:获得包含目标对象的音视频数据。其中,音视频数据包含目标对象的唇部视频数据。
[0020]具体地,在本实施例中,上述步骤S101的具体实现过程可以包括:获得包含目标对象的视频数据以及包含目标对象语音的混合音频数据。其中,视频数据可以由摄像头对目标对象进行采集获得,以及同时由麦克风对目标对象的语音进行采集,以得到混合音频数据。然而,由于目标对象所处的环境内可能包含除目标对象以外的人,因此混合音频数据中可能包含目标对象的音频数据、噪声数据以及非目标对象的音频数据。
[0021]S102:将音视频数据输入至训练后的多模态语音分离网络中,获得与目标对象的唇部视频数据相关的音频数据。其中,训练多模态语音分离网络的多个训练样本基于其经
过多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分子集对多模态语音分离网络再次进行训练。
[0022]具体地,本实施方式中,上述步骤S102的具体实现过程可以为:
[0023]A:根据视频数据、混合音频数据和训练后的多模态语音分离网络获得目标对象的第一语音存在概率。
[0024]请参阅图2,图2为图1中多模态语音分离网络一实施方式的网络结构示意图。具体地,将目标对象的音视频数据输入至训练后的多模态语音分离网络10中,多模态语音分离网络10目标对象的视频数据进行唇部特征提取,得到目标对象的唇部视频特征;以及对上述混合音频数据进行FFT变换(Fast Fourier Transformation,快速傅里叶变换),得到混合音频数据的幅度谱和相位谱,并将该幅度谱和相位谱作为混合音频数据对应的音频特征。进一步地,将唇部视频特征和音频特征同时输入至Unet网络20中,Unet网络20包括特征提取分支和上采样分支。特征提取分支对视频数据和音频特征进行多次特征提取,并且将每次特征提取后的视频特征和音频特征进行融合,得到多个融合特征。其中,特征提取的深度随着特征提取的次数的增加而增加。本实施方式中,进行多次特征提取后,将最终得到的融合特征输入瓶颈层,以减少模型后续的计算量。其中,瓶颈层可以为LSTM(L本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态语音分离方法,其特征在于,包括:获得包含目标对象的音视频数据;其中,所述音视频数据包含所述目标对象的唇部视频数据;将所述音视频数据输入至训练后的多模态语音分离网络中,获得与所述目标对象的唇部视频数据相关的音频数据;其中,训练所述多模态语音分离网络的多个训练样本基于其经过所述多模态语音分离网络后获得的第一损失被划分为多个子集,且基于至少部分所述子集对所述多模态语音分离网络再次进行训练。2.根据权利要求1所述的方法,其特征在于,所述多模态语音分离网络的训练过程包括:利用多个第一训练样本训练多模态语音分离网络;其中,每个所述第一训练样本具有真实值标签;响应于所述多个第一训练样本在训练所述多模态语音分离网络时的第一损失之间的差值大于或等于第一阈值,基于多个所述第一损失将多个所述第一训练样本划分为多个子集;其中,同一所述子集内的多个所述第一训练样本的所述第一损失之间的差值小于所述第一阈值;基于至少部分所述子集对所述多模态语音分离网络再次进行训练。3.根据权利要求2所述的方法,其特征在于,所述基于至少部分所述子集对所述多模态语音分离网络再次进行训练的步骤,包括:将至少部分所述子集重新输入至所述多模态语音分离网络中以对所述多模态语音分离网络再次进行训练;和/或,利用至少部分所述子集中的多个第一训练样本构建多个第二训练样本,将多个所述第二训练样本输入至所述多模态语音分离网络中以对所述多模态语音分离网络再次进行训练;其中,所述第二训练样本的真实值标签由构建所述第二训练样本的所述第一训练样本的真实值标签决定。4.根据权利要求3所述的方法,其特征在于,所述基于多个所述第一损失将多个所述第一训练样本划分为多个子集的步骤,包括:基于多个所述第一损失将所述多个第一训练样本划分为第一子集和第二子集,且所述第一子集内的多个所述第一训练样本的所述第一损失小于门限值,所述第二子集内的多个所述第一训练样本的所述第一损失大于或等于所述门限值;所述将至少部分所述子集重新输入至所述多模态语音分离网络中以对所述多模态语音分离网络再次进行训练的步骤,包括:将所述第一子集输入至所述多模态语音分离网络中,获得所述第一子集中每个所述第一训练样本对应的第一损失,根据所述第一损失调整所述多模态语音分离网络中的参数;所述利用至少部分所述子集中的多个第一训练样本构建多个第二训练样本的步骤,包括:基于所述第二子集中任意两个第一训练样本及其对应的所述真实值标签,得到第二训练样本以及所述第二训练样本对应的真实值标签。5.根据权利要求2所述的方法,其特征在于,所述基于至少部分所述子集对所述多模态语音分离网络再次进行...

【专利技术属性】
技术研发人员:李明子高建清马峰管青松
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1