一种基于跨模态损失的目标语音分离方法及系统技术方案

技术编号：41299187 阅读：18 留言：0更新日期：2024-05-13 14:47

本发明专利技术提供了一种基于跨模态损失的目标语音分离方法及系统，本发明专利技术利用预训练后的目标语音分离模型，基于目标说话人唇部序列和混合音频信号，得到分离后的目标语音信号，通过在模型中引入目标说话人的视觉信息以提取视觉嵌入，采用自提取音频嵌入的方式代替预注册语音，引入跨模态损失约束说话人视觉和听觉特征的提取，能够避免目标混淆问题，构建两分支架构，获取干扰说话人语音信号转化为辅助信息，优化第一分支的语音提取，避免使用难以获取的辅助信息，提高目标语音分离实际应用场景的适应度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语音处理，具体涉及一种基于跨模态损失的目标语音分离方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、目标语音分离问题是指从混合音频中提取出特定的目标说话人的声音，是语音分离问题的一个分支。在复杂多说话人场景中，语音分离可以有效提升语音识别、说话人识别等应用的性能，可应用于远程会议记录、智能家居等系统。不同于多说话人分离提取说话场景中所有说话人语音，目标语音分离只有一个输出，即目标说话人的预估语音。目标语音分离可以避免多说话人分离中的排列模糊问题，且不需要预先知道说话人数量，但必须提供先验知识或辅助信息来指定目标信号。根据辅助信息的形态不同，目标语音分离可以分为依赖目标说话人视觉和依赖目标说话人注册语音片段辅助提取等方法。

3、目标语音分离网络通常由主网络和辅助网络组成，其中主网络用于学习目标说话人掩膜，辅助网络用于学习具有区分性的说话人嵌入。在目标语音分离网络中，辅助网络的输出对主网络具有重要指导意义，当辅助网络生成的说话人嵌入无法区分目标...

【技术保护点】

1.一种基于跨模态损失的目标语音分离方法，其特征是，包括以下步骤：

2.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述第一分支包括音频编码器、视觉编码器、说话人提取器和音频解码器，其中：

3.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述第二分支包含依次连接的音频编码器、说话人提取器和音频解码器；

4.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，在目标语音分离算法中引入跨模态损失，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，利用视听一致性约束视觉和听觉特征的提取...

【技术特征摘要】

1.一种基于跨模态损失的目标语音分离方法，其特征是，包括以下步骤：

3.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，所述第二分支包含依次连接的音频编码器、说话人提取器和音频解码器；

4.如权利要求1所述的一种基于跨模态损失的目标语音分离方法，其特征是，在目标语音分离算法中引入跨模态损失，在目标说话人视觉特征、目标语音特征和干扰语音特征之间进行度量学习，利用视听一致性约束视觉和听觉特征的提取，将干扰说话人信息转化为辅助信息，优化第一分支的语音提取。

5.如权利要求1-4中任一项所述的一种基于跨模态损失的目标语音分离方法，其特征是，在目标语音分离模型的训练过程中，构建包含三个目标函数的多任务学习框架，第一分支的尺度不变信噪比损失用于衡量提取的目标语音和干净语音之间的质量，第二分支的尺度不变信噪比损失用于衡量提取的干扰语音和干净目标语音之间的质量，跨模态损失用于拉进目标视觉特征和预估目标语音信号音频特征，拉远目标视觉特征和预估干扰语音信号音频特征。

<...

【专利技术属性】
技术研发人员：魏莹，史迪雅，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人