一种应用于沉浸式视频会议系统中的语音分离方法及系统技术方案

技术编号：39962001 阅读：20 留言：0更新日期：2024-01-09 00:07

本发明专利技术提供了一种应用于沉浸式视频会议系统中的语音分离方法及系统，基于独立音源片段提取说话人声纹特征，分为多模态特征表示阶段和分离阶段，多模态特征表示阶段提取混合信号片段中信号特征系数，提取说话人独立音源片段建立声纹信息网络，提取说话人的人脸视觉特征，利用音源空间特征分析网络提取说话人的空间特征；分离阶段包括根据信号特征系数、声纹特征、人脸特征和空间特征，进行融合；在潜在空间中学习混合信号中每个说话人的掩膜；根据掩膜和混合信号片段中信号特征系数，获得潜在空间特征；将潜在空间特征反变换到时域；根据说话人的空间方位信息，将分离的说话人语音渲染到正确的位置，满足视频会议中用户的沉浸、灵活交互需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数字音频信号处理领域，涉及沉浸式视频会议系统中的语音分离技术方案，适用于沉浸式视频会议系统，满足视频会议中用户的沉浸、灵活交互需求。

技术介绍

1、随着行业数字化、智能化不断升级加速发展，语音交互场景从人机交互扩展到视频会议语音分离等人人交互，语音交互的场景和需求在不断增加。如何在多个说话人同时发声的场景下，有效分离纯净的单个说话人声音，准确识别说话人语音并做出相应的回复，提升视频会议中沉浸式体验，是当前语音交互中急需解决的重要问题。

2、音源分离问题来源于1953年cherry在国际音频领域顶级期刊上提出的“鸡尾酒会效应”。根据分离系统输入模态的不同，音源分离技术可分为基于音频的单一模态分离方法和基于音视频的多模态分离方法。(1)基于音频的单一模态分离方法，即分离系统的输入仅是混合语音信号。当前的多说话人语音分离技术可分为传统数学模型方法和深度学习方法两大类。传统数学模型方法主要利用独立成分分析方法、非负矩阵方法和空间聚类方法分解混合语音信号；深度学习方法是使用深度学习的方法建立说话人混合信号和纯净语音信号之间的映射关系。(2)基于音视频的多模态分离方法，即分离系统的输入是混合语音信号和视频信号。已有心理声学的实验证明，在背景噪声或竞争说话人的环境下，说话人视觉信息的辅助输入有助于提升听觉感知。多模态音源分离的前言算法利用说话人的音频和视觉信息，但未充分利用说话人的音频模态声音特性，视觉模态中说话人的空间位置，导致分离的说话人声音质量受限。

技术实现思路

>1、为解决上述技术问题，本专利技术提供一种应用于沉浸式视频会议系统中的语音分离方案，本专利技术能够充分利用音频、视频和空间信息全面提升分离的说话人声音质量，从而增强人沟通时的“社交临场感”。

2、本专利技术提供一种应用于沉浸式视频会议系统中的语音分离方法，基于独立音源片段提取说话人声纹特征，实现过程包括多模态特征表示阶段和分离阶段，

3、所述多模态特征表示阶段包括以下步骤，

4、步骤a1，提取混合信号片段中信号特征系数；

5、步骤a2，提取混合信号中每个说话人的独立音源片段；

6、步骤a3，对步骤a2得到的独立音源片段，建立声纹信息网络；

7、步骤a4，对于视频信号，利用人脸检测方式提取说话人的人脸区域，建立人脸属性分析网络，提取说话人的人脸视觉特征；

8、步骤a5，对于空间方位信号，利用音源空间特征分析网络提取说话人的空间特征；

9、所述分离阶段包括以下步骤，

10、步骤b1，根据步骤a1，a3，a4和a5得到说话人的信号特征系数、声纹特征、人脸特征和空间特征，进行融合；

11、步骤b2，根据步骤b1得到的多模态特征融合，构建多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜；

12、步骤b3，根据步骤b2得到的每个说话人的掩膜和步骤a1得到的混合信号片段中信号特征系数，利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征；

13、步骤b4，根据步骤b3得到的每个说话人的潜在空间特征，将说话人的潜在空间特征反变换到时域，得到混合信号中的时域音源信号；

14、步骤b5，根据步骤b4得到的单个说话人信号，根据说话人的空间方位信息，将分离的说话人语音渲染到正确的位置。

15、而且，输入的信号适用于不同环境下的、不同类型的语音信号。

16、而且，所述声纹信息网络，利用独立音源片段，提取每个说话人的高辨识度特征，包括提取独立音源片段的梅尔频率倒谱系数mfcc、对数能量、基音频率f0和共振峰频率fn,n＝1,2,3。

17、而且，所述利用音源空间特征分析网络提取说话人的空间特征，包括利用多维高斯变量编码空间方位信号。

18、而且，利用音频、视频和空间特征构建所述多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜maskj。

19、而且，利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征gj，实现方式如下，

20、

21、其中，coeff为混合信号的时频信号，表示逐元素相乘，。

22、另一方面，本专利技术提供一种应用于沉浸式视频会议系统中的语音分离系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。

23、另一方面，本专利技术提供一种应用于沉浸式视频会议系统中的语音分离系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。

24、本专利技术语音分离方案与一般的分离技术相比，在噪声和混响环境下，语音分离质量较高，提升语音的听感和可懂度，能给用户带来更好的沉浸式体验。该方法适用于沉浸式会议中的交互设备，且适用于不同环境下的、不同类型的语音信号。

本文档来自技高网...

【技术保护点】

1.一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于，基于独立音源片段提取说话人声纹特征，实现过程包括多模态特征表示阶段和分离阶段，所述多模态特征表示阶段包括以下步骤，

2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：输入的信号适用于不同环境下的、不同类型的语音信号。

3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：所述声纹信息网络，利用独立音源片段，提取每个说话人的高辨识度特征，包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F0和共振峰频率Fn,n＝1,2,3。

4.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：所述利用音源空间特征分析网络提取说话人的空间特征，包括利用多维高斯变量编码空间方位信号。

5.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：利用音频、视频和空间特征构建所述多模态分离网络，在潜在空间中学习混合信号中每个说话人的掩膜maskj。

6.根据权

7.一种应用于沉浸式视频会议系统中的语音分离系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种应用于沉浸式视频会议系统中的语音分离方法。

8.一种应用于沉浸式视频会议系统中的语音分离系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-6任一项所述的一种应用于沉浸式视频会议系统中的语音分离方法。

...

【技术特征摘要】

2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：输入的信号适用于不同环境下的、不同类型的语音信号。

3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法，其特征在于：所述声纹信息网络，利用独立音源片段，提取每个说话人的高辨识度特征，包括提取独立音源片段的梅尔频率倒谱系数mfcc、对数能量、基音频率f0和共振峰频率fn,n＝1,2,3。

5.根据权利要...

【专利技术属性】
技术研发人员：胡瑞敏，吴玉林，王晓晨，
申请(专利权)人：武汉大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人