当前位置: 首页 > 专利查询>武汉大学专利>正文

一种应用于沉浸式视频会议系统中的语音分离方法及系统技术方案

技术编号:39962001 阅读:32 留言:0更新日期:2024-01-09 00:07
本发明专利技术提供了一种应用于沉浸式视频会议系统中的语音分离方法及系统,基于独立音源片段提取说话人声纹特征,分为多模态特征表示阶段和分离阶段,多模态特征表示阶段提取混合信号片段中信号特征系数,提取说话人独立音源片段建立声纹信息网络,提取说话人的人脸视觉特征,利用音源空间特征分析网络提取说话人的空间特征;分离阶段包括根据信号特征系数、声纹特征、人脸特征和空间特征,进行融合;在潜在空间中学习混合信号中每个说话人的掩膜;根据掩膜和混合信号片段中信号特征系数,获得潜在空间特征;将潜在空间特征反变换到时域;根据说话人的空间方位信息,将分离的说话人语音渲染到正确的位置,满足视频会议中用户的沉浸、灵活交互需求。

【技术实现步骤摘要】

本专利技术属于数字音频信号处理领域,涉及沉浸式视频会议系统中的语音分离技术方案,适用于沉浸式视频会议系统,满足视频会议中用户的沉浸、灵活交互需求。


技术介绍

1、随着行业数字化、智能化不断升级加速发展,语音交互场景从人机交互扩展到视频会议语音分离等人人交互,语音交互的场景和需求在不断增加。如何在多个说话人同时发声的场景下,有效分离纯净的单个说话人声音,准确识别说话人语音并做出相应的回复,提升视频会议中沉浸式体验,是当前语音交互中急需解决的重要问题。

2、音源分离问题来源于1953年cherry在国际音频领域顶级期刊上提出的“鸡尾酒会效应”。根据分离系统输入模态的不同,音源分离技术可分为基于音频的单一模态分离方法和基于音视频的多模态分离方法。(1)基于音频的单一模态分离方法,即分离系统的输入仅是混合语音信号。当前的多说话人语音分离技术可分为传统数学模型方法和深度学习方法两大类。传统数学模型方法主要利用独立成分分析方法、非负矩阵方法和空间聚类方法分解混合语音信号;深度学习方法是使用深度学习的方法建立说话人混合信号和纯净语音信号之间的映射关系。(2)本文档来自技高网...

【技术保护点】

1.一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于,基于独立音源片段提取说话人声纹特征,实现过程包括多模态特征表示阶段和分离阶段,所述多模态特征表示阶段包括以下步骤,

2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:输入的信号适用于不同环境下的、不同类型的语音信号。

3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征,包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F0和共振峰频率Fn,n=1,2,3。...

【技术特征摘要】

1.一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于,基于独立音源片段提取说话人声纹特征,实现过程包括多模态特征表示阶段和分离阶段,所述多模态特征表示阶段包括以下步骤,

2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:输入的信号适用于不同环境下的、不同类型的语音信号。

3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征,包括提取独立音源片段的梅尔频率倒谱系数mfcc、对数能量、基音频率f0和共振峰频率fn,n=1,2,3。

4.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述利用音源空间特征分析网络提取说话人的空间特征,包括利用多维高斯变量编码空间方位信号。

5.根据权利要...

【专利技术属性】
技术研发人员:胡瑞敏吴玉林王晓晨
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1