【技术实现步骤摘要】
本专利技术属于数字音频信号处理领域,涉及沉浸式视频会议系统中的语音分离技术方案,适用于沉浸式视频会议系统,满足视频会议中用户的沉浸、灵活交互需求。
技术介绍
1、随着行业数字化、智能化不断升级加速发展,语音交互场景从人机交互扩展到视频会议语音分离等人人交互,语音交互的场景和需求在不断增加。如何在多个说话人同时发声的场景下,有效分离纯净的单个说话人声音,准确识别说话人语音并做出相应的回复,提升视频会议中沉浸式体验,是当前语音交互中急需解决的重要问题。
2、音源分离问题来源于1953年cherry在国际音频领域顶级期刊上提出的“鸡尾酒会效应”。根据分离系统输入模态的不同,音源分离技术可分为基于音频的单一模态分离方法和基于音视频的多模态分离方法。(1)基于音频的单一模态分离方法,即分离系统的输入仅是混合语音信号。当前的多说话人语音分离技术可分为传统数学模型方法和深度学习方法两大类。传统数学模型方法主要利用独立成分分析方法、非负矩阵方法和空间聚类方法分解混合语音信号;深度学习方法是使用深度学习的方法建立说话人混合信号和纯净语音信号之
...【技术保护点】
1.一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于,基于独立音源片段提取说话人声纹特征,实现过程包括多模态特征表示阶段和分离阶段,所述多模态特征表示阶段包括以下步骤,
2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:输入的信号适用于不同环境下的、不同类型的语音信号。
3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征,包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F0和共振峰频率Fn,n
...【技术特征摘要】
1.一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于,基于独立音源片段提取说话人声纹特征,实现过程包括多模态特征表示阶段和分离阶段,所述多模态特征表示阶段包括以下步骤,
2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:输入的信号适用于不同环境下的、不同类型的语音信号。
3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征,包括提取独立音源片段的梅尔频率倒谱系数mfcc、对数能量、基音频率f0和共振峰频率fn,n=1,2,3。
4.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述利用音源空间特征分析网络提取说话人的空间特征,包括利用多维高斯变量编码空间方位信号。
5.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。