基于调制域注意力的混响和噪声鲁棒语音活动检测制造技术

技术编号:41063276 阅读:13 留言:0更新日期:2024-04-24 11:16
公开了一种用于从混响信号中检测语音的系统。所述系统被编程为接收调制频域中的频谱时间振幅数据。所述系统被编程为然后通过基于与所述频谱时间振幅数据相关联的频谱时间谱图的某些性质减少混响和其他噪声并进行平滑来增强所述频谱时间振幅数据。接下来,所述系统被编程为基于增强的频谱时间振幅数据以及所述调制频域或(声学)频域中的其他数据来计算与语音的存在相关的各种特征。所述系统被编程为然后基于所述各种特征确定与接收到的频谱时间振幅数据相对应的音频数据中存在的语音的程度。所述系统可以被编程为将存在的语音的程度传输到输出设备。

【技术实现步骤摘要】
【国外来华专利技术】

本申请涉及语音活动检测。更具体地,下文描述的示例实施例涉及基于调制域注意力来解决噪声和混响鲁棒性问题。


技术介绍

1、在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。

2、传统上,并入免提电话、视频会议或助听器中的语音增强系统很难正确管理噪声和混响(其可以被视为噪声,但将在下文中单独提及)。具有鲁棒的语音活动检测(vad)将是有帮助的,所述vad估计关于噪声和混响的信息并减少在语音期间由噪声和混响引起的伪影和感知中断。这种vad对于音频/视频内容记录和回放系统(诸如任何社交联网软件的语音消息传递部件、视频博客(vlog)平台或播客设置)增强语音质量和可理解性特别有帮助。


技术实现思路

1、公开了一种基于调制频域中的数据从混响信号中检测语音的计算机实施的方法。所述方法包括:由处理器接收时域中的新音频数据;由所述处理器将与时间点相对应的一条新音频数据转换成特定频谱时间振幅(sta)作为时本文档来自技高网...

【技术保护点】

1.一种基于调制频域中的数据从混响信号中检测语音的计算机实施的方法,所述方法包括:

2.如权利要求1所述的计算机实施的方法,所述DI是基于调制频带范围和声学频带范围中的MSM值的调制频谱的重心。

3.如权利要求1所述的计算机实施的方法,所述DI是基于低调制频带范围和声学频带范围中的MSM值的低调制部分与基于高调制频带范围和所述声学频带范围中的MSM值的高调制部分的能量比。

4.如权利要求1所述的计算机实施的方法,所述DI是基于低调制频带范围和声学频带范围中的MSM值的低调制部分与基于全部调制频带范围和所述声学频带范围中的MSM值的整个调制部分的能量比。...

【技术特征摘要】
【国外来华专利技术】

1.一种基于调制频域中的数据从混响信号中检测语音的计算机实施的方法,所述方法包括:

2.如权利要求1所述的计算机实施的方法,所述di是基于调制频带范围和声学频带范围中的msm值的调制频谱的重心。

3.如权利要求1所述的计算机实施的方法,所述di是基于低调制频带范围和声学频带范围中的msm值的低调制部分与基于高调制频带范围和所述声学频带范围中的msm值的高调制部分的能量比。

4.如权利要求1所述的计算机实施的方法,所述di是基于低调制频带范围和声学频带范围中的msm值的低调制部分与基于全部调制频带范围和所述声学频带范围中的msm值的整个调制部分的能量比。

5.如权利要求1所述的计算机实施的方法,所述获得包括利用快速傅里叶变换,使用与所述时间点之前的特定数量的连续时间点相对应的多条新音频数据计算所述msm。

6.如权利要求1至5中任一项所述的计算机实施的方法,生成所述增强的sta包括滤除调制频带排除范围之外的msm值。

7.如权利要求6所述的计算机实施的方法,所述调制频带排除范围为3hz至30hz。

8.如权利要求1至7中任一项所述的计算机实施的方法,生成所述增强的sta包括通过随时间推移进行聚合来计算平滑的频谱时间能量。

9.如权利要求1至8中任一项所述的计算机实施的方法,生成所述增强的sta包括通过跟踪随时间变化的最小频谱时间能量来消除残留噪声。

10.如权利要求1至7...

【专利技术属性】
技术研发人员:杨少凡李凯
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1