用于对麦克风输入进行混合的系统和方法技术方案

技术编号：40022732 阅读：7 留言：0更新日期：2024-01-16 17:00

一种对多个输入信号进行混合的方法，包括：接收与当前时间间隔相关联的多个当前功率值和与先前时间间隔相关联的多个先前平滑功率值，分别对应于多个输入信号中的每个信号；如果确定多个输入信号中的至少一个包含语音，则基于当前功率值和先前平滑功率值来计算针对每个输入信号的当前平滑功率值，其中当前功率值和先前平滑功率值对应于每个输入信号；如果确定多个输入信号中没有一个包含语音，则基于与每个输入信号对应的确定值和先前平滑功率值来计算针对每个输入信号的当前平滑功率值，并基于多个当前平滑功率值来计算多个混合增益，其中当前功率值和混合增益对应于每个输入信号。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种用于对麦克风输入进行混合的系统。本专利技术还涉及一种用于对麦克风输入进行混合的方法。

技术介绍

1、在多人说话的情况下，当多个麦克风可用于捕捉语音时，语音增强可以在单人讲话和重叠讲话两者期间被用于提高每个说话者的信噪比(snr，signal to noise ratio)。

2、让我们以汽车环境为例。在一辆至少有2个可用麦克风的汽车内部，当汽车行驶时，尤其是以高速行驶时，会存在非常高电平的噪声(来自发动机、道路、过往车辆等)。此外，音乐可以由汽车的扬声器来播放。重要的是针对每位乘客的语音(例如在通话期间)都能被最靠近他们的麦克风捕捉到，以提供最佳信噪比。并且当不止一个人讲话时，需要确定不同麦克风输入的适当混合。

3、matheja等人在eurasip j.adv.signal process.2013:191的“a dynamic multi-channel speech enhancement system for distributed microphones in a carenvironment”中，描述了一种系统，该系统能够创建任意预定义扬声器子集的组合，例如，以在免提电话会议中为远端通信伙伴创建输出信号。这种解决方案的缺点在于其复杂性。首先每个输入信道在频域中被处理，以消除干扰说话者、抑制噪声并估计扬声器的活动。如图1a所示，输入混合(动态信号组合)也是在频域中完成的作为整个系统的最后一步。该输入混合是基于预增强麦克风信号之间的功率比来进行的。

4、另一种用于对麦

5、众所周知，还可以对像图1b所示的系统进行进一步修改，包括为每个输入信道添加语音活动检测(vad，voice activity detection)、去混响或噪声抑制，例如，由于默奥大学的物理系d.johansson、m.s.thesis所著的“automatic microphone mixing for adaisy chain connected multi-microphone speakerphone setup”中所述。这些基于增益共享自动混合器的系统的主要限制在于它们无法在snr极低的情况下工作。已知的适用于极低信噪比的修改解决方案将在每个信道输入上增加信号处理，从而大大增加了复杂性。

6、汽车以及其他语音和音频系统可以包含不同可能的配置(和数量)的麦克风(包括多个阵列和分布式麦克风)，使得处理来自不同麦克风的输入信号的算法必须为每个配置提供类似的性能。此外，与每个扬声器保持一定距离放置的麦克风(非个人麦克风)可能会提供更低的snr。此外，严重的噪声(发动机、道路、风扇......)和来自娱乐系统的音乐播放将导致更低的snr，并有将算法导向主要噪声而不是说话者的风险。最后，许多语音处理系统通常要求低复杂度和低延迟。

7、低复杂度和低延迟要求限制了使用将有助于完成主要任务的某些信号处理技术的可能性。在麦克风数量较多的情况下，不可能在混合之前对所有麦克风进行增强(以达到更高的snr)。增强(噪声和回声抑制)只能在混合后发生(在一个信道上)。在某些情况下，由于有限的平台资源，甚至不可能在频域中对麦克风进行预处理--混合前的所有预处理都必须在时域中完成，其虽然不那么复杂但却更具挑战性。频域处理通常需要更多的每秒数百万周期(mcps)(来自于所有使用信号的快速傅立叶变换(fft)，以及每位的处理)和更多的内存(用于存储多个信号的fft或额外的频域特征)。

8、在设计来自多个麦克风的信号的输入混合时，需要考虑的重要方面有：关于麦克风配置的灵活性。对噪声的鲁棒性。在保持稳定输出电平(在扬声器开始/结束说话时无电平波动)的同时，为每个扬声器实现最大可能的snr。低复杂性。

9、因此，需要一种新方法来提供改进的语音增强算法，其将来自多个麦克风的输入信号混合到一个输出中，而不会出现上述缺点。

技术实现思路

1、根据本专利技术，提供了一种对多个输入信号进行混合的方法，该方法包括由处理器接收与当前时间间隔相关联的多个当前功率值和与先前时间间隔相关联的多个先前平滑功率值，其中多个当前功率值中的每个和多个先前平滑功率值中的每个分别对应于多个输入信号中的每个；由处理器确定多个输入信号中的至少一个是否包含语音；由处理器分别计算针对多个输入信号在当前时间间隔的多个当前平滑功率值：并基于多个当前平滑功率值对多个输入信号进行混合；其中，计算多个当前平滑功率值包括如下计算针对多个输入信号中的每个输入信号的当前平滑功率值：

2、如果确定多个输入信号中的至少一个包含语音，则基于多个当前功率值当中的当前功率值和多个先前平滑功率值当中的先前平滑功率值来计算针对每个输入信号的当前平滑功率值，其中当前功率值和先前平滑功率值与每个输入信号对应；

3、如果确定多个输入信号中没有一个包含语音，则基于与每个输入信号对应的确定值和先前平滑功率值来计算针对每个输入信号的当前平滑功率值。

4、确定值可以是多个先前功率值的平均值。可替选地，确定值可以为零。在根据本专利技术的另一个实施例中，确定值可以是多个输入信号的平均语音功率的估计值。确定值可以是任何合适的恒定值，并可以存储在存储器中。这允许在输入信号中未检测到语音的情况下，将针对所有输入信号的当前功率缓慢重置为相同值。

5、多个计算出的当前平滑功率值可以被用于计算多个混合增益，其中多个计算出的当前平滑功率值中的每个和多个计算出的混合增益中的每个分别对应于多个输入信号中的每个。计算出的混合增益然后可以被用于对多个输入信号进行混合以生成输出信号。例如，输出信号可以包括分别由计算出的混合增益所加权的输入信号的组合或总和。输出信号可以基于输入信号和计算出的混合增益以任何其他合适的方式生成。

6、本专利技术可以被用于提供语音增强，例如免提通话、车载通信和语音识别前端。它允许估计所有可用麦克风的混合因子以在进一步增强之前将它们组合为一个输出。提供了最高的snr的麦克风的适当混合确保了音频处理算法的下一个增强步骤获得最佳性能。这样，对输出可以获得降级更小、更清晰的语音。麦克风的混合增益可以被计算以将所有可用的麦克风信道组合成最佳可能的一个信道输出。这可以通过估计每个麦克风在当前时间步骤中具有最佳snr的概率来实现。

7、由处理器确定多个输入信号中的至少一个是否包含语音可以包括确定多个输入信号中的至少一个包含语音的概率是否高于阈值。这是确定任本文档来自技高网...

【技术保护点】

1.一种用于对多个输入信号进行混合的方法，该方法包括：

2.根据权利要求1所述的方法，其中计算所述多个当前平滑功率值包括：

3.根据权利要求2所述的方法，其中基于与每个输入信号对应的确定值和先前平滑功率值来计算针对每个输入信号的当前平滑功率值包括：当前平滑功率值是通过在与每个输入信号对应的确定值和先前平滑功率值之间进行平滑来确定的，并且其中所述确定值是多个先前功率值的平均值。

4.根据权利要求1-3中任一权利要求所述的方法，其中多个混合增益中的一个进一步基于输入信号的当前平滑功率值与所述多个输入信号的多个当前平滑功率值的平均值之间的功率比来确定。

5.根据权利要求4所述的方法，其中所述多个混合增益中的一个进一步由第一更新功率比来确定，其中所述第一更新功率比等于功率比除以输入信号数量的平方根。

6.根据权利要求5所述的方法，其中所述多个混合增益中的一个进一步由第二更新功率比来确定，其中如果所述第一更新功率比大于高阈值，则所述第二更新功率比被确定为高阈值，如果所述第一更新功率比不大于低阈值，则所述第二更新功率比被确定为低阈值

7.根据权利要求6所述的方法，其中多个混合增益中的一个被确定为第三更新功率比与多个第三更新功率比之和的比率，其中所述第三更新功率比等于所述第二更新功率比减去低阈值与高阈值减去低阈值之间的相除结果。

8.根据权利要求1-3中任一权利要求所述的方法，其中多个混合增益基于语音存在的概率或SNR来确定。

9.根据权利要求8所述的方法，其中所述多个混合增益被确定为混合增益与1/K之间的平滑度，其中K是输入信号的数量，并且平滑度是基于至少一个输入信号包含语音的概率；以及

10.根权利要求1-3中任一权利要求所述的方法，该方法进一步包括由处理器计算与当前时间间隔相关联的多个当前功率值，其中计算与多个输入信号当中的输入信号相关联的多个当前功率值当中的当前功率值包括：

11.根据权利要求10所述的方法，其中所述多个频率子范围的多个功率权重值被计算为在相应频率子范围内输入信号的平均信噪比与多个频率子范围内输入信号的平均信噪比之和的比率。

12.根据权利要求10所述的方法，其中基于所述多个功率权重值来计算当前功率值包括通过将所述多个功率权重值当中的相应功率权重应用于相应子频带的输入信号的功率并计算针对输入信号的多个子频带的加权功率之和来对多个频率子范围中的每个频率子范围的功率进行加权。

13.根据权利要求1-3中任一权利要求所述的方法，其中，所述多个输入信号分别与多个麦克风相关联，其中，所述多个输入信号中的每个输入信号包括由一个或多个声源所生成的声音事件，并且其中所述多个输入信号包括来自彼此相距超过25厘米定位的麦克风的麦克风信号，并且所述多个输入信号还包括波束成形器的输出，其输入是来自彼此相距不超过25厘米定位的麦克风的麦克风信号；对多个输入信号进行混合还包括通过分别由计算出的混合增益所加权的输入信号的组合或总和得到输出信号。

14.一种用于对多个输入信号进行混合的设备，所述设备包括存储器和处理器，所述处理器与存储器通信连接并且被配置为执行指令以执行根据权利要求1至13中任一项所述的方法。

15.一种计算机程序，其被布置为执行根据权利要求1至13之一所述的方法。

...

【技术特征摘要】

1.一种用于对多个输入信号进行混合的方法，该方法包括：

2.根据权利要求1所述的方法，其中计算所述多个当前平滑功率值包括：

6.根据权利要求5所述的方法，其中所述多个混合增益中的一个进一步由第二更新功率比来确定，其中如果所述第一更新功率比大于高阈值，则所述第二更新功率比被确定为高阈值，如果所述第一更新功率比不大于低阈值，则所述第二更新功率比被确定为低阈值，并且如果所述第二更新功率比被确定为不大于高阈值且大于低阈值，则所述第二更新功率比被确定为所述第一更新功率比，其中所述高阈值大于所述低阈值。

8.根据权利要求1-3中任一权利要求所述的方法，其中多个混合增益基于语音存在的概率或snr来确定。

9.根据权利要求8所述的方法，其中所述...

【专利技术属性】
技术研发人员：马德琳娜·卡涅夫斯卡，
申请(专利权)人：汇顶科技香港有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人