用于音频处理的方法、系统和计算机可读存储介质技术方案

技术编号:19076270 阅读:87 留言:0更新日期:2018-09-29 18:03
用于音频处理的方法、系统和计算机可读存储介质。接收第一信号和第二信号。第一信号至少包括话音成分。第二信号至少包括通过用户的人体组织修改的话音成分。可以每子带分别向所述第一信号和所述第二信号指配第一权重和第二权重。处理所述第一信号和所述第二信号,以获得相应的第一全频带功率估计和第二全频带功率估计。在所述用户的语音不存在的时段期间,所述第一权重和所述第二权重至少部分地基于所述第一全频带功率估计和所述第二全频带功率估计来调整。基于调整后的权重混合所述第一信号和所述第二信号,以生成增强话音信号。可以在所述混合之前,将所述第二信号与所述第一信号对准。

【技术实现步骤摘要】
【国外来华专利技术】在语音和非语音时段期间提供降噪一致性的方法和系统相关申请的交叉引用本申请要求2016年1月28日提交的美国专利申请No.15/009,740的益处和优先权,其全部内容通过引用并入于此。
本申请总体上涉及音频处理,并且更具体地,涉及用于提供在语音存在时段与语音不存在时段(语音间隙)之间具有一致性的降噪的系统和方法。
技术介绍
智能电话、平板电脑、以及其它移动装置的激增从根本上改变了人们访问信息和通信的方式。人们现在可以在不同的地方打电话,诸如拥挤的酒吧、繁忙的城市街道、以及多风的户外,在那里,不利声学条件对话音通信质量构成了严重挑战。另外,在用户必须将他们的眼睛和手放在主要任务(举例来说,诸如驾驶)上的应用中,话音命令已成为与电子装置交互的重要方法。随着电子装置变得越来越紧凑,话音命令可能成为与电子装置交互的优选方法。然而,尽管语音技术最近取得了进展,但在嘈杂的条件下识别话音仍然很困难。因此,减轻噪声的影响对于话音通信的质量和话音识别的性能都很重要。耳机一直是电话终端和音乐播放器的自然延伸,因为它们在使用时提供免提便利和隐私。与其它免提选项相比,耳机代表这样一种选项,即,可以将麦克风放置在用户嘴巴附近的位置,在用户的嘴和麦克风之间具有受限几何形状。这导致麦克风信号具有更好的信噪比(SNR),并且在应用基于多麦克风的降噪时更易于控制。然而,与传统手机使用情况相比,耳机麦克风相对远离用户的嘴。结果,耳机不提供由用户的手和手机的大部分所提供的噪声屏蔽效果。近年来,随着因对耳机的精巧和不麻烦(outofway)的需求耳机变得越来越小、越来越轻,这个问题变得更具挑战性。当用户佩戴耳机时,用户的耳道自然屏蔽外部声学环境。如果耳机为耳道提供紧密的声学密封,那么放置在耳道内部的麦克风(内部麦克风)将与外部环境在声学上隔离,使得环境噪声将显著衰减。另外,密封耳道内的麦克风没有风抖振影响。用户的话音可以传导通过用户头部的各种组织直至耳道,因为声音被困在耳道内部。因此,与用户耳道外部的麦克风(外部麦克风)相比,内部麦克风所拾取的信号应具有更高的SNR。然而,内部麦克风信号并非没有问题。首先,身体传导的话音往往会使其高频内容严重衰减,因此与通过空气传导的话音相比,其有效带宽要窄得多。而且,当身体传导的话音被密封在耳道内时,其在耳道内形成驻波。结果,内部麦克风拾取的话音经常听起来有些压抑和回响,而缺乏外部麦克风所拾取的话音的自然音色。此外,有效带宽和驻波模式跨不同用户和耳机适配条件显著变化。最后,如果扬声器也位于同一个耳道内,那么扬声器所发出的声音也会被内部麦克风拾取。即使利用声学回声消除(AEC),扬声器与内部麦克风之间的紧密耦合甚至在AEC之后也经常导致严重的话音失真。过去已经尝试了其它努力以利用内部麦克风信号的独特特性用于优异降噪性能。然而,跨不同用户和不同使用条件获得一致性能仍然具有挑战性。在用户说话时以及在用户不说话的间隙(语音间隙)中都提供降噪的鲁棒性和一致性可能特别具有挑战性。一些已知方法试图解决这个问题;然而,当用户的语音存在时,这些方法可能更有效,但当用户的语音不存在时,这些方法不太有效。所需要的是一种克服已知方法的缺点的方法。更具体地说,需要一种改进语音间隙期间的降噪性能使得其与语音时段期间的降噪性能不会不一致的方法。
技术实现思路
提供本概述以便以简化形式介绍概念的选择,其在下面详细描述中进一步描述。本概述不是旨在标识所要求的主题的关键特征或基本特征,也不旨在被用作在确定所要求的主题的范围方面的帮助。提供了用于在语音和非语音时段期间提供降噪一致性的方法和系统。提供了一种示例性方法,该示例性方法包括接收第一音频信号和第二音频信号。所述第一音频信号至少包括话音成分。所述第二音频信号至少包括至少由用户的人体组织修改的所述话音成分。所述话音成分可以是用户的语音。所述第一音频信号和所述第二音频信号包括所述用户的语音不存在的时段。所述方法还可以包括向所述第一音频信号指配第一权重并且向所述第二音频信号指配第二权重。所述方法还包括处理所述第一音频信号,以获得第一全频带功率估计。所述方法还包括处理所述第二音频信号,以获得第二全频带功率估计。针对所述用户的语音不存在的时段,所述方法包括至少部分地基于所述第一全频带功率估计和所述第二全频带功率估计,来调整所述第一权重和所述第二权重。所述方法还包括基于所述第一权重和所述第二权重,混合所述第一信号和所述第二信号以生成增强话音信号。在一些实施方式中,所述第一信号和所述第二信号被变换成子带信号。在其它实施方式中,每子带并且基于针对所述子带的SNR估计,来执行指配所述第一权重和所述第二权重。处理所述第一信号,以获得针对所述子带的第一SNR,并且处理所述第二信号,以获得针对所述子带的第二SNR。如果所述第一SNR大于所述第二SNR,则针对所述子带的所述第一权重接收比针对所述子带的所述第二权重更大的值。否则,如果所述第二SNR大于所述第一SNR,则针对所述子带的所述第二权重接收比针对所述子带的所述第一权重更大的值。在一些实施方式中,所述第一权重与所述第二权重之间的所述差对应于针对所述子带的所述第一SNR与所述第二SNR之间的所述差。然而,这种基于SNR的方法在用户的语音存在时更有效,而在用户的语音不存在时不太有效。更具体地说,当存在用户的语音时,根据该示例,选择具有更高SNR的信号导致选择具有更低噪声的信号。因为耳道内的噪声往往比外面的噪声低20-30dB,所以相对于外部麦克风信号,通常会有20-30dB的降噪。然而,当用户的语音不存在时,在该示例中,内部和外部麦克风信号处的SNR均为0。在该示例中,当用户的语音不存在时,仅基于SNR决定权重(如在基于SNR的方法中一样)将导致均匀分割权重。结果,当仅使用基于SNR的方法时,相对于外部麦克风信号,通常仅实现3-6dB的降噪。为了减轻在语音不存在时段(语音间隙)期间基于SNR的混合方法的这种不足,在各种实施方式中,使用全频带噪声功率来决定语音间隙期间的混合权重。因为没有语音,所以较低全频带功率意味着存在较低噪声功率。根据各种实施方式,该方法选择具有较低全频带功率的信号,以便在语音间隙中保持20-30dB的降噪。在一些实施方式中,在语音间隙期间,调整所述第一权重和所述第二权重的步骤包括确定所述第一全频带功率估计与所述第二全频带功率估计之间的最小值。当所述最小值对应于所述第一全频带功率估计时,所述第一权重增大,而所述第二权重减小。当所述最小值对应于所述第二全频带功率估计时,所述第二权重增大,而所述第一权重减小。在一些实施方式中,所述权重通过应用移位来增大和减小。在各个实施方式中,所述移位基于所述第一全频带功率估计与所述第二全频带功率估计之间的差来计算。所述移位针对更大差值接收更大值。在某些实施方式中,仅在确定所述差超过预定阈值之后才应用所述移位。在其它实施方式中,计算所述第一全频带功率估计与所述第二全频带功率估计的比率。所述移位基于所述比率来计算。所述移位接收的值越大,所述比率的值相距1越远。在一些实施方式中,所述第二音频信号表示由位于耳道内的内部麦克风捕获的至少一个声音。在某些实施方式中,所述内部麦克风被至少部分地密封,以隔离所述耳道外部本文档来自技高网
...

【技术保护点】
1.一种用于音频处理的方法,所述方法包括以下步骤:接收至少包括话音成分的第一信号和至少包括至少由用户的人体组织修改后的话音成分的第二信号,所述话音成分是所述用户的语音,所述第一信号和所述第二信号包括所述用户的所述语音不存在的时段;向所述第一信号指配第一权重并且向所述第二信号指配第二权重;处理所述第一信号以获得第一全频带功率估计;处理所述第二信号以获得第二全频带功率估计;针对所述用户的所述语音不存在的所述时段,至少部分地基于所述第一全频带功率估计和所述第二全频带功率估计来调整所述第一权重和所述第二权重;以及基于所述第一权重和所述第二权重混合所述第一信号和所述第二信号以生成增强话音信号。

【技术特征摘要】
【国外来华专利技术】2016.01.28 US 15/009,7401.一种用于音频处理的方法,所述方法包括以下步骤:接收至少包括话音成分的第一信号和至少包括至少由用户的人体组织修改后的话音成分的第二信号,所述话音成分是所述用户的语音,所述第一信号和所述第二信号包括所述用户的所述语音不存在的时段;向所述第一信号指配第一权重并且向所述第二信号指配第二权重;处理所述第一信号以获得第一全频带功率估计;处理所述第二信号以获得第二全频带功率估计;针对所述用户的所述语音不存在的所述时段,至少部分地基于所述第一全频带功率估计和所述第二全频带功率估计来调整所述第一权重和所述第二权重;以及基于所述第一权重和所述第二权重混合所述第一信号和所述第二信号以生成增强话音信号。2.根据权利要求1所述的方法,其中,调整所述第一权重和所述第二权重的步骤包括以下步骤:确定所述第一全频带功率估计与所述第二全频带功率估计之间的最小值;以及基于所述确定:在所述最小值对应于所述第一全频带功率估计时,增大所述第一权重且减小所述第二权重;以及在所述最小值对应于所述第二全频带功率估计时,增大所述第二权重且减小所述第一权重。3.根据权利要求2所述的方法,其中,所述增大和所述减小的步骤通过应用移位来执行。4.根据权利要求3所述的方法,其中,所述移位是基于所述第一全频带功率估计与所述第二全频带功率估计之间的差来计算的,所述差的值越大则所述移位的值越大。5.根据权利要求4所述的方法,所述方法还包括以下步骤:在所述增大和所述减小的步骤之前,确定所述差超过预定阈值;以及基于所述确定,如果所述差超过所述预定阈值,则应用所述移位。6.根据权利要求1所述的方法,其中,所述第一信号和所述第二信号被变换成子带信号。7.根据权利要求6所述的方法,其中,针对所述用户的所述语音存在的时段,通过执行以下步骤来按照每个子带执行指配所述第一权重和所述第二权重的步骤:处理所述第一信号以获得针对该子带的第一信噪比SNR;处理所述第二信号以获得针对该子带的第二SNR;比较所述第一SNR和所述第二SNR;以及基于所述比较,向针对该子带的所述第一权重指配第一值,并且向针对该子带的所述第二权重指配第二值,并且其中:如果所述第一SNR大于所述第二SNR,则所述第一值大于所述第二值;如果所述第二SNR大于所述第一SNR,则所述第二值大于所述第一值;并且所述第一值与所述第二值之间的差取决于所述第一SNR与所述第二SNR之间的差。8.根据权利要求1所述的方法,其中,所述第二信号表示由位于耳道内的内部麦克风捕获的至少一个声音。9.根据权利要求8所述的方法,其中,所述内部麦克风被至少部分地密封,以隔离所述耳道外部的声学信号。10.根据权利要求1所述的方法,其中,所述第一信号表示由位于耳道外侧的外部麦克风捕获的至少一个声音。11.根据权利要求1所述的方法,所述方法还包括以下步骤:在所述指配之前,对准所述第二信号与所述第一信号,所述对准的步骤包括向所述第二信号应用频谱对准滤波器。12.根据权利要求1所述的方法,其中,指配所述第一权重和所述第二权重的步骤包括以下步骤:基于所述第一信号确定第一噪声估计;基于所述第二信号确定第二噪声估计;以及基于所述第一噪声估计和所述第二噪声估计来计算所述第一权重和所述第二权重。13.根据权利要求1所述的方法,其中,所述混合的步骤包括:根据所述第一权重和所述第二权重混合所述第一信号和所述第二信号。14.一种用于音频处理的系统,所述系统包括:处理器;以及存储器,所述存储器以交互的方式与所述处理器连接,所述存储器存储指令,所述指令在由所述处理器执行时,执行包括以下步骤的方法:接收至少包括话音成分的第一信号和至少包括至少由用户的人体组织修改后的话音成分的第二信号,所述话音成分是所述用户的语音,所述第一信号和所述第二信号包括所述用户的所述语音不存在的时段;向...

【专利技术属性】
技术研发人员:KC·彦
申请(专利权)人:美商楼氏电子有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1