用于语音检测的方法和系统技术方案

技术编号:29993317 阅读:28 留言:0更新日期:2021-09-11 04:33
实施方案总体涉及一种设备,包括:至少一个信号输入部件,用于从耳塞的骨传导信号传感器接收骨传导信号;存储可执行代码的存储器;以及,处理器,被配置为访问存储器且执行可执行代码。执行可执行代码导致处理器:接收骨传导信号;确定用于所接收的骨传导信号的至少一个语音度量,其中语音度量基于骨传导信号的输入水平和用于骨传导信号的噪声估计;至少部分地基于对语音度量与语音度量阈值的比较,更新语音确定性指示符,该语音确定性指示符指示骨传导信号中存在语音的确定性的水平;基于语音确定性指示符来更新至少一个信号衰减因子;以及,通过对语音水平估计应用信号衰减因子来生成更新的语音水平估计输出。成更新的语音水平估计输出。成更新的语音水平估计输出。

【技术实现步骤摘要】
【国外来华专利技术】用于语音检测的方法和系统


[0001]所描述的实施方案总体涉及用于执行语音(speech)检测的方法和系统。具体地,实施方案涉及执行语音检测,以实现用于语音捕获功能的降噪。

技术介绍

[0002]头戴式受送话器是一种使用者私下收听音乐或音频、拨打免提电话,或者将话音(voice)命令传送给话音识别系统的流行方式。各种各样的头戴式受送话器形状因子(form factor)(即,头戴式受送话器类型)是可用的,包括耳塞(earbud)。耳塞在使用时的入耳位置对此形状因子提出了特殊的挑战。耳塞的入耳位置严重限制了设备的几何形状,且极大地限制了将麦克风相隔很远定位的能力(如诸如波束成形或旁瓣消除等功能往往所要求的)。附加地,对于无线耳塞来说,小形状因子对电池尺寸从而功率预算造成了很大的限制。此外,当将耳塞放置在耳道内时,耳道和耳廓的解剖结构略微遮挡了从使用者的口部至耳塞的麦克风的声学信号路径,这增大了将使用者自己的话音与附近其他人的话音区分开的任务的难度。
[0003]语音捕获通常是指捕获头戴式受送话器使用者的话音且使包括其他人的话音的任何周围噪声最小化的情况。此使用实例的常见场景是当使用者进行话音呼叫或与语音识别系统进行交互时。这两种场景都对用于语音捕获的底层算法提出了严格的需求。对于话音呼叫,电话标准和使用者需求通常要求以出色的音质来实现相对高水平的降噪。类似地,语音识别系统通常要求音频信号具有最小的修改,同时消除尽可能多的噪声。存在许多信号处理算法,其中重要的是,算法的操作根据使用者是否在讲话而改变。话音活动检测是对输入信号进行处理以确定信号中存在或不存在语音,因此往往是话音捕获和其他这样信号处理算法的重要方面。
[0004]然而,甚至在较大的头戴式受送话器(诸如,悬臂式耳机(boom)、挂绳式耳机(pendant)和贴耳头戴式受送话器)中,往往也非常难以可靠地忽略背景噪声(诸如,来自位于设备的波束成形器的波束内的其他人的语音),结果是这些其他人的语音噪声只会破坏使用者的话音捕获的处理。话音捕获的这些和其他方面尤其难以用耳塞实现,包括由于耳塞没有将麦克风定位在使用者的口部附近,从而不能从由这种麦克风定位所导致的显著提高的信噪比中受益。
[0005]期望的是,解决或改善与用于语音检测的现有方法和系统相关联的一个或多个缺点或劣势,或至少提供其有用的替代方案。
[0006]本说明书中已经包括的对文件、动作、材料、设备、物品等的任何讨论不应被认为是,承认这些事项中的任何事项或所有事项由于在本申请的每个权利要求的优先权日之前存在而形成现有技术基础的一部分或是与本公开内容相关领域内的公共常识。
[0007]贯穿本说明书,词语“包括(comprise)”或诸如“包括(comprises)”或“包括(comprising)”之类的变体将被理解为暗示包括所陈述的元件、整数或步骤、或元件组、整数组或步骤组,但不排除任何其他元件、整数或步骤、或元件组、整数组或步骤组。
[0008]在本说明书中,陈述元件可以是选项列表中的
“……
中的至少一个”应被理解为,元件可以是所列出的选项中的任何一个,或者可以是所列出的选项中的两个或更多个的任何组合。

技术实现思路

[0009]一些实施方案涉及一种设备,该设备包括:
[0010]至少一个信号输入部件,用于从耳塞的骨传导信号传感器接收骨传导信号;
[0011]存储可执行代码的存储器;以及
[0012]处理器,被配置为访问所述存储器且执行所述可执行代码,其中执行所述可执行代码导致所述处理器:
[0013]接收所述骨传导信号;
[0014]确定用于所接收的骨传导信号的至少一个语音度量(speech metric),其中所述语音度量基于所述骨传导信号的输入水平和用于所述骨传导信号的噪声估计;
[0015]至少部分地基于对所述语音度量与语音度量阈值的比较,更新语音确定性指示符(speech certainty indicator),所述语音确定性指示符指示所述骨传导信号中存在语音的确定性的水平;
[0016]基于所述语音确定性指示符来更新至少一个信号衰减因子;以及
[0017]通过对语音水平估计应用所述信号衰减因子来生成更新的语音水平估计输出。
[0018]根据一些实施方案,所述处理器被配置为基于所述骨传导信号的输入水平与用于所述骨传导信号的噪声估计之间的差异来确定所述语音度量。在一些实施方案中,通过所述处理器对所述所接收的骨传导信号应用最小值控制递归平均(MCRA)窗来确定所述噪声估计。
[0019]在一些实施方案中,所述处理器进一步被配置为对所接收的骨传导信号应用快速傅里叶变换(FFT),以将所述信号分割成多个频带。
[0020]根据一些实施方案,所述处理器被配置为基于先前所确定的语音确定性指示符来选择所述语音度量阈值。在一些实施方案中,所述处理器被配置为从高语音度量阈值和低语音度量阈值中选择所述语音度量阈值,且其中如果所述语音确定性指示符低于语音确定性阈值,则选择所述高语音度量阈值,且如果所述语音确定性指示符高于语音确定性阈值,则选择所述低语音度量阈值。在一些实施方案中,所述语音确定性阈值为零。
[0021]根据一些实施方案,如权利要求1至7中任一项所述的设备,其中所述处理器被配置为如果所述语音度量大于所述语音度量阈值,则更新所述语音确定性指示符以实施拖尾延迟(hangover delay),且如果所述语音度量不大于所述语音度量阈值,则将所述语音确定性指示符减缩一预定的减缩量。在一些实施方案中,所述处理器实施0.1秒到0.5秒之间的拖尾延迟。
[0022]在一些实施方案中,所述处理器进一步被配置为如果所述语音度量被确定为大于所述语音度量阈值,则将所述至少一个信号衰减因子重置为零。
[0023]在一些实施方案中,所述处理器被配置为如果所述语音确定性指示符被确定为在预定的语音确定性阈值之外,则更新所述至少一个信号衰减因子。根据一些实施方案,所述预定的语音确定性阈值为零,且其中如果所述语音确定性指示符等于或低于所述预定的语
音确定性阈值,则更新所述至少一个信号衰减因子。
[0024]根据一些实施方案,更新所述至少一个信号衰减因子包括将所述信号衰减因子增加一信号衰减阶跃值。
[0025]在一些实施方案中,所述至少一个信号衰减因子包括高频信号衰减因子和低频信号衰减因子,其中所述高频信号衰减因子被应用至所述骨传导信号的高于预定阈值的频率,所述低频信号衰减因子被应用至所述骨传导信号的低于所述预定阈值的频率。根据一些实施方案,所述预定阈值在500Hz和1500Hz之间。在一些实施方案中,所述预定阈值在600Hz和1000Hz之间。
[0026]根据一些实施方案,对所述语音水平估计应用所述至少一个信号衰减因子包括将所述语音水平估计减小所述至少一个信号衰减因子。
[0027]在一些实施方案中,所述耳塞是无线耳塞。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种设备,包括:至少一个信号输入部件,用于从耳塞的骨传导信号传感器接收骨传导信号;存储器,存储可执行代码;以及处理器,被配置为访问所述存储器以及执行所述可执行代码,其中执行所述可执行代码导致所述处理器:接收所述骨传导信号;确定用于所接收的骨传导信号的至少一个语音度量,其中所述语音度量基于所述骨传导信号的输入水平以及用于所述骨传导信号的噪声估计;至少部分地基于对所述语音度量与语音度量阈值的比较,更新语音确定性指示符,所述语音确定性指示符指示所述骨传导信号中存在语音的确定性水平;基于所述语音确定性指示符来更新至少一个信号衰减因子;以及通过对语音水平估计应用所述信号衰减因子来生成更新的语音水平估计输出。2.根据权利要求1所述的设备,其中所述处理器被配置为基于所述骨传导信号的输入水平与用于所述骨传导信号的噪声估计之间的差异来确定所述语音度量。3.根据权利要求2所述的设备,其中通过所述处理器对所接收的骨传导信号应用最小值控制递归平均(MCRA)窗来确定所述噪声估计。4.根据权利要求1至3中的任一项所述的设备,其中所述处理器还被配置为对所接收的骨传导信号应用快速傅里叶变换(FFT),以将所述信号分割成多个频带。5.根据权利要求1至4中的任一项所述的设备,其中所述处理器被配置为基于先前所确定的语音确定性指示符来选择所述语音度量阈值。6.根据权利要求5所述的设备,其中所述处理器被配置为从高语音度量阈值和低语音度量阈值中选择所述语音度量阈值,且其中如果所述语音确定性指示符低于语音确定性阈值,则选择所述高语音度量阈值,且如果所述语音确定性指示符高于语音确定性阈值,则选择所述低语音度量阈值。7.根据权利要求6所述的设备,其中所述语音确定性阈值为零。8.根据权利要求1至7中的任一项所述的设备,其中所述处理器被配置为如果所述语音度量大于所述语音度量阈值,则更新所述语音确定性指示符以实施拖尾延迟,且如果所述语音度量不大于所述语音度量阈值,则将所述语音确定性指示符减缩一预定的减缩量。9.根据权利要求8所述的设备,其中所述处理器实施0.1秒到0.5秒之间的拖尾延迟。10.根据权利要求1至9中的任一项所述的设备,其中所述处理器还被配置为如果所述语音度量被确定为大于所述语音度量阈值,则将所述至少一个信号衰减因子重置为零。11.根据权利要求1至10中的任一项所述的设备,其中所述处理器被配置为如果所述语音确定性指示符被确定为在预定的语音确定性阈值之外,则更新所述至少一个信号衰减因子。12.根据权利要求11所述的设备,其中所述预定的语音确定性阈值为零,且其中如果所述语音确定性指示符等于或低于所述预定的语音确定性阈值,则更新所述至少一个信号衰减因子。13.根据权利要求1至12中的任一项所述的设备,其中更新所述至少一个信号衰减因子包括将所述信号衰减因子增加一信号衰减阶跃值。
14.根据权利要求1至13中的任一项所述的设备,其中所述至少一个信号衰减因子包括高频信号衰减因子和低频信号衰减因子,其中所述高频信号衰减因子被应用至所述骨传导信号的高于一预定阈值的频率,且所述低频信号衰减因子被应用至所述骨传导信号的低于所述预定阈值的频率。15.根据权利要求14所述的设备,其中所述预定阈值在500Hz和1500Hz之间。16.根据权利要求14或权利要求15所述的设备,其中所述预定阈值在600Hz和1000Hz之间。17.根据权利要求1至16中的任一项所述的设备,其中对所述语音水平估计应用所述至少一个信号衰减因子包括将所述语音水平估计减小所述至少一个信号衰减因子。18.根据权利要求1至17中的任一项所述的设备,其中所述耳塞是无线耳塞。19.根据权利要求1至18中的任一项所述的设备,其中所述骨传导信号传感器包括加速度计。20.根据权利要求1至19中的任一项所述的设备,其中所述骨传导信号传感器被定位在所述耳塞上,从而当所述耳塞位于使用者的耳道中时与所述使用者的耳道壁机械地耦合。21.根据权利要求1至20中的任一项所述的设备,还包括至少一个信号输入部件,所述至少一个信号输入部件用于从所述耳塞的外部麦克风接收麦克风信号;其中所述处理器还被配置为基于所述麦克风信号生成所述语音水平估计。22.根据权利要求21所述的设备,...

【专利技术属性】
技术研发人员:B
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1