【技术实现步骤摘要】
【国外来华专利技术】用于语音检测的方法和系统
[0001]所描述的实施方案总体涉及用于执行语音(speech)检测的方法和系统。具体地,实施方案涉及执行语音检测,以实现用于语音捕获功能的降噪。
技术介绍
[0002]头戴式受送话器是一种使用者私下收听音乐或音频、拨打免提电话,或者将话音(voice)命令传送给话音识别系统的流行方式。各种各样的头戴式受送话器形状因子(form factor)(即,头戴式受送话器类型)是可用的,包括耳塞(earbud)。耳塞在使用时的入耳位置对此形状因子提出了特殊的挑战。耳塞的入耳位置严重限制了设备的几何形状,且极大地限制了将麦克风相隔很远定位的能力(如诸如波束成形或旁瓣消除等功能往往所要求的)。附加地,对于无线耳塞来说,小形状因子对电池尺寸从而功率预算造成了很大的限制。此外,当将耳塞放置在耳道内时,耳道和耳廓的解剖结构略微遮挡了从使用者的口部至耳塞的麦克风的声学信号路径,这增大了将使用者自己的话音与附近其他人的话音区分开的任务的难度。
[0003]语音捕获通常是指捕获头戴式受送话器使用者的话音且使包括其他人的话音的任何周围噪声最小化的情况。此使用实例的常见场景是当使用者进行话音呼叫或与语音识别系统进行交互时。这两种场景都对用于语音捕获的底层算法提出了严格的需求。对于话音呼叫,电话标准和使用者需求通常要求以出色的音质来实现相对高水平的降噪。类似地,语音识别系统通常要求音频信号具有最小的修改,同时消除尽可能多的噪声。存在许多信号处理算法,其中重要的是,算法的操作根据使用者是否在讲话而改变。话音活动检测 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种设备,包括:至少一个信号输入部件,用于从耳塞的骨传导信号传感器接收骨传导信号;存储器,存储可执行代码;以及处理器,被配置为访问所述存储器以及执行所述可执行代码,其中执行所述可执行代码导致所述处理器:接收所述骨传导信号;确定用于所接收的骨传导信号的至少一个语音度量,其中所述语音度量基于所述骨传导信号的输入水平以及用于所述骨传导信号的噪声估计;至少部分地基于对所述语音度量与语音度量阈值的比较,更新语音确定性指示符,所述语音确定性指示符指示所述骨传导信号中存在语音的确定性水平;基于所述语音确定性指示符来更新至少一个信号衰减因子;以及通过对语音水平估计应用所述信号衰减因子来生成更新的语音水平估计输出。2.根据权利要求1所述的设备,其中所述处理器被配置为基于所述骨传导信号的输入水平与用于所述骨传导信号的噪声估计之间的差异来确定所述语音度量。3.根据权利要求2所述的设备,其中通过所述处理器对所接收的骨传导信号应用最小值控制递归平均(MCRA)窗来确定所述噪声估计。4.根据权利要求1至3中的任一项所述的设备,其中所述处理器还被配置为对所接收的骨传导信号应用快速傅里叶变换(FFT),以将所述信号分割成多个频带。5.根据权利要求1至4中的任一项所述的设备,其中所述处理器被配置为基于先前所确定的语音确定性指示符来选择所述语音度量阈值。6.根据权利要求5所述的设备,其中所述处理器被配置为从高语音度量阈值和低语音度量阈值中选择所述语音度量阈值,且其中如果所述语音确定性指示符低于语音确定性阈值,则选择所述高语音度量阈值,且如果所述语音确定性指示符高于语音确定性阈值,则选择所述低语音度量阈值。7.根据权利要求6所述的设备,其中所述语音确定性阈值为零。8.根据权利要求1至7中的任一项所述的设备,其中所述处理器被配置为如果所述语音度量大于所述语音度量阈值,则更新所述语音确定性指示符以实施拖尾延迟,且如果所述语音度量不大于所述语音度量阈值,则将所述语音确定性指示符减缩一预定的减缩量。9.根据权利要求8所述的设备,其中所述处理器实施0.1秒到0.5秒之间的拖尾延迟。10.根据权利要求1至9中的任一项所述的设备,其中所述处理器还被配置为如果所述语音度量被确定为大于所述语音度量阈值,则将所述至少一个信号衰减因子重置为零。11.根据权利要求1至10中的任一项所述的设备,其中所述处理器被配置为如果所述语音确定性指示符被确定为在预定的语音确定性阈值之外,则更新所述至少一个信号衰减因子。12.根据权利要求11所述的设备,其中所述预定的语音确定性阈值为零,且其中如果所述语音确定性指示符等于或低于所述预定的语音确定性阈值,则更新所述至少一个信号衰减因子。13.根据权利要求1至12中的任一项所述的设备,其中更新所述至少一个信号衰减因子包括将所述信号衰减因子增加一信号衰减阶跃值。
14.根据权利要求1至13中的任一项所述的设备,其中所述至少一个信号衰减因子包括高频信号衰减因子和低频信号衰减因子,其中所述高频信号衰减因子被应用至所述骨传导信号的高于一预定阈值的频率,且所述低频信号衰减因子被应用至所述骨传导信号的低于所述预定阈值的频率。15.根据权利要求14所述的设备,其中所述预定阈值在500Hz和1500Hz之间。16.根据权利要求14或权利要求15所述的设备,其中所述预定阈值在600Hz和1000Hz之间。17.根据权利要求1至16中的任一项所述的设备,其中对所述语音水平估计应用所述至少一个信号衰减因子包括将所述语音水平估计减小所述至少一个信号衰减因子。18.根据权利要求1至17中的任一项所述的设备,其中所述耳塞是无线耳塞。19.根据权利要求1至18中的任一项所述的设备,其中所述骨传导信号传感器包括加速度计。20.根据权利要求1至19中的任一项所述的设备,其中所述骨传导信号传感器被定位在所述耳塞上,从而当所述耳塞位于使用者的耳道中时与所述使用者的耳道壁机械地耦合。21.根据权利要求1至20中的任一项所述的设备,还包括至少一个信号输入部件,所述至少一个信号输入部件用于从所述耳塞的外部麦克风接收麦克风信号;其中所述处理器还被配置为基于所述麦克风信号生成所述语音水平估计。22.根据权利要求21所述的设备,...
【专利技术属性】
技术研发人员:B,
申请(专利权)人:思睿逻辑国际半导体有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。