当前位置: 首页 > 专利查询>DTS公司专利>正文

上下文感知语音可懂度增强制造技术

技术编号:33234142 阅读:24 留言:0更新日期:2022-04-27 17:32
一种方法包括:用麦克风检测环境中的噪声以产生噪声信号;接收要通过扬声器播放到环境中的语音信号;基于麦克风的麦克风传递函数执行噪声信号的多频带校正,以产生校正后的噪声信号;基于扬声器的扬声器传递函数执行语音信号的多频带校正,以产生校正后的语音信号;以及基于校正后的噪声信号和校正后的语音信号计算多频带语音可懂度结果。计算多频带语音可懂度结果。计算多频带语音可懂度结果。

【技术实现步骤摘要】
【国外来华专利技术】上下文感知语音可懂度增强
[0001]优先权声明
[0002]本申请要求2019年9月11日提交的美国临时申请No.62/898,977的优先权,其通过引用整体并入本文。


[0003]本公开涉及语音可懂度处理。

技术介绍

[0004]诸如人工智能(Al)喇叭、移动电话、电话会议、物联网(IoT)设备等的语音回放设备经常用于包括高等级背景噪声的声学环境中。语音回放设备播放的语音可能被背景噪声掩盖,导致语音可懂度降低。有许多提高语音可懂度的技术可用。其中一些技术还利用噪声捕获设备来增强嘈杂环境中的语音可懂度。然而,这些技术没有指定和解决与特定于实现方式的限制相关联的实际挑战,诸如回放设备的物理限制、噪声捕获设备的物理限制、语音可懂度处理的信号净空以及长期语音特性。
附图说明
[0005]图1是在其中可以实现针对语音可懂度处理的实施例的示例系统的高级框图。
[0006]图2是在图1的系统中实现的示例语音可懂度处理器(VIP)和相关联的语音和噪声处理的框图。
[0007]图3示出了语音可懂度指数(SII)的频带

重要性函数的示例曲线图。
[0008]图4示出了两个不同扬声器的示例扬声器频率响应。
[0009]图5是示例理想化麦克风频率响应和示例理想化扬声器频率响应,以及基于这两个频率响应之间的相互关系确定的各种频率分析范围的频率曲线图。
[0010]图6示出了语音信号的短片段及其对应频谱的曲线图。
[0011]图7示出了语音信号的另一短片段及其对应频谱的曲线图。
[0012]图8示出了语音信号的长片段及其对应频谱的曲线图。
[0013]图9是VIP的语音增强器的一部分的高级块/信号流程图。
[0014]图10是VIP执行的多频带语音可懂度分析/处理和语音可懂度增强的示例方法的流程图。
具体实施方式
[0015]示例实施例
[0016]解决上述挑战和顾虑可以实现从未处理语音到处理后语音的自然转换的最佳性能。因此,本文提供的实施例引入了用于语音可懂度分析的新颖特征和改进,其提高了噪声环境中的语音可懂度,并克服了本文描述的实际挑战。实施例包括但不限于:(1)结合多频带语音和噪声校正的数字到声学等级转换,(2)短片段语音可懂度分析,(3)长片段的语音
和噪声描画(profiling),以及(4)全局和每频带增益分析。因为在实施例中执行的分析结果产生用于回放的语音信号的相对增益调整参数,既有宽带的、又有每个频带的,所以在实施例中的处理不限于特定的音频信号处理,并且可以包括诸如压缩器、扩展器和共振峰增强的已知动态处理的任意组合。
[0017]如本文所使用的,术语:“话音”、“语音”和“语音/话音”是同义词并且可以互换使用;“帧”、“片段”和“时间片段”是同义词并且可以互换使用;“话音(或语音)可懂度”和“可懂度”是同义词并且可以互换使用;“区间(bin)”和“频带”是同义词并且可以互换使用;以及“带宽(BW)”和“通带”是同义词并且可以互换使用。
[0018]图1是其中可以实现本文呈现的实施例的示例系统100。系统100是一个示例,并且可以有许多变化。这样的变化可以省略或添加音频分量。系统100可以表示支持与远程通信设备(未示出)进行语音通信(例如,语音呼叫)的语音通信设备。系统100还可以表示与通信设备耦合的多媒体回放设备。系统100的非限制性示例包括电话(例如,移动电话、智能电话、互联网协议(IP)语音(VoIP)电话等)、计算机(例如,台式计算机、膝上型计算机、平板电脑等)以及配备有语音通信设备的家庭影院音响系统。
[0019]系统100部署在声学环境中,例如房间、开放空间等。系统100包括彼此耦合的语音发送路径、语音回放路径和媒体回放路径。语音发送包括彼此耦合的表示语音/噪声捕获设备(也简称为“噪声捕获设备”)的麦克风104、声学回声消除器106和噪声预处理器108。麦克风104将声学环境中的声音转换为代表该声音的声音信号。声音信号表示声学环境中的背景噪声(简称为“噪声”),并且还可以表示来自说话者的语音。例如,声学回声消除器106和噪声预处理器108(统称为“预处理器”)分别消除回声和降低声音信号中的噪声,并发送处理后的声音信号(例如,处理后的语音)以便在例如远程站回放。
[0020]语音回放路径包括语音可懂度处理器(VIP)120、系统音量控制122和扬声器124(更一般地,回放设备)。在语音回放路径中,VIP 120接收要通过扬声器124回放的语音信号(即,语音回放信号)。例如,语音信号可能已经从上述远程通信设备(例如,远程移动电话)传输到系统100用于回放。此外,VIP 120从麦克风104接收表示声学环境中的噪声的噪声信号。VIP 120接收的噪声信号可以是由声学回声消除器106产生的回声消除噪声信号,以避免VIP的自激活。根据本文提出的实施例,VIP 120同时处理用于回放的语音信号与噪声信号(例如,由麦克风104感测到的噪声),以增强语音信号的可懂度,从而产生可懂度增强的语音信号。VIP 120将可懂度增强的语音信号提供给扬声器124(通过系统音量控制122),以便由扬声器回放到声学环境中。
[0021]媒体回放路径包括音频后处理器130、系统音量控制122和扬声器124。音频后处理器130处理媒体信号以供扬声器124回放(通过系统音量控制122)。系统100还可以包括开关140,以选择性地将语音回放或媒体回放引导到扬声器124。
[0022]系统100还包括耦合到麦克风104和扬声器124的控制器150。控制器150可以被配置为实现例如声学回声消除器106、噪声预处理器108、VIP 120、音频后处理器130、开关140和系统音量控制122。控制器150包括处理器150a和存储器150b。处理器150a可以包括例如被配置为执行存储在存储器150b中的软件指令的微控制器或微处理器。存储器150b可以包括只读存储器(ROM)、随机存取存储器(RAM)或其他物理/有形(例如,非瞬态)存储器存储设备。因此,一般而言,存储器150b可以包括编码有软件的一个或多个计算机可读存储介质
(例如,存储器设备),软件包括计算机可执行指令,并且当该软件被(处理器150a)执行时,其可操作为执行本文描述的操作。例如,存储器150b存储或编码有用于控制逻辑的指令,以实现VIP 120(例如,下面结合图2

9描述的VIP的模块)和上述系统100的其他模块,并执行系统100的总体控制。
[0023]存储器150b还存储本文描述的由控制逻辑使用和生成的信息/数据150c。
[0024]图2是根据实施例的VIP 120和由VIP执行的处理的示例高级框图。VIP包括耦合到语音增强器204的语音和噪声分析器202。语音和噪声分析器202从麦克风104接收噪声信号。语音和噪声分析器202还接收用于回放的语音信号。在示例中,噪声信号和语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:用麦克风检测环境中的噪声以产生噪声信号;接收要通过扬声器播放到所述环境中的语音信号;基于所述麦克风的麦克风传递函数和所述扬声器的扬声器传递函数之间的关系,确定用于多频带语音可懂度计算的频率分析区域;和基于所述噪声信号和所述语音信号,在所述频率分析区域上计算多频带语音可懂度结果。2.如权利要求1所述的方法,还包括:使用所述多频带语音可懂度结果增强所述语音信号的可懂度。3.如权利要求1所述的方法,其中:所述确定包括将所述麦克风传递函数的麦克风通带和所述扬声器传递函数的扬声器通带相重叠的重叠通带确定为所述频率分析区域;并且所述计算包括在限于所述重叠通带的语音分析带上计算每频带语音可懂度值。4.如权利要求3所述的方法,其中,所述计算还包括计算(i)在限于所述重叠通带的语音分析带上基于所述语音信号的语音功率与(ii)在所述麦克风通带上基于所述噪声信号的噪声功率的全局语音噪声比。5.如权利要求3所述的方法,还包括:确定所述扬声器通带的起始频率是否大于所述麦克风通带的起始频率;以及当所述扬声器通带的起始频率更大时,在低于所述麦克风通带的起始频率的频带内衰减所述语音信号。6.如权利要求3所述的方法,其中,所述确定包括:识别分别定义所述麦克风通带和所述扬声器通带的起始频率和停止频率;以及将所述重叠通带计算为从最大起始频率延伸到最小停止频率的通带。7.如权利要求1所述的方法,其中:所述计算多频带语音可懂度结果包括计算每频带语音可懂度值和全局语音噪声比。8.如权利要求1所述的方法,其中,所述计算多频带语音可懂度结果包括:基于所述语音信号和所述噪声信号的短/中长度片段执行多频带语音可懂度分析,以产生短期语音可懂度结果;以及基于所述语音信号和所述噪声信号的比所述短/中长度片段长的长片段执行多频带语音可懂度分析,以产生长期语音可懂度结果。9.如权利要求1所述的方法,还包括:基于所述麦克风传递函数执行所述噪声信号的多频带校正,以产生校正后的噪声信号;以及基于所述扬声器传递函数执行所述语音信号的多频带校正,以产生校正后的语音信号,其中所述计算包括基于所述校正后的噪声信号和所述校正后的语音信号,在所述频率分析区域上计算所述多频带语音可懂度结果。10.如权利要求9所述的方法,还包括:在执行所述噪声信号的多频带校正之前,基于所述麦克风的灵敏度执行所述噪声信号
的数字到声学等级转换;以及在执行所述语音信号的多频带校正之前,基于所述扬声器的灵敏度执行所述语音信号的数字到声学等级转换。11.一种装置,包括:麦克风,用于检测环境中的噪声以产生噪声信号;扬声器,用于将语音信号播放到所述环境中;以及控制器,耦合到所述麦克风和所述扬声器,并且被配置为执行:基于所述麦克风的麦克风传递函数对所述噪声信号的多频带校正,以产生校正后的噪声信号;基于所述扬声器的扬声器传递函数对所述语音信号的多频带校正,以产生校正后的语音信号;基于所述校正后的噪声信号和所述校正后的语音信号计算多频带语音可懂度结果;基于所述多频带语音可懂度结果计算多频带增...

【专利技术属性】
技术研发人员:D
申请(专利权)人:DTS公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1