对话检测器制造技术

技术编号:31159148 阅读:22 留言:0更新日期:2021-12-04 10:10
本申请案涉及一种响应于输入音频信号在对话检测器中提取音频特征的方法,所述方法包括:将所述输入音频信号划分为多个帧;从每一帧提取帧音频特征;确定一组上下文窗口,每一上下文窗口包含环绕当前帧的若干帧;针对每一上下文窗口,基于每一相应上下文中的所述帧的所述帧音频特征,导出所述当前帧的相关上下文音频特征;及串接每一上下文音频特征以形成组合的特征向量以表示所述当前帧。具有不同长度的所述上下文窗口可改进响应速度并改进稳健性。性。

【技术实现步骤摘要】
【国外来华专利技术】对话检测器
[0001]相关申请案的交叉引用
[0002]本申请案要求2019年4月18日申请的第PCT/CN2019/083173号PCT专利申请案、2019年4月30日申请的第62/840,839号美国临时专利申请案及2019年8月20日申请的第19192553.6号EP专利申请案的优先权,其每一者的全部内容以引用的方式并入本文中。


[0003]本申请案公开大体上涉及音频信号处理,且特定来说涉及对话检测器。

技术介绍

[0004]对话检测器是多个音频信号处理算法中的关键组件,例如对话增强、降噪及响度计。通常,在当前对话检测器中,输入音频信号首先通过采样率转化或向下混合等手段在预处理组件中转化为统一格式。例如,作为预处理,输入音频信号可经向下混合为单声道音频信号。接下来,将经处理的音频信号分割成短时间帧,并从包含固定数量帧的上下文窗口提取音频特征以描述每一帧的特性。然后,使用机器学习方法构建的分类器经应用以将音频特征自动映射到表示对话的存在的概率的置信度分数。最后,后处理(例如中值或均值滤波器)可经应用以移除或平滑化所获得的置信度分数的非期望的波动。如果置信度分数较高,那么信号将被分类为对话。然后,对话信号可被发送到音频改进装置,例如对话增强器。

技术实现思路

[0005]本专利技术的第一方面涉及一种响应于输入音频信号在对话检测器中提取音频特征的方法,所述方法包括:将所述输入音频信号划分为多个帧;从每一帧提取帧音频特征;确定一组上下文窗口,每一上下文窗口包含环绕当前帧的若干帧;针对每一上下文窗口,基于每一相应上下文中的所述帧的所述帧音频特征,导出所述当前帧的相关上下文音频特征;及串接每一上下文音频特征以形成组合的特征向量以表示所述当前帧。
[0006]因此,本专利技术提议使用若干上下文窗口,每一者包含不同数量的帧,以表示不同上下文中的帧,其中具有不同长度的所述上下文窗口将在表示目标帧的音频性质中发挥不同的作用。具有所述不同长度的所述上下文窗口可改进响应速度并改进稳健性。为此目的,本申请案引入一种新的过程,即组合期上下文确定,以确定具有不同长度或范围的多个(例如三个)上下文窗口,例如,短期上下文、中期上下文及长期上下文;然后在所述音频特征提取组件处的所述上下文中提取所述音频特征。
[0007]在一些实施方案中,帧特征提取组件从划分自所述输入音频信号的多个帧中的每一帧提取帧音频特征(即,帧的音频特征),且组合期上下文确定组件确定每一上下文窗口的长度或范围。然后,基于每一确定的上下文中的所述帧音频特征导出相关的上下文音频特征。然后将每一上下文音频特征串接并形成组合的特征向量以表示当前帧。
[0008]在一些实施方案中,所述上下文窗口包含短期上下文、中期上下文及长期上下文。所述短期上下文表示所述当前帧周围的局部信息。所述中期上下文进一步含有多个回溯
帧。所述长期上下文进一步含有多个长期历史帧。
[0009]在一些实施方案中,可预定一或多个上下文的长度或范围(即,相应上下文窗口中的帧数)。例如,如果前瞻缓冲器可用,那么所述短期上下文可含有所述当前帧及前瞻帧。所述中期上下文可含有所述当前帧、所述前瞻帧及所述回溯帧。所述长期上下文可含有所述当前帧、所述前瞻帧、所述回溯帧及所述长期历史帧。在一个实施方案中,所述前瞻帧的长度或范围可经预定为长达23帧,且所述回溯帧的长度或范围可经预定为长达24帧,以及所述长期历史帧的长度或范围可经预定为长达48到96帧。在另一实例中,如果所述前瞻缓冲器不可用,那么所述短期上下文可含有所述当前帧及所述回溯帧的第一部分。所述中期上下文可含有所述当前帧、所述回溯帧的所述第一部分及所述回溯帧的第二部分。所述长期上下文可含有所述当前帧、所述回溯帧的所述第一部分、所述回溯帧的所述第二部分及所述长期历史帧。因此,所述回溯帧的所述第一部分的长度或范围可经预定为长达23帧,且所述回溯帧的所述第二部分的长度或范围可经预定为长达24帧,以及所述长期历史帧的长度或范围可经预定为长达48到96帧。
[0010]在一些实施方案中,通过分析帧级特征的平稳性,可自适应地确定一或多个上下文的长度或范围。例如,所述自适应确定基于与所述输入音频信号的振幅相关的信息。明确来说,一种自适应地确定所述短期上下文的所述长度或范围的方式是基于强起始点或瞬态检测。在另一实例中,所述自适应确定基于与所述输入音频信号的频谱相关的信息。明确来说,一种自适应确定所述短期上下文的所述长度或范围的方式是基于通过使用贝叶斯(Bayesian)信息准则来标识最大频谱不一致性。另外,所述短期上下文可延伸到前瞻及回溯方向两者,或在所述自适应确定实施方案中仅延伸到一个方向。在一些实施方案中,可结合所述自适应确定来预定义所述上下文的所述长度或范围。
[0011]另外,本申请案提议一种预清洁方法以移除信号中的不相关噪声,以便改进低SNR对话中的检测准确度。为此目的,本申请案利用具有时间频率相关增益的向下混合,其中更强调相关信号。
[0012]在一些实施方案中,首先将输入音频信号划分为多个帧,且然后将左声道及右声道中的帧转化为帧的频谱表示。通过分别将所述频率相关增益应用到所述左声道及所述右声道中的所述频谱来移除所述左声道及所述右声道中的不相关信号,以获得向下混合之后的信号。在一些实施方案中,所述频率相关增益可从协方差矩阵估计。
[0013]此外,本申请案引入音乐内容检测器,使得可联合考虑音乐置信度分数及语音置信度分数来校正原始对话置信度分数并获得最终校正的对话置信度分数,以显著减少音乐中的假警报。
[0014]在一些实施方案中,语音内容检测器接收通过使用所述上下文窗口提取的特征,且然后,所述语音内容检测器确定所述语音置信度分数。接下来,所述音乐内容检测器接收通过使用所述上下文窗口提取的特征,且然后,所述音乐内容检测器确定所述音乐置信度分数。所述语音置信度分数与所述音乐置信度分数经组合以获得所述最终对话置信度分数。在一些实施方案中,所述最终对话置信度分数可通过上下文相关参数进行精细化,所述上下文相关参数可基于所述历史上下文中经标识为语音或音乐的帧的比例进行计算。在一些实施方案中,所述历史上下文可长达或长于10秒。
附图说明
[0015]所包含的附图用于说明的目的,且仅用于提供用于所公开的专利技术方法、系统及计算机可读媒体的可能的实例及操作。这些附图绝不以任何方式限制所属领域的技术人员在不脱离所公开的实施方式的精神及范围的情况下可作出的形式及细节上的任何改变。
[0016]图1展示根据一些实施方案的并入组合期上下文确定组件104的对话检测器100的框图。
[0017]图2展示根据一些实施方案的对话检测器100中的音频特征提取组件102的框图。
[0018]图3展示用于通过使用组合期上下文确定组件104预定组合期上下文的长度或范围的一些实施方案的方法200的流程图。
[0019]图4a展示根据一些实施方案的在前瞻缓冲器可用的情况下组合期上下文的预定长度或范围的实例。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种获得表示对话在输入音频信号的当前帧中的存在的概率的置信度分数的方法,所述方法包括:将所述输入音频信号划分为多个帧;从每一帧I提取帧音频特征;确定一组上下文窗口,每一上下文窗口包含环绕所述当前帧的若干帧;针对每一上下文窗口,基于每一相应上下文中的所述帧的所述帧音频特征,导出所述当前帧的相关上下文音频特征;串接每一上下文音频特征以形成组合的特征向量以表示所述当前帧;及使用所述组合的特征向量获得表示对话在所述当前帧中的存在的概率的语音置信度分数。2.根据权利要求1所述的方法,其中所述一组上下文窗口包含:短期上下文窗口,其含有所述当前帧及所述当前帧之前及/或之后的若干帧;中期上下文窗口,其含有所述短期上下文窗口的所述帧及多个回溯帧;及长期上下文窗口,其含有所述中期上下文窗口的所述帧及多个长期历史帧。3.根据权利要求1或2所述的方法,其中每一上下文窗口中的帧数是预定的。4.根据权利要求2或3所述的方法,当依赖于权利要求2时,其中如果前瞻缓冲器可用,那么所述短期上下文窗口含有所述当前帧及一组前瞻帧。5.根据权利要求1或2所述的方法,其中基于所述提取的帧音频特征自适应地确定一或多个上下文窗口中的所述帧数。6.根据权利要求5所述的方法,其中通过分析帧级音频特征的平稳性,自适应地确定一或多个上下文窗口中的所述帧数。7.根据权利要求6所述的方法,其中一或多个上下文窗口中的所述帧数的所述自适应确定基于与所述...

【专利技术属性】
技术研发人员:芦烈刘鑫
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1