对话检测器制造技术

技术编号：31159148 阅读：22 留言：0更新日期：2021-12-04 10:10

本申请案涉及一种响应于输入音频信号在对话检测器中提取音频特征的方法，所述方法包括：将所述输入音频信号划分为多个帧；从每一帧提取帧音频特征；确定一组上下文窗口，每一上下文窗口包含环绕当前帧的若干帧；针对每一上下文窗口，基于每一相应上下文中的所述帧的所述帧音频特征，导出所述当前帧的相关上下文音频特征；及串接每一上下文音频特征以形成组合的特征向量以表示所述当前帧。具有不同长度的所述上下文窗口可改进响应速度并改进稳健性。性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】对话检测器
[0001]相关申请案的交叉引用
[0002]本申请案要求2019年4月18日申请的第PCT/CN2019/083173号PCT专利申请案、2019年4月30日申请的第62/840,839号美国临时专利申请案及2019年8月20日申请的第19192553.6号EP专利申请案的优先权，其每一者的全部内容以引用的方式并入本文中。

[0003]本申请案公开大体上涉及音频信号处理，且特定来说涉及对话检测器。

技术介绍

[0004]对话检测器是多个音频信号处理算法中的关键组件，例如对话增强、降噪及响度计。通常，在当前对话检测器中，输入音频信号首先通过采样率转化或向下混合等手段在预处理组件中转化为统一格式。例如，作为预处理，输入音频信号可经向下混合为单声道音频信号。接下来，将经处理的音频信号分割成短时间帧，并从包含固定数量帧的上下文窗口提取音频特征以描述每一帧的特性。然后，使用机器学习方法构建的分类器经应用以将音频特征自动映射到表示对话的存在的概率的置信度分数。最后，后处理(例如中值或均值滤波器)可经应用以移除或平滑化所获得的置信度分数的非期望的波动。如果置信度分数较高，那么信号将被分类为对话。然后，对话信号可被发送到音频改进装置，例如对话增强器。

技术实现思路

[0005]本专利技术的第一方面涉及一种响应于输入音频信号在对话检测器中提取音频特征的方法，所述方法包括：将所述输入音频信号划分为多个帧；从每一帧提取帧音频特征；确定一组上下文窗口，每一上下文窗口包含环绕当前帧的若干帧；针对每...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种获得表示对话在输入音频信号的当前帧中的存在的概率的置信度分数的方法，所述方法包括：将所述输入音频信号划分为多个帧；从每一帧I提取帧音频特征；确定一组上下文窗口，每一上下文窗口包含环绕所述当前帧的若干帧；针对每一上下文窗口，基于每一相应上下文中的所述帧的所述帧音频特征，导出所述当前帧的相关上下文音频特征；串接每一上下文音频特征以形成组合的特征向量以表示所述当前帧；及使用所述组合的特征向量获得表示对话在所述当前帧中的存在的概率的语音置信度分数。2.根据权利要求1所述的方法，其中所述一组上下文窗口包含：短期上下文窗口，其含有所述当前帧及所述当前帧之前及/或之后的若干帧；中期上下文窗口，其含有所述短期上下文窗口的所述帧及多个回溯帧；及长期上下文窗口，其含有所述中期上下文窗口的所述帧及多个长期历史帧。3.根据权利要求1或2所述的方法，其中每一上下文窗口中的帧数是预定的。4.根据权利要求2或3所述的方法，当依赖于权利要求2时，其中如果前瞻缓冲器可用，那么所述短期上下文窗口含有所述当前帧及一组前瞻帧。5.根据权利要求1或2所述的方法，其中基于所述提取的帧音频特征自适应地确定一或多个上下文窗口中的所述帧数。6.根据权利要求5所述的方法，其中通过分析帧级音频特征的平稳性，自适应地确定一或多个上下文窗口中的所述帧数。7.根据权利要求6所述的方法，其中一或多个上下文窗口中的所述帧数的所述自适应确定基于与所述...

【专利技术属性】
技术研发人员：芦烈，刘鑫，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人