音频信号处理制造技术

技术编号：29503453 阅读：39 留言：0更新日期：2021-07-30 19:18

提供了通过以下操作来改进音频信号处理的系统和方法：接收音频信号；基于音频信号获得多个多维特征；基于多个多维特征获得多个段级表示；基于多个段级表示获得话语级表示；以及基于话语级表示从音频信号中识别讲话者。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】音频信号处理相关申请的交叉引用本公开要求于2018年12月28日提交的、申请号为16/236,208的美国申请的优先权的权益，其全部内容通过引用并入本文。
技术介绍
在存在环境噪声、背景声音、设备噪声、房间混响等干扰的恶劣声学环境中，可能很难实现讲话者识别。附图说明参考附图阐述详细描述。在附图中，附图标记的最左边的数字标识首次出现该附图标记的附图。在不同的附图中使用相同的附图标记表示相似或相同的项或特征。图1例示了用于音频信号处理的系统的示例框图。图2例示了卷积神经网络(CNN)的示例配置的表。图3例示了基于初始(inception)块的CNN的示例框图。图4例示了基于初始块的CNN的示例配置的表。图5例示了基于初始块的CNN的层/块的参数表。图6例示了以时间扩展的方式展开的用于音频信号处理的系统的示例框图。图7例示了具有跳过连接的话语(utterance)级嵌入提取机制的示例框图。图8例示了用于音频信号处理的处理的示例流程图。图9例示了用于音...

【技术保护点】
1.一种方法，所述方法包括以下步骤：/n接收音频信号；/n基于所述音频信号获得多个多维特征；/n基于所述多个多维特征获得多个段级表示；/n基于所述多个段级表示获得话语级表示；以及/n基于所述话语级表示从所述音频信号中识别讲话者。/n

【技术特征摘要】
【国外来华专利技术】20181228 US 16/236,2081.一种方法，所述方法包括以下步骤：
接收音频信号；
基于所述音频信号获得多个多维特征；
基于所述多个多维特征获得多个段级表示；
基于所述多个段级表示获得话语级表示；以及
基于所述话语级表示从所述音频信号中识别讲话者。

2.根据权利要求1所述的方法，其中，所述音频信号包括来自多个讲话者的具有噪声干扰的语音。

3.根据权利要求1所述的方法，其中，在接收音频信号的步骤之后，所述方法进一步包括以下步骤：
使用预定窗口大小和预定窗口移位将所述音频信号分成多个帧；以及
将所述多个帧分组成多个段，所述多个段中的各个段包括预定数量的帧。

4.根据权利要求1所述的方法，其中，在基于所述音频信号获得多个多维特征的步骤之后，所述方法进一步包括以下步骤：对所述多个多维特征进行归一化。

5.根据权利要求2所述的方法，其中，基于所述音频信号获得多个多维特征的步骤包括：将所述多个帧转换成多个多维滤波器组特征。

6.根据权利要求1所述的方法，其中，基于所述多个多维特征获得多个段级表示的步骤通过卷积神经网络CNN执行。

7.根据权利要求1所述的方法，其中，基于所述多个段级表示获得话语级表示的步骤通过递归神经网络RNN执行。

8.根据权利要求1所述的方法，其中，基于所述话语级表示从所述音频信号中识别讲话者的步骤包括：将所述话语级表示分类成与所述讲话者的身份ID相关联的类别。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由一个或更多个处理器执行的计算机可读指令，所述计算机可读指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器执行操作，所述操作包括：
基于所述音频信号获得多个多维特征；
基于所述多个多维特征获得多个段级表示；
基于所述多个段级表示获得话语级表示；以及
基于所述话语级表示从所述音频信号中识别讲话者。

10.根据权利要求9所述的计算机可读存储介质，其中，所述音频信号包括来自多个讲话者的具有噪声干扰的语音。

11.根据权利要求9所述的计算机可读存储介质，其中，在接收音频信号的操作之后，所述操作进一步包括：
使用预定窗口大小和预定窗口移位将所述...

【专利技术属性】
技术研发人员：赵岩，刘刚，雷昀，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人