协同双通道时频掩码估计任务学习的双耳声源定位方法及系统技术方案

技术编号:28294025 阅读:37 留言:0更新日期:2021-04-30 16:16
本发明专利技术公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为:1)使用双耳信号的短时傅里叶变换系数作为输入特征;2)使用对数维纳滤波作为目标时频掩码,同时估计双通道对数频谱特征的时频掩码;3)将估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;4)利用增强后的对数频谱特征及相位谱特征作为输入,估计声源的方位角;5)利用两阶段训练模式,在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系,微调所有网络参数。本发明专利技术能够利用卷积神经网络同时估计双通道时频掩码,提升定位特征的鲁棒性,并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。

【技术实现步骤摘要】
协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
本专利技术属于音频信号处理和计算机听觉
,具体涉及一种适用于在存在噪声、混响、多声源环境下的双耳麦克风声源定位方法及系统,通过卷积神经网络学习双通道信号的空间信息,同时估计双通道时频掩码,能够增强双耳信号和双耳定位特征,并且将双通道时频掩码增强后的定位特征作为定位模型的输入,能够协同双通道时频掩码估计任务学习端到端的声源定位模型。
技术介绍
在人类日常生活的交互中,人们感知外界信息的主要方式有视觉、听觉、触觉、嗅觉和味觉等等。其中,人类通过视觉来获取的信息约占70%-80%,通过听觉获取的信息约占10%-20%。听觉感知是人们与外界进行信息交流的最自然、方便、直接有效的方式之一。相对于视觉、触觉等,听觉具有全向性和衍射性,能够不受方位和物理结构(如墙壁)的限制,可以在被障碍物遮蔽的情况下依然有效地接收声音信号。机器人听觉系统包括声源信号的定位与跟踪、声源分离与分类、说话人识别、语音识别、语音情感识别等功能。机器人听觉声源定位指的是利用搭载在机器人系统上的麦克风设备定位出声源相本文档来自技高网...

【技术保护点】
1.一种协同双通道时频掩码估计任务学习的双耳声源定位方法,其特征在于,包括以下步骤:/n使用双耳麦克风信号的对数频谱作为输入,对数维纳滤波器作为目标时频掩码,训练基于卷积神经网络的双通道时频掩码估计网络;/n将双通道时频掩码估计网络估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;/n利用增强后的对数频谱特征及相位谱特征作为输入,训练基于卷积神经网络的多方位角估计网络;/n协同双通道时频掩码估计网络和多方位角估计网络,形成端到端的双耳声源定位模型;/n将双耳麦克风信号的短时傅里叶变换的对数频谱图和相位谱作为输入,利用训练好的双耳声源定位模型估计多声源方位角。/n

【技术特征摘要】
1.一种协同双通道时频掩码估计任务学习的双耳声源定位方法,其特征在于,包括以下步骤:
使用双耳麦克风信号的对数频谱作为输入,对数维纳滤波器作为目标时频掩码,训练基于卷积神经网络的双通道时频掩码估计网络;
将双通道时频掩码估计网络估计得到的时频掩码与对数频谱特征相乘,得到增强后的对数频谱特征;
利用增强后的对数频谱特征及相位谱特征作为输入,训练基于卷积神经网络的多方位角估计网络;
协同双通道时频掩码估计网络和多方位角估计网络,形成端到端的双耳声源定位模型;
将双耳麦克风信号的短时傅里叶变换的对数频谱图和相位谱作为输入,利用训练好的双耳声源定位模型估计多声源方位角。


2.如权利要求1所述的方法,其特征在于,所述目标时频掩码表示为:



其中,ηm(t,f)表示目标时频掩码;代表直达路径上的头相关传递函数;N为目标声源个数,t表示双耳信号分帧后的第t帧,f表示双耳信号经过傅立叶变换后的频带;Si(t,f)表示原始声源信号的短时傅立叶变换;Um(t,f)代表其他干扰噪声,也包括早期混响和晚期混响:



其中,表示除了直达路径的早期和晚期混响的头相关传递函数。


3.如权利要求2所述的方法,其特征在于,所述双通道时频掩码估计网络利用卷积神经网络同时学习多个通道信号之间的空间信息,以提升双耳信号增强和定位特征增强的性能;所述双通道时频掩码估计网络使用估计的时频掩码和目标时频掩码之间的均方误差训练参数,均方误差表示为:



其中,T表示信号时间帧数,F表示信号的频带数,表示预测的时频掩码。


4.如权利要求3所述的方法,其特征在于,所述多方位角估计网络使用类高斯函数编码的方位角概率作为目标值;类高斯函数编码的方位角概率为:



其中,oi∈I表示类高斯函数编码的方位角概率;I表示方位角类别数;θj为第j个目标声源的方位角,d(θi-θj)表示两个方位角之间的角距离;σ是限制的容忍角距离,表示与任一目标声源的角距离在此容忍角距离内的相邻方位角具有大于0的概率,超过此容忍角距离的方位角的概率为0。


5.如权利要求4所述的方法,其特征在于,所述多方位角估计网络使用估计的方位角概率分布与目标方位角概率分布之间的均方误差训练参数,均方误差表示为:...

【专利技术属性】
技术研发人员:丁润伟吴璐璐杨冰刘宏
申请(专利权)人:深港产学研基地北京大学香港科技大学深圳研修院北京大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1