一种语音波达方向估计方法及系统技术方案

技术编号:35823631 阅读:45 留言:0更新日期:2022-12-03 13:49
本发明专利技术公开了一种语音波达方向估计方法,包括:获取远场环境下混合语音音频;对混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱信号;将频谱信号输入声源位置估计神经网络模型,由声源位置估计神经网络模型输出目标说话人的帧级别的笛卡尔坐标估计;对目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作,得到目标说话人的句子级别的笛卡尔坐标估计;对目标说话人的句子级别的笛卡尔坐标估计进行反正切运算,得到目标说话人的波达方向估计。本发明专利技术提供一种语音波达方向估计方法及系统,能够克服多说话人远场环境下,非语音帧与干扰说话人帧对波达方向估计模型的效果的影响,实现低延时的波达方向估计。向估计。向估计。

【技术实现步骤摘要】
一种语音波达方向估计方法及系统


[0001]本专利技术涉及语音阵列信号处理领域,尤其涉及一种语音波达方向估计方法及系统。

技术介绍

[0002]语音波达方向估计是语音阵列信号处理领域中的一个重要课题,它的目标是得到语音信号的产生方向。语音波达方向估计在无线通信、雷达、水下通信、智能家居等环境中具有广泛的应用。
[0003]大多数语音波达方向估计的传统算法,如“多信号分类算法”和“联合可控响应功率和相位变换算法”,均在信号处理层面上进行估计,对于不同的噪声和混响环境,这些算法的性能十分有限。
[0004]近年来,基于深度神经网络的波达方向估计模型在迅速发展,性能已远超传统方法。但在多说话人的远场环境下,波达方向估计模型的效果会受到非语音帧与干扰说话人帧的影响。目前主要有以下几种解决方法:
[0005](1)引入语音活动估计算法去除非语音帧,并在帧级别上实施波达方向估计,这种方法在一定程度上缓解了非语音帧带来的影响,但预处理的方法会使模型计算量增加,当语音活动估计不准确时,也会为系统带来累计误差;
>[0006](2)本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音波达方向估计方法,其特征在于,包括:获取远场环境下混合语音音频;所述混合语音音频包括至少一个目标说话人的语音信息;对所述混合语音音频进行分帧、加窗和傅里叶变换处理,得到每帧音频的频谱信号;将所述每帧音频的频谱信号输入声源位置估计神经网络模型,由所述声源位置估计神经网络模型输出所述目标说话人的帧级别的笛卡尔坐标估计;所述声源位置估计神经网络模型包含自注意力模块,所述自注意力模块通过对输入的音频帧赋予不同的权重来提取所述目标说话人的音频帧;所述声源位置估计神经网络模型由训练得到;对所述目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作,得到所述目标说话人的句子级别的笛卡尔坐标估计;对所述目标说话人的句子级别的笛卡尔坐标估计进行反正切运算,得到所述目标说话人的波达方向估计。2.根据权利要求1所述的方法,其特征在于,所述声源位置估计神经网络模型包括卷积输入模块、四层密集连接

时频维自注意力模块和一层全连接层;所述四层密集连接

时频维自注意力模块中的每一层包括密集连接卷积模块、时间维度的自注意力模块和频率维度的自注意力模块。3.一种声源位置估计神经网络模型的训练方法,包括:获取远场环境下混合语音音频训练集和标签集;所述标签集用于记录所述训练集的混合语音音频中目标说话人的声源位置向量;所述混合语音音频包括至少一个目标说话人的语音信息;对所述混合语音音频进行分帧、加窗和傅里叶变换处理,得到训练集中混合语音音频的频谱信号,所述频谱信号包括实部和虚部;将所述频谱信号的实部和虚部拼接后的数据输入到所述声源位置估计神经网络,由所述声源位置估计神经网络模型输出所述目标说话人的帧级别的笛卡尔坐标估计;对所述目标说话人的帧级别的笛卡尔坐标估计在时间维度上进行平均池化操作,得到所述目标说话人的句子级别的笛卡尔坐标估计;所述目标说话人的句子级别的笛卡尔坐标估计用于指示声源位置信息;根据所述声源位置信息与所述标签集计算声源位置的均方误差;根据所述均方误差调整所述声源...

【专利技术属性】
技术研发人员:张鹏远杨弋颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1