一种声源定位方法以及装置制造方法及图纸

技术编号:28620127 阅读:15 留言:0更新日期:2021-05-28 16:15
本申请提供一种声源定位方法以及装置,用于结合麦克风阵列和雷达对声源进行准确地定位。该方法包括:通过雷达回波数据获取第一位置信息,所述第一位置信息中包括对象相对于所述雷达的第一角度;通过麦克风阵列采集到的语音信号获取入射角,所述入射角为语音信号入射至所述麦克风阵列的角度;融合所述第一角度和所述入射角进行融合,以得到第二位置信息,所述第二位置信息用于表示产生所述语音信号的声源的位置。

【技术实现步骤摘要】
一种声源定位方法以及装置
本申请涉及人工智能领域,尤其涉及一种声源定位方法以及装置。
技术介绍
语音交互广泛应用于智能会议和家居产品,其首要问题在于嘈杂环境下的语音信号拾音,防止环境噪音和室内混响对目标语音信号的干扰。基于麦克风阵列的波束形成能够准确拾取语音信号,被广泛应用于各类语音交互产品,它能够有效抑制环境噪音,压制室内混响,而不明显损伤语音。波束形成有赖于语音源方位的准确估计,尤其是自适应波束形成技术,对声源方位及其敏感,几度的位置偏差容易导致拾音性能的大幅下降,因此,如何实现对声源的准确定位,成为亟待解决的问题。
技术实现思路
本申请提供一种声源定位方法以及装置,用于结合麦克风阵列和雷达对声源进行准确地定位。第一方面,本申请提供一种声源定位方法,包括:通过雷达回波数据获取第一位置信息,所述第一位置信息中包括对象相对于所述雷达的第一角度;通过麦克风阵列采集到的语音信号获取入射角,所述入射角为语音信号入射至所述麦克风阵列的角度;融合所述第一角度和所述入射角,以得到第二位置信息,所述第二位置信息用于表示产生所述语音信号的声源的位置。因此,在本申请实施方式中,可以结合雷达检测到的对象的位置和麦克风阵列检测到的入射角,得到声源相对于麦克风阵列的位置,从而通过该位置控制用于分离声源的语音的波束的开启,从而准确地从麦克风阵列采集到的数据中提取到声源的语音数据。并且,无论发声对象处于静止或者运动状态,都可以准确地确定出声源的位置,可以更准确地提取到声源的语音数据。在一种可能的实施方式中,所述融合第一角度和入射角,可以包括:分别确定所述第一角度对应的第一权重和所述入射角对应第二权重,其中,所述第一权重和所述对象相对于所述雷达的移动速度呈正相关关系,所述第二权重和所述对象相对于所述雷达的移动速度呈负相关关系;根据所述第一权重和所述第二权重对所述第一角度和所述入射角进行加权融合,得到融合角度,所述第二位置信息中包括所述融合角度。因此,在本申请实施方式中,在对第一角度和入射角进行加权融合时,可以考虑对象的移动速度来确定权重,从而可以使用多种对象运动的情况,提高融合角度的准确度。在一种可能的实施方式中,所述方法还包括:基于所述第二位置信息从所述麦克风阵列采集到的语音信号中提取所述声源的语音数据。因此,在声源定位之后,即可基于准确的声源的位置,从而麦克风阵列采集到的数据中准确提取到声源的语音数据。在一种可能的实施方式中,所述基于所述第二位置信息从所述麦克风阵列采集到的语音信号中提取所述声源的语音数据,包括:将所述麦克风阵列采集到的数据作为预设的波束分离网络的输入,输出所述声源的所述语音数据。因此,在本申请实施方式中,可以通过波束分离网络来从麦克风阵列采集到的数据中分离出声源的语音数据,即通过波束形成的方式,提取到与声源对应的方向上的语音数据,从而得到更准确的声源内的语音数据。在一种可能的实施方式中,所述波束分离网络包括语音分离模型,所述语音分离模型用于分离输入数据中的声源的语音数据和背景数据,所述方法还包括:根据所述回波数据确定所述声源的移动速度;根据所述移动速度更新所述语音分离模型,得到更新后的所述语音分离模型。因此,在本申请实施方式中,可以结合声源的运动速度,适应性地更新语音分离模型,使语音分离模型与声源的运动情况匹配,能够适应声源快速移动的场景,以便从麦克风阵列采集到的数据中分离出声源的语音数据。在一种可能的实施方式中,所述根据所述移动速度更新所述语音分离模型,包括:根据所述移动速度确定所述语音分离模型的参数集,得到更新后的所述语音分离模型,其中,所述参数集和所述语音分离模型的参数的变化速率相关,所述移动速度和所述变化速率呈正相关关系。因此,本申请实施方式中,参数慢变可以提高模型的稳定性,减少模型的抖动;快变则有利于快速适应环境的变化,因此可以根据目标运动速度来选择模型参数变化的速率,从而影响语音分离模型的参数集,得到更新后的语音分离模型。在一种可能的实施方式中,所述波束分离网络还包括解混响模型,所述解混响模型用于滤除输入的数据中的混响信号;所述方法还包括:根据所述对象和所述雷达之间的距离,更新所述解混响模型,得到更新后的所述解混响模型。因此,在本申请实施方式中,可以通过解混响模型来接触麦克风阵列采集到的数据的混响,从而使语音分离模型分离出的声源的语音数据更准确。在一种可能的实施方式中,所述根据所述对象和所述雷达之间的距离,更新所述解混响模型,包括:根据所述对象和所述雷达之间的距离,更新所述解混响模型中的延迟参数和预测阶数,得到更新后的所述解混响模型,所述延迟参数表示所述混响信号滞后于所述声源的语音数据的时长,所述预测阶数表示混响的持续时长,所述延迟参数和所述预测阶数都与所述距离呈正相关关系。通常,声源和麦克风阵列的距离显著影响麦克风接收到的信号的混响。当距离较大时,声源发出的语音信号传播距离较远,衰减较大,而室内混响保持不变,混响对于语音信号的干扰较大,混响持续时间较长;而距离越近时,声源发出的语音信号传播距离较近,衰减较小,混响的影响减弱。因此,解混响模型的参数可以基于声源和麦克风阵列的距离来进行调整。当距离较远时,加大解混响的程度;当距离较近时,减少解混响的程度,防止过度解混响而干扰语音信号。甚至在距离非常小的情况下,如小于预设最小值,则可以停止解混响,以提高得到的语音数据的质量。在一种可能的实施方式中,所述方法还包括:若所述声源的语音数据不符合预设条件,则去除对所述麦克风阵列采集到的语音信号进行处理所使用的波束。因此,在本申请实施方式中,当声源的语音数据不符合预设条件,如声源不是活体,或者声源的位置改变等,则去除对所述麦克风阵列采集到的语音信号进行处理所使用的波束,避免采集到无意义的数据。在一种可能的实施方式中,所述方法还包括:从所述语音数据中提取特征,得到所述声源的声学特征;根据所述声学特征识别所述声源为活体的第一概率;根据所述雷达的回波数据,确定所述声源为活体的第二概率;对所述第一概率和所述第二概率进行融合,得到融合结果,所述融合结果用于表示所述声源是否为活体。因此,在本申请实施方式中,还可以检测声源是否为活体,从而可以是用户清楚地获知当前发声的对象的类型是否为活体,提高用户体验。在一种可能的实施方式中,所述通过麦克风阵列采集到的语音信号获取入射角,包括:若通过麦克风阵列采集到的语音信号得到多个第二角度,所述第一角度和所述多个第二角度处于同一坐标系中,则从所述多个第二角度中选取与所述第一角度之间的差值最小或者所述差值在第一预设范围内的角度作为所述入射角。因此,在本申请实施方式中,可以通过麦克风阵列采集到多个角度,此时可以结合雷达采集到角度,选择出与声源最接近的角度作为入射角,提高得到入射角的准确率。在一种可能的实施方式中,在所述通过麦克风阵列采集到的语音信号获取入射角之后,所述方法还包括:若基于所述麦克风阵列再次采集到的数据得到多个第三角度,则基于所本文档来自技高网...

【技术保护点】
1.一种声源定位方法,其特征在于,包括:/n通过雷达回波数据获取第一位置信息,所述第一位置信息中包括对象相对于所述雷达的第一角度;/n通过麦克风阵列采集到的语音信号获取入射角,所述入射角为所述语音信号入射至所述麦克风阵列的角度;/n融合所述第一角度和所述入射角,以得到第二位置信息,所述第二位置信息用于表示产生所述语音信号的声源的位置。/n

【技术特征摘要】
1.一种声源定位方法,其特征在于,包括:
通过雷达回波数据获取第一位置信息,所述第一位置信息中包括对象相对于所述雷达的第一角度;
通过麦克风阵列采集到的语音信号获取入射角,所述入射角为所述语音信号入射至所述麦克风阵列的角度;
融合所述第一角度和所述入射角,以得到第二位置信息,所述第二位置信息用于表示产生所述语音信号的声源的位置。


2.根据权利要求1所述的方法,其特征在于,所述融合所述第一角度和所述入射角,包括:
分别确定所述第一角度对应的第一权重和所述入射角对应第二权重,其中,所述第一权重和所述对象相对于所述雷达的移动速度呈正相关关系,所述第二权重和所述对象相对于所述雷达的移动速度呈负相关关系;
根据所述第一权重和所述第二权重对所述第一角度和所述入射角进行加权融合,得到融合角度,所述第二位置信息中包括所述融合角度。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述第二位置信息从所述麦克风阵列采集到的语音信号中提取所述声源的语音数据。


4.根据权利要求3所述的方法,其特征在于,所述基于所述第二位置信息从所述麦克风阵列采集到的语音信号中提取所述声源的语音数据,包括:
将所述麦克风阵列采集到的数据作为预设的波束分离网络的输入,输出所述声源的所述语音数据。


5.根据权利要求4所述的方法,其特征在于,所述波束分离网络包括语音分离模型,所述语音分离模型用于分离输入数据中的声源的语音数据和背景数据,所述方法还包括:
根据所述回波数据确定所述声源的移动速度;
根据所述移动速度更新所述语音分离模型,得到更新后的所述语音分离模型。


6.根据权利要求5所述的方法,其特征在于,所述根据所述移动速度更新所述语音分离模型,包括:
根据所述移动速度确定所述语音分离模型的参数集,得到更新后的所述语音分离模型,其中,所述参数集和所述语音分离模型的参数的变化速率相关,所述移动速度和所述变化速率呈正相关关系。


7.根据权利要求5或6所述的方法,其特征在于,所述波束分离网络还包括解混响模型,所述解混响模型用于滤除输入的数据中的混响信号;
所述方法还包括:
根据所述对象和所述雷达之间的距离,更新所述解混响模型,得到更新后的所述解混响模型。


8.根据权利要求7所述的方法,其特征在于,所述根据所述对象和所述雷达之间的距离,更新所述解混响模型,包括:
根据所述对象和所述雷达之间的距离,更新所述解混响模型中的延迟参数和预测阶数,得到更新后的所述解混响模型,所述延迟参数表示所述混响信号滞后于所述声源的语音数据的时长,所述预测阶数表示混响的持续时长,所述延迟参数和所述预测阶数都与所述距离呈正相关关系。


9.根据权利要求3-8中任一项所述的方法,其特征在于,所述方法还包括:
若所述声源的语音数据不符合预设条件,则去除针对所述麦克风阵列采集到的数据中所述声源对应的数据进行处理所使用的波束。


10.根据权利要求3-9中任一项所述的方法,其特征在于,所述方法还包括:
从所述语音数据中提取特征,得到所述声源的声学特征;
根据所述声学特征识别所述声源为活体的第一概率;
根据所述雷达的回波数据,确定所述声源为活体的第二概率;
对所述第一概率和所述第二概率进行融合,得到融合结果,所述融合结果用于表示所述声源是否为活体。


11.根据权利要求1-10中任一项所述的方法,其特征在于,所述通过麦克风阵列采集到的语音信号获取入射角,包括:
若通过麦克风阵列采集到的语音信号得到多个第二角度,所述第一角度和所述多个第二角度处于同一坐标系中,则从所述多个第二角度中选取与所述第一角度之间的差值最小或者所述差值在第一预设范围内的角度作为所述入射角。


12.根据权利要求1-11中任一项所述的方法,其特征在于,在所述通过麦克风阵列采集到的语音信号获取入射角之后,所述方法还包括:
若基于所述麦克风阵列再次采集到的数据得到多个第三角度,则基于所述对象的移动速度,从所述多个第三角度中选取角度作为新的所述入射角。


13.根据权利要求12所述的方法,其特征在于,所述基于所述对象的移动速度,从所述多个角度中选取第三角度作为新的所述入射角,包括:
若所述对象的移动速度大于预设速度,则从所述多个第三角度中筛选出,与所述第一角度之间的差值在第二预设范围内的角度作为新的所述入射角;
若所述对象的移动速度不大于所述预设速度,则从所述多个第三角度中筛选出,与所述第一角度之间的差值在第三预设范围内的角度作为新的所述入射角,所述第三预设范围覆盖且大于所述第二预设范围。


14.根据权利要求1-13中任一项所述的方法,其特征在于,在所述通过麦克风阵列采集到的语音信号获取入射角之前,所述方法还包括:
若通过所述回波数据确定所述对象处于运动状态,且所述对象未发声,则调整所述麦克风阵列针对所述对象的声源检测阈值,所述麦克风阵列用于采集声压高于所述声源检测阈值的语音信号。


15.根据权利要求1-14中任一项所述的方法,其特征在于,所述第一位置信息中还包括所述对象和所述雷达的第一相对距离,所述方法还包括:
通过所述麦克风阵列采集到的语音信号,获取到所述对象和所述麦克风阵列的第二相对距离;
对所述第一相对距离和所述第二相对距离进行融合,得到融合距离,所述融合距离表示所述声源相对于所述麦克风阵列的距离,所述第二位置信息中还包括所述融合距离。


16.一种声源定位装置,其特征在于,包括:
雷达定位模块,用于通过雷达回波数据获取第一位置信息,所述第一位置信息中包括对象相对于所述雷达的第一角度;
麦阵定位模块,用于通过麦克风阵列采集到的语音信号获取入射角,所述入射角为语音信号入射至所述麦克风阵列的角度;
声源定位模块,用于融合所述第一角度和所述入射角,以得到第二位置信息,所述第二位置信息用于表示产生所述语...

【专利技术属性】
技术研发人员:应冬文况丹妮贺亚农
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1