一种声源追踪方法、装置、设备、系统及存储介质制造方法及图纸

技术编号：33092559 阅读：32 留言：0更新日期：2022-04-16 23:22

本申请实施例提供一种声源追踪方法、装置、设备、系统及存储介质。所述方法包括：获取麦克风阵列在至少一个时间帧下采集到的声学信号流；基于所述声学信号流进行声源方位估计，以获得包含所述至少一个时间帧下声源方位信息的信息流；将所述信息流转换为描述声源的方位分布状态的可视化数据；根据所述可视化数据，进行声源追踪。在本申请实施例中，将包含声源方位信息的信息流转换为描述声源的方位分布状态的可视化数据，并基于可视化数据，进行声源追踪。这颠覆了传统的从声学信号处理层面进行声源追踪的方式，而是从可视化分析层面进行声源追踪。据此，本申请实施例中，可有效提高声源追踪的准确度，且可提高对各种复杂环境的适应性。适应性。适应性。

全部详细技术资料下载

【技术实现步骤摘要】
一种声源追踪方法、装置、设备、系统及存储介质

[0001]本申请涉及数据处理
，尤其涉及一种声源追踪方法、装置、设备、系统及存储介质。

技术介绍

[0002]基于麦克风阵列进行声源追踪是近年来的声学信号处理领域的热门技术。目前，声源追踪技术通常是对麦克风阵列进行滤波、取极值、计算基频、计算方位角等信号层面的处理，以进行声源追踪。
[0003]但是，这类处理方式的鲁棒性较差，泛化能力不足，尤其是在多声源或嘈杂的环境下，声源追踪的准确度不足。

技术实现思路

[0004]本申请的多个方面提供一种声源追踪方法、装置、设备、系统及存储介质，用以提高声源追踪的准确度。
[0005]本申请实施例提供一种声源追踪方法，包括：
[0006]获取麦克风阵列在至少一个时间帧下采集到的声学信号流；
[0007]基于所述声学信号流进行声源方位估计，以获得包含所述至少一个时间帧下声源方位信息的信息流；
[0008]将所述信息流转换为描述声源的方位分布状态的可视化数据；
[0009]根...

【技术保护点】

【技术特征摘要】
1.一种声源追踪方法，其特征在于，包括：获取麦克风阵列在至少一个时间帧下采集到的声学信号流；基于所述声学信号流进行声源方位估计，以获得包含所述至少一个时间帧下声源方位信息的信息流；将所述信息流转换为描述声源的方位分布状态的可视化数据；根据所述可视化数据，进行声源追踪。2.根据权利要求1所述的方法，其特征在于，所述将所述信息流转换为描述声源的方位分布状态的可视化数据，包括：将所述信息流转换为所述至少一个时间帧下声源的方位分布热力图，所述方位分布热力图用于描述在所述至少一个时间帧下声源在不同方位上的分布热度。3.根据权利要求2所述的方法，其特征在于，所述声源方位信息中包含声源处于各方位的置信度；所述将所述信息流转换为在所述至少一个时间帧下声源的方位分布热力图，包括：基于置信度与显示亮度之间的对应关系，根据所述至少一个时间帧下的声源处于各方位的置信度，在所述至少一个时间帧下分别确定各方位对应的显示亮度，不同显示亮度表征不同的分布热度；根据所述显示亮度，生成所述至少一个时间帧下声源的方位分布热力图。4.根据权利要求3所述的方法，其特征在于，所述根据所述显示亮度，生成所述至少一个时间帧下声源的方位分布热力图，包括：根据所述至少一个时间帧下各方位对应的显示亮度，分别确定所述至少一个时间帧各自对应的图像内容；按照所述至少一个时间帧之间的时间顺序，依次排列所述至少一个时间帧各自对应的图像内容，以生成所述方位分布热力图。5.根据权利要求1所述的方法，其特征在于，所述根据所述可视化数据，进行声源追踪，包括：利用机器学习模型以及所述可视化数据，进行声源追踪。6.根据权利要求5所述的方法，其特征在于，若所述可视化数据为所述至少一个时间帧下声源的方位分布热力图，则所述利用机器学习模型以及所述可视化数据，进行声源追踪，包括：在所述机器学习模型中，提取所述方位分布热力图中的图像特征；基于图像特征与声源属性参数之间的映射关系以及从所述方位分布热力图中提取到的图像特征，确定所述至少一个时间帧下的目标声源属性参数，以进行声源追踪。7.根据权利要求6所述的方法，其特征在于，所述声源属性参数包括方位、数量、发声时长和所覆盖时间帧中的一个或多个。8.根据权利要求6所述的方法，其特征在于，还包括：获取若干样本时间帧组各自对应的样本热力图，所述样本热力图用于描述在样本时间帧下声源在不同方位上的分布热度；为各样本热力图标注声源属性参数，以获得各样本热力图对应的标注信息；将所述各样本热力图及其对应的标注信息输入所述机器学习模型，以供所述机器学习
模型学习所述图像特征与声源属性参数之间的映射关系。9.根据权利要求6所述的方法，其特征在于，还包括：获取若样本时间帧组各自对应的样本信息流；为各样本信息流标注声源属性参数，以获得各样本信息流对应的标注信息；将所述各样本信息流及其对应的标注信息输入所述机器学习模型，以供所述机器学习模型将各样本信息流转换为描述声源的方位分布状态的可视化数据并学习所述图像特征与声源属性参数之间的映射关系。10.根据权利要求9所述的方法，其特征在于，所述将所述信息流转换为描述声源的方位分布状态的可视化数据，包括：将所述信息流输入机器学习模型；在所述机器学习模型中，将所述信息流转换为描述声源的方位分布状态的可视化数据。11.根据权利要求1所述的方法，其特征在于，所述声学信号流包含所述麦克风阵列中各阵元采集到的时域信号流，所述基于所述声学信号流进行声源方位估计，以获得包含所述至少一个时间帧下的声源方位信息的信息流，包括：将各阵元采集到的时域信号流分别转换时频域信号；采用声源方位估计技术，根据所述各阵元下的时频域信号，确...

【专利技术属性】
技术研发人员：黄伟隆，李威，冯津伟，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人