一种多模态三维说话人追踪方法及装置制造方法及图纸

技术编号:41525969 阅读:18 留言:0更新日期:2024-06-03 23:00
本发明专利技术涉及人机交互技术领域,特别是指一种多模态三维说话人追踪方法及装置,方法包括:利用麦克风阵列捕获的多通道音频信号和单目摄像机获取的视频流作为输入,通过音频和视频信息的互补融合提高定位性能,并建立广义标签多伯努利框架实现平滑跟踪。本发明专利技术使用麦克风阵列采集的多通道音频信号和视频流进行说话人跟踪,对视频估计的说话人位置进行精确修正,解决了逆境条件下确定说话人真实位置的困难。创造性地提出了基于广义标签多伯努利滤波器的说话人跟踪方法,为广义标签多伯努利滤波器提供了新的视频辅助多通道音频线性搜索功能,有效处理位置估计中的异常值,并在漏检期间保持跟踪。

【技术实现步骤摘要】

本专利技术涉及人机交互,特别是指一种多模态三维说话人追踪方法及装置


技术介绍

1、说话人跟踪在许多现实世界的人机交互应用中起着重要的作用。在使用麦克风阵列采集的多通道音频和视频信号时,说话人追踪旨在准确判断说话人随时间的变化的位置。近年来,说话人追踪在语音识别和身份验证、辅助听力设备和法律取证等方面有着广泛的应用前景。以辅助听障人士为例,说话人追踪技术提供的目标空间信息可用于改进助听器和听力辅助设备,以帮助听障人士更清晰地听到特定说话人的声音,不受周围噪音的干扰。尽管结果令人鼓舞,但是现有的方法在利用音频和视频信号准确确定说话者的真实位置方面仍然遇到困难,特别是在例如语音停顿、混响或视觉遮挡等不利的条件下,易导致错过检测或虚假估计。

2、现有技术面临环境噪声干扰、静音段跟踪丢失、视觉遮挡引起的漏检等问题,其定位精度和跟踪的鲁棒性有待提高,尤其是在复杂实际场景中。其数据融合机制也需要进一步优化提高跟踪性能。


技术实现思路

1、为了解决现有技术音频细化的视觉说话人定位方法受到有限的相机视野、说话人偶本文档来自技高网...

【技术保护点】

1.一种多模态三维说话人追踪方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,布设摄像机,通过所述摄像机对说话人的人脸进行视觉定位,获取所述人脸的视觉定位信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述标定参数,结合所述人脸框信息,利用图像到三维空间的投影方程计算出说话人的位置,包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤S2中,获取所述说话人的位置假设信息和音频信号,包括:

5.根据权利要求4所述的方法,其特征在于,所述步骤S2中,结合所述位置假设信息和所述音频信...

【技术特征摘要】

1.一种多模态三维说话人追踪方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述步骤s1中,布设摄像机,通过所述摄像机对说话人的人脸进行视觉定位,获取所述人脸的视觉定位信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述标定参数,结合所述人脸框信息,利用图像到三维空间的投影方程计算出说话人的位置,包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤s2中,获取所述说话人的位置假设信息和音频信号,包括:

5.根据权利要求4所述的方法,其特征在于,所述步骤s2中,结合所述位置假设信息和所述音频信号进行融合定位,获得所述说话人的位置估计值,包括:

6.根据权利要求5所述的方法,其特征在于,所述通过广义互...

【专利技术属性】
技术研发人员:钱馨园卢宸殷绪成
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1