【技术实现步骤摘要】
本专利技术涉及人机交互,特别是指一种多模态三维说话人追踪方法及装置。
技术介绍
1、说话人跟踪在许多现实世界的人机交互应用中起着重要的作用。在使用麦克风阵列采集的多通道音频和视频信号时,说话人追踪旨在准确判断说话人随时间的变化的位置。近年来,说话人追踪在语音识别和身份验证、辅助听力设备和法律取证等方面有着广泛的应用前景。以辅助听障人士为例,说话人追踪技术提供的目标空间信息可用于改进助听器和听力辅助设备,以帮助听障人士更清晰地听到特定说话人的声音,不受周围噪音的干扰。尽管结果令人鼓舞,但是现有的方法在利用音频和视频信号准确确定说话者的真实位置方面仍然遇到困难,特别是在例如语音停顿、混响或视觉遮挡等不利的条件下,易导致错过检测或虚假估计。
2、现有技术面临环境噪声干扰、静音段跟踪丢失、视觉遮挡引起的漏检等问题,其定位精度和跟踪的鲁棒性有待提高,尤其是在复杂实际场景中。其数据融合机制也需要进一步优化提高跟踪性能。
技术实现思路
1、为了解决现有技术音频细化的视觉说话人定位方法受到有限
...【技术保护点】
1.一种多模态三维说话人追踪方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,布设摄像机,通过所述摄像机对说话人的人脸进行视觉定位,获取所述人脸的视觉定位信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述标定参数,结合所述人脸框信息,利用图像到三维空间的投影方程计算出说话人的位置,包括:
4.根据权利要求3所述的方法,其特征在于,所述步骤S2中,获取所述说话人的位置假设信息和音频信号,包括:
5.根据权利要求4所述的方法,其特征在于,所述步骤S2中,结合所述位置
...【技术特征摘要】
1.一种多模态三维说话人追踪方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述步骤s1中,布设摄像机,通过所述摄像机对说话人的人脸进行视觉定位,获取所述人脸的视觉定位信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述标定参数,结合所述人脸框信息,利用图像到三维空间的投影方程计算出说话人的位置,包括:
4.根据权利要求3所述的方法,其特征在于,所述步骤s2中,获取所述说话人的位置假设信息和音频信号,包括:
5.根据权利要求4所述的方法,其特征在于,所述步骤s2中,结合所述位置假设信息和所述音频信号进行融合定位,获得所述说话人的位置估计值,包括:
6.根据权利要求5所述的方法,其特征在于,所述通过广义互...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。