一种视听双模态的360度全方位说话人定位方法技术

技术编号：29836843 阅读：14 留言：0更新日期：2021-08-27 14:26

本发明专利技术公开了一种视听双模态的360度全方位说话人定位方法，所述方法包括：启用环形麦克风阵列接收声音信号并进行声音信息降维和声源粗定位；依据声源粗定位结果启用环形摄像头组中部分摄像头进行图像拼接决策和利用处理后的摄像画面进行视觉空间定位；使用信息融合方法完成视听双模态融合定位，本发明专利技术可以在360全方位的环境下准确高效的定位到目标说话人。

全部详细技术资料下载

【技术实现步骤摘要】
一种视听双模态的360度全方位说话人定位方法
本专利技术涉及说话人定位的
，具体涉及一种视听双模态的360度全方位说话人定位方法。
技术介绍
随着互联网、移动智能终端和智能机器人的快速发展，人与机器之间的交互也越来越频繁，以人为中心、自然、高效是发展新一代人机交互方式的主要目标。而在实际的人机交互系统中，目标定位功能是交互系统中的第一个需要解决的重要问题。获取了目标用户位置后，机器可以进行后续的定向语音识别、情感识别以及为用户提供定向服务等操作，且交互系统可以在期望方向上拾取更准确的目标信息，从而提供精准的服务和反馈。现有的目标说话人定位方法往往依赖于计算机视觉或是基于计算机听觉的方法，这些单模态的定位方法容易受到噪声、光线等环境因素的影响，系统的可靠性较低。一些方法把图像和声源进行融合，但这些方法往往受限于定位设备的有限的定位方位角，无法对其他位置的说话人进行定位。已公开的改进方案注重利用麦克风或者其他传感器进行辅助定位，之后利用转动平台等带动摄像头进行视觉空间定位。但这些方法存在一定的定位延时，如果目标说话人移位则定位效率、定位精度都存在不确定性。已公开的全景深度图像拼接生成方法往往需要大量的时间完成，对说话人定位的时效性存在不利影响。在基于计算机视觉的人脸图像定位中，当人脸位于图像中心区域附近时定位效果好，而远离中心区域时，定位精度会明显降低，甚至出现定位错误。在基于线性麦克风阵列的说话人定位中，当说话人的方位与线性麦克风阵列的中垂线接近时，定位效果好；而当...

【技术保护点】
1.一种视听双模态的360度全方位说话人定位方法，其特征在于，包括以下步骤：/nS1、依据说话人语音信号到达环形麦克风阵列所在圆直径麦克风上的时间差，进行声源信息降维；利用降维后的声源信息对目标说话人进行声源粗定位；/nS2、图像拼接决策与视觉空间定位：基于所述声源粗定位的结果判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域，并决策开启的环形摄像头组中摄像头的方位、数量以及是否进行图像拼接；之后基于所述图像拼接处理后的摄像画面进行视觉空间定位；/nS3、多模态融合定位：基于所述声源粗定位和视觉空间定位中对说话人的定位结果，进行视听模态的决策级融合，计算出视听模态融合定位结果。/n

【技术特征摘要】
1.一种视听双模态的360度全方位说话人定位方法，其特征在于，包括以下步骤：
S1、依据说话人语音信号到达环形麦克风阵列所在圆直径麦克风上的时间差，进行声源信息降维；利用降维后的声源信息对目标说话人进行声源粗定位；
S2、图像拼接决策与视觉空间定位：基于所述声源粗定位的结果判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域，并决策开启的环形摄像头组中摄像头的方位、数量以及是否进行图像拼接；之后基于所述图像拼接处理后的摄像画面进行视觉空间定位；
S3、多模态融合定位：基于所述声源粗定位和视觉空间定位中对说话人的定位结果，进行视听模态的决策级融合，计算出视听模态融合定位结果。

2.根据权利要求1所述的一种视听双模态的360度全方位说话人定位方法，其特征在于，所述S1具体为：选取环形麦克风阵列中合适的两枚麦克风，通过到达时间差TDOA声源定位的方法进行时延估计和位置估计以完成声源定位；
所述声源信息降维具体步骤如下：
S111：标记所述的环形麦克风阵列中的所有麦克风并分组，过环形麦克风阵列同一直径上的两枚麦克风记为同一组，设环形麦克风阵列中的麦克风总数为M，M为2的倍数，设各个麦克风分组的编号为1，2，…，
S112：用环形麦克风阵列接收说话人的声音信号，计算每组麦克风中的两枚麦克风接收到说话人声音信号的时间差，设时间差最大的麦克风组为λ，则选取编号为的麦克风组中的两枚麦克风，作为线性麦克风阵列进行后续的声源定位，P不为整数时向下取整。

3.根据权利要求1所述的一种视听双模态的360度全方位说话人定位方法，其特征在于，S2所述图像拼接决策是依据S1中声源粗定位的结果，判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域，当说话人位于摄像画面交接区域时，唤醒说话人所在方位的两个相邻摄像头，并对这两个摄像头的摄像画面进行图像拼接；否则直接唤醒说话人所在方位摄像头，不进行图像拼接。

4.根据权利要求1所述的一种视听双模态的360度全方位说话人定位方法，其特征在于，S2所述的视觉空间定位方法如下：
S221：使用人脸检测算法，调用人脸检测分类器，捕捉目标人脸并用矩形框画出；
S222：记录当前画面帧人脸矩形框四个角的位置坐标(x1，y1)，(x1，y2)，(x2，y1)，(x2，y2)，坐标系中心为当前摄像画面中心点；
S223：计算人脸中心位置
S224：计算人脸方位角：其中α为当前摄像...

【专利技术属性】
技术研发人员：刘振焘，龙映佐，吴敏，曹卫华，陈略峰，蹇栎为，
申请(专利权)人：中国地质大学武汉，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人