当前位置: 首页 > 专利查询>佛山市南海区广工大数控装备协同创新研究院专利>正文

一种基于视听双模态的多目标三维定位方法技术

技术编号：38680288 阅读：52 留言：0更新日期：2023-09-02 22:53

本发明专利技术公开了一种基于视听双模态的多目标三维定位方法，包括下述步骤：获得第一空间特征：采集视频图像信号，并通过ResNet主干特征网络提取目标特征，通过ROI池化层从目标特征获得目标的第一空间特征F

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视听双模态的多目标三维定位方法

[0001]本专利技术涉及三维定位
，尤其涉及一种基于视听双模态的多目标三维定位方法。

技术介绍

[0002]近年来新一轮人工智能科技研发热潮持续高涨，作为其中的重要研究方向之一的人机交互技术——使用某种对话语言或交互方式实现了人与智能设备的信息交换，对于当前人机交互产品成本的降低，以及提升智能设备的用户体验度等方面发挥了十分显著的作用。目标定位是人机交互的核心技术，该技术是通过模拟现实场景中的人类视觉选择注意力功能，实现对多个目标的三维位置的定位，可用于目标检测与异常事件分析等；该技术是智能安防、健康监控、智能家居等应用领域的重要基础。
[0003]通过声源定位是常见目标定位方法，但在一般环境下，由于背景噪音与混响使得麦克风阵列对声音的处理效果并不理想，而且在多种声音的短暂重叠容易发生错检漏检等问题，从而破坏声源定位的准确性。其次传统的声学单模态定位算法，即声源定位算法需要依赖到达方向或者是到达时差估计，存在实时性和实用性较差的缺陷。在视觉定位方面，在光线变化快速和杂乱...

【技术保护点】

【技术特征摘要】
1.一种基于视听双模态的多目标三维定位方法，其特征在于，包括下述步骤：获得第一空间特征：采集视频图像信号，并通过ResNet主干特征网络提取目标特征，通过ROI池化层从目标特征获得目标的第一空间特征F
v
；获得第二空间特征：采集音频信号，通过广义互相关相位变换方法获得目标距离的二维特征图，通过编码解码器将目标距离的二维特征图映射为第二空间特征F
a
；获得目标三维空间坐标：通过交叉注意力机制将第一空间特征F
v
和第二空间特征F
a
融合，获得多个目标的三维空间坐标。2.根据权利要求1所述的一种基于视听双模态的多目标三维定位方法，其特征在于，在所述获得第一空间特征的步骤中，通过ResNet主干特征网络提取目标特征具体为采用残差块对视频图像信号进行卷积运算并加入残差辅助网络以及ReLU激活函数，将主干网络自下而上连接分为五个阶段的第一特征图，将每个阶段的第一特征图经过卷积核后将各个阶段的通道数统一获得第二特征图，每个阶段输出的第二特征图采用自上而下的连接方式，对第二特征图进行上采样并进行相加融合操作后进行卷积核处理获得对应阶段的预测图，将五个阶段的预测图通过ROI池化层获得目标的第一空间特征F
v
。3.根据权利要求2所述的一种基于视听双模态的多目标三维定位方法，其特征在于，相邻两个阶段中，位于上阶段的第一特征图输出特征大小为位于下阶段的第一特征图输出特征大小的一半；每个阶段的第一特征图经过1*1卷积核后将各个阶段的通道数统一获得第二特征图；进行相加融合操作后进行3*3卷积核处理获得对应阶段的预测图。4.根据权利要求1所述的一种基于视听双模态的多目标三维定位方法，其特征在于，在所述获得第二空间特征的步骤中，采集音频信号通过多对呈阵列分布的麦克风，通过广义互相关相位变换方法计算每对麦克风的广义互相关相位变换系数，公式为：其中和分别表示第m1和m2个麦克风接收到声音信号的傅里叶变换，*表示复共轭计算，τ为时延值，j为虚数；ω为角频率；e为自然对数；通过广义互相关相位变换系数获得总样本数，采用补零方式展开成二维特征图，将二维特征图送入编...

【专利技术属性】
技术研发人员：杨森泉，杨海东，李泽辉，
申请(专利权)人：佛山市南海区广工大数控装备协同创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人