一种基于语音交互的目标识别视觉测距方法及系统技术方案

技术编号：35213125 阅读：18 留言：0更新日期：2022-10-15 10:27

本发明专利技术公开了一种基于语音交互的目标识别视觉测距方法及系统，首先对摄像头进行标定以获得摄像头的各种参数，获取的参数存入系统供测距部分使用，然后将输入的语音识别为文字，再与实时视频一并送入目标检测网络中进行特定目标的识别与标识，最后对物体进行测距以明确摄像头与物体之间的距离从而为实现居家机器人抓取目标提供一种系统上的辅助。该系统综合了语音和计算机视觉在各自领域的优势，以图像识别为基础，融合语音以及测距技术实现对场景内目标物的精确判断和位置信息的获取。通过语音图像之间的交叉互补，能够减少系统的时间复杂度，能有效地提高居家机器人的实用性，为人机交互领域的指令识别与执行提供了一种新的集成方法和系统。新的集成方法和系统。新的集成方法和系统。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音交互的目标识别视觉测距方法及系统

[0001]本专利技术属于语音识别与计算机视觉领域，涉及一种基于语音交互的目标识别视觉测距方法及系统。

技术介绍

[0002]语言是人类交流的桥梁，在传达信息方面起着至关重要的作用。同样，能够听懂并作出回应实现某种目的也是人们交流的原因。随着科学技术和人类社会的不断进步，人们对美好生活的需求日益增长，人们越来越需要从繁杂琐碎的任务中解脱出来。于是智能机器应运而生，其在家庭中的应用已形成了稳定正常的市场。人们不仅仅是需要一个靠按钮实现某些简单特定的功能，而是希望机器能像“人”一样听懂指令并完成目标的寻找与定位。这很大程度上减轻了老人的负担以及家庭中子女照顾老人的压力。
[0003]图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说，图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式，甚至会让外部世界更加智能的运行。现在随着图形识别技术的不断进步，越来越多的科技公司开始涉及图形识别领域，这标志着读图时代正式到来,并且将引领我们进入更加智能的未来。
[0004]机器视觉测距作为人工智能的一个分支，近些年由于图像识别技术的兴起正在得到飞速高且高效的发展。在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型...

【技术保护点】

【技术特征摘要】
1.一种基于语音交互的目标识别及视觉测距方法，其特征在于：通过麦克风采集说话者语音，所述语音包含指定的目标物；对语音进行识别并将其转换为文本；通过摄像头采集包含目标物的场景下实时视频；通过预先构建的摄像头标定模型获取摄像头各参数；将识别好的语音文本以及实时视频送入预先构建的目标检测网络；目标检测网络基于识别好的语音文本对实时视频中的目标物进行标注并显示；将摄像头各参数和目标物的标注输入预先构建的测距模型，测距模型计算目标物到摄像头的距离；识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。2.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法，其特征在于：所述摄像头标定模型的构建过程为：选取棋盘格作为标定物，然后在世界坐标系下固定摄像头的位置，在距摄像头已知距离处放置棋盘格，通过调整棋盘格平面的位置、方向和角度，用摄像头拍摄不同位置、方向和角度的棋盘格照片；接着从照片中提取棋盘格角点并计算，再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数；如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数；摄像头的畸变为径向畸变和切向畸变，应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1，k2，k3，p1，p2；根据实际的像素坐标和计算得到的像素坐标计算重投影误差；利用LM算法进行最小值优化重投影误差，反复迭代摄像头的内外参数和畸变系数，直至收敛；最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。3.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法，其特征在于：说话者的语音送入基于Transformer的语音识别网络中进行识别并将其转换为文本。4.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法，其特征在于：目标检测网络对符合条件的目标物进行标注的过程为：使用视觉编码器从视频中抽取每一帧的特征，同时采用文本编码器获得文本描述的语言特征，语言特征进行平均池化后获得的向量即为句特征；再用Transformer编码器进一步建模视频帧的多尺度特征；在解码器部分，定义了N个可学习特征作为query，且为所有帧共享；同时，对上述句特征复制N次，query和句特征共同作为解码器的输入；所有query都会在语言的指引下仅仅关注于目标对象，通过在解码器中进行query和视觉特征的交互，每一帧上均获得含有目标信息的N个表征，对于整个视频，则共有N
q
个表征；然后再进行跨模态FPN；视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互；对于每一帧上获得的N个表征，分别通过class head，box head，mask head生成其对应的二分类概率，边界框以及动态卷积核参数；边界框作为relative coordinate特征添加至FPN的输出特征中，获得每个query对应的卷积特征图，目标mask的生成通过动态卷积得到；每一帧上对应位置的query追踪的是同一实例，将相对应的query进行连接，获得属于同一实例的序列；
由于视频中仅含有一个目标物体，对于每个真实物体，只有最小代价的一个样本被标记为正样本，其余为负样本；因此采用最小代价匹配进行正样本分配，损失函数包括二分类损失，边界框损失以及掩码损失：边界框损失以及掩码损失：其中为二分类损失函数，为边界框损失函数，为掩码损失函数，λ
cls
、λ
box
、λ
mask
分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数；计算每个实例序列在所有帧上的平均得分，选择分数最高的实例序列，其索引为σ，σ＝argmax
i∈{1,2,3,...,N}
P
i
；输出其对应的mask序列，即为目标物的标注。5.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法，其特征在于：测距模型计算目标物到摄像头的距离的过程为：通过摄像头的外参矩阵R、T，径向畸变和切向畸变下的畸变系数k1，k2，k3，p1，p2以及内参矩阵其中，分别为x轴和y轴x轴和y轴上的归一化焦距；(u0，v0)为图像中心点对应的像素坐标；通过目标物的标注，提取目标物所在区域，计算出该区域像素坐标纵坐标最大值，及其对应的横坐标的平均值，将组合得到的坐标作为像素坐标系下的观测点；由观测点的像素坐标(u，v)获得观测点在世界坐标系下的三维坐标值P
w
(X
w
，Y
w
，Z
w
)，计算出观测点的距离：将像素坐标系转换到图像坐标系，其关系如下：图像坐标系的目标宽度w
′
由像素坐标(u，v)与图像坐标(x，y)的关系式基于两个像素坐标点(u1，v1)和(u2，v2)计算得到两个图像坐标系下的坐标点(x1，y1)和(x2，y2)，再通过欧式距离计算得到w
′
；图像坐标系与世界坐标系之间的关系如下：得世界坐标系的目标宽度W由图像坐标与世界平面坐标的关系式基于两个图像坐标点(x1，y1)和(x2，y2)，计算得到两个世界平面坐标系下的坐标点和再通过欧式距离计算得到W；根据如下公式计算距离：
其中D表示目标物到摄像头的距离，f表示焦距，W表示世界坐标系下的目标宽度，w
′
表示图像坐标系下的目标宽度。6.一...

【专利技术属性】
技术研发人员：李晓飞，郝文华，王恬，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人