一种基于语音交互的目标识别视觉测距方法及系统技术方案

技术编号:35213125 阅读:18 留言:0更新日期:2022-10-15 10:27
本发明专利技术公开了一种基于语音交互的目标识别视觉测距方法及系统,首先对摄像头进行标定以获得摄像头的各种参数,获取的参数存入系统供测距部分使用,然后将输入的语音识别为文字,再与实时视频一并送入目标检测网络中进行特定目标的识别与标识,最后对物体进行测距以明确摄像头与物体之间的距离从而为实现居家机器人抓取目标提供一种系统上的辅助。该系统综合了语音和计算机视觉在各自领域的优势,以图像识别为基础,融合语音以及测距技术实现对场景内目标物的精确判断和位置信息的获取。通过语音图像之间的交叉互补,能够减少系统的时间复杂度,能有效地提高居家机器人的实用性,为人机交互领域的指令识别与执行提供了一种新的集成方法和系统。新的集成方法和系统。新的集成方法和系统。

【技术实现步骤摘要】
一种基于语音交互的目标识别视觉测距方法及系统


[0001]本专利技术属于语音识别与计算机视觉领域,涉及一种基于语音交互的目标识别视觉测距方法及系统。

技术介绍

[0002]语言是人类交流的桥梁,在传达信息方面起着至关重要的作用。同样,能够听懂并作出回应实现某种目的也是人们交流的原因。随着科学技术和人类社会的不断进步,人们对美好生活的需求日益增长,人们越来越需要从繁杂琐碎的任务中解脱出来。于是智能机器应运而生,其在家庭中的应用已形成了稳定正常的市场。人们不仅仅是需要一个靠按钮实现某些简单特定的功能,而是希望机器能像“人”一样听懂指令并完成目标的寻找与定位。这很大程度上减轻了老人的负担以及家庭中子女照顾老人的压力。
[0003]图像识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,图像识别就是计算机如何像人一样读懂图片的内容。借助图像识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。现在随着图形识别技术的不断进步,越来越多的科技公司开始涉及图形识别领域,这标志着读图时代正式到来,并且将引领我们进入更加智能的未来。
[0004]机器视觉测距作为人工智能的一个分支,近些年由于图像识别技术的兴起正在得到飞速高且高效的发展。在图像测量过程以及机器视觉应用中,为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系,必须建立相机成像的几何模型,这些几何模型参数就是相机参数。在大多数条件下这些参数必须通过实验与计算才能得到,这个求解参数的过程就称之为相机标定(或摄像头标定)。无论是在图像测量或者机器视觉应用中,相机参数的标定都是非常关键的环节,其标定结果的精度及算法的稳定性直接影响相机工作产生结果的准确性。因此,做好相机标定是做好后续工作的前提,提高标定精度是科研工作的重点所在。计算机视觉技术广泛地应用于机器人控制、无人驾驶、非接触测量以及航天探测等诸多领域,因而计算机视觉技术已成为国内外高校和科研院所的研究热点。机器视觉,本质上是用机器的识别方式来代替人眼功能的一种方式,对前方物体做出识别和测量。基于机器视觉的测距算法,机器视觉测距所采集数据的方式为动态测距,与现如今市面上的测距仪器数据采集的类别相比,例如微波雷达、激光雷达、超声波雷达相比,其采集信息的方式相对是不可侵犯的,对外界环境信号传播相对保守,该测距方式采用类似人眼感知的视觉方式,便于视觉化、立体化,也更方便快捷,同时该测距方式应用范围广,特别是智能家居系统中。除此之外,计算机视觉系统中的主要传感器为价格相对较低的摄像头,因此研究计算机视觉技术不仅存在理论价值,更具备广阔的产业化和商业化前景。
[0005]目前,人工智能领域得到了飞速的发展,如何让机器快速地理解人类表达的意思并执行立体空间的物体捕获是学术界的一项热门课题。然而现今还只停留在单模态如语音或图像的识别上,能综合各种模态的语音视觉测距系统还有待发展,人类在日常生活中寻
找某一物体往往是先在场景中寻找并直接判断出物体的大致方位,但是机器不一样,它们首先需要识别指令,然后再识别目标,但是对于方位的判断受于维度限制无法准确判断。因此一种能让机器听取指令并视觉测距的系统显得尤为重要且节省操作时间。本专利技术针对开发人机交互系统的需求,提出一种基于语音识别、图像检测与视觉测距的多模态融合系统。

技术实现思路

[0006]技术问题:针对开发人机交互系统的需求,提出一种基于语音交互的目标识别及视觉测距方法及系统,解决居家场景下语言指定目标测距的问题,为居家服务机器人领域的实际应用提出一种新方法。
[0007]技术方案:一种基于语音交互的目标识别及视觉测距方法:
[0008]通过麦克风采集说话者语音,所述语音包含指定的目标物;
[0009]对语音进行识别并将其转换为文本;
[0010]通过摄像头采集包含目标物的场景下实时视频;
[0011]通过预先构建的摄像头标定模型获取摄像头各参数;
[0012]将识别好的语音文本以及实时视频送入预先构建的目标检测网络;
[0013]目标检测网络基于识别好的语音文本对实时视频中的目标物进行标注并显示;
[0014]将摄像头各参数和目标物的标注输入预先构建的测距模型,测距模型计算目标物到摄像头的距离;
[0015]识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。
[0016]进一步地,所述摄像头标定模型的构建过程为:
[0017]选取棋盘格作为标定物,然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置棋盘格,通过调整棋盘格平面的位置、方向和角度,用摄像头拍摄不同位置、方向和角度的棋盘格照片;接着从照片中提取棋盘格角点并计算,再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数;如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数;摄像头的畸变为径向畸变和切向畸变,应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2;根据实际的像素坐标和计算得到的像素坐标计算重投影误差;利用LM算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛;最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。
[0018]进一步地,说话者的语音送入基于Transformer的语音识别网络中进行识别并将其转换为文本。
[0019]进一步地,目标检测网络对符合条件的目标物进行标注的过程为:
[0020]使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,语言特征进行平均池化后获得的向量即为句特征;
[0021]再用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享;同时,对上述句特征复制N次,query和句特征共同作为解码器的输入;所有query都会在语言的指引下仅仅关注于目标对象,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有N
q
个表征;
[0022]然后再进行跨模态FPN;视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互;
[0023]对于每一帧上获得的N个表征,分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数;边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到;
[0024]每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,获得属于同一实例的序列;
[0025]由于视频中仅含有一个目标物体,对于每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音交互的目标识别及视觉测距方法,其特征在于:通过麦克风采集说话者语音,所述语音包含指定的目标物;对语音进行识别并将其转换为文本;通过摄像头采集包含目标物的场景下实时视频;通过预先构建的摄像头标定模型获取摄像头各参数;将识别好的语音文本以及实时视频送入预先构建的目标检测网络;目标检测网络基于识别好的语音文本对实时视频中的目标物进行标注并显示;将摄像头各参数和目标物的标注输入预先构建的测距模型,测距模型计算目标物到摄像头的距离;识别出说话者语音中指定的目标物并附有目标物与摄像头的距离。2.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:所述摄像头标定模型的构建过程为:选取棋盘格作为标定物,然后在世界坐标系下固定摄像头的位置,在距摄像头已知距离处放置棋盘格,通过调整棋盘格平面的位置、方向和角度,用摄像头拍摄不同位置、方向和角度的棋盘格照片;接着从照片中提取棋盘格角点并计算,再计算理想无畸变的情况下由世界坐标系到像素坐标系的各变换矩阵参数;如果有畸变应用最小二乘法计算实际存在径向畸变下的畸变系数;摄像头的畸变为径向畸变和切向畸变,应用最小二乘法计算实际存在径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2;根据实际的像素坐标和计算得到的像素坐标计算重投影误差;利用LM算法进行最小值优化重投影误差,反复迭代摄像头的内外参数和畸变系数,直至收敛;最后将计算得到的内参矩阵、外参矩阵、畸变系数、旋转矩阵、平移矩阵作为摄像头各参数输出。3.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:说话者的语音送入基于Transformer的语音识别网络中进行识别并将其转换为文本。4.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:目标检测网络对符合条件的目标物进行标注的过程为:使用视觉编码器从视频中抽取每一帧的特征,同时采用文本编码器获得文本描述的语言特征,语言特征进行平均池化后获得的向量即为句特征;再用Transformer编码器进一步建模视频帧的多尺度特征;在解码器部分,定义了N个可学习特征作为query,且为所有帧共享;同时,对上述句特征复制N次,query和句特征共同作为解码器的输入;所有query都会在语言的指引下仅仅关注于目标对象,通过在解码器中进行query和视觉特征的交互,每一帧上均获得含有目标信息的N个表征,对于整个视频,则共有N
q
个表征;然后再进行跨模态FPN;视觉特征与文本特征以互注意力的形式进行多尺度、细粒度交互;对于每一帧上获得的N个表征,分别通过class head,box head,mask head生成其对应的二分类概率,边界框以及动态卷积核参数;边界框作为relative coordinate特征添加至FPN的输出特征中,获得每个query对应的卷积特征图,目标mask的生成通过动态卷积得到;每一帧上对应位置的query追踪的是同一实例,将相对应的query进行连接,获得属于同一实例的序列;
由于视频中仅含有一个目标物体,对于每个真实物体,只有最小代价的一个样本被标记为正样本,其余为负样本;因此采用最小代价匹配进行正样本分配,损失函数包括二分类损失,边界框损失以及掩码损失:边界框损失以及掩码损失:其中为二分类损失函数,为边界框损失函数,为掩码损失函数,λ
cls
、λ
box
、λ
mask
分别为分类损失函数、边界框损失函数、掩码损失函数对应的系数;计算每个实例序列在所有帧上的平均得分,选择分数最高的实例序列,其索引为σ,σ=argmax
i∈{1,2,3,...,N}
P
i
;输出其对应的mask序列,即为目标物的标注。5.根据权利要求1所述的一种基于语音交互的目标识别及视觉测距方法,其特征在于:测距模型计算目标物到摄像头的距离的过程为:通过摄像头的外参矩阵R、T,径向畸变和切向畸变下的畸变系数k1,k2,k3,p1,p2以及内参矩阵其中,分别为x轴和y轴x轴和y轴上的归一化焦距;(u0,v0)为图像中心点对应的像素坐标;通过目标物的标注,提取目标物所在区域,计算出该区域像素坐标纵坐标最大值,及其对应的横坐标的平均值,将组合得到的坐标作为像素坐标系下的观测点;由观测点的像素坐标(u,v)获得观测点在世界坐标系下的三维坐标值P
w
(X
w
,Y
w
,Z
w
),计算出观测点的距离:将像素坐标系转换到图像坐标系,其关系如下:图像坐标系的目标宽度w

由像素坐标(u,v)与图像坐标(x,y)的关系式基于两个像素坐标点(u1,v1)和(u2,v2)计算得到两个图像坐标系下的坐标点(x1,y1)和(x2,y2),再通过欧式距离计算得到w

;图像坐标系与世界坐标系之间的关系如下:得世界坐标系的目标宽度W由图像坐标与世界平面坐标的关系式基于两个图像坐标点(x1,y1)和(x2,y2),计算得到两个世界平面坐标系下的坐标点和再通过欧式距离计算得到W;根据如下公式计算距离:
其中D表示目标物到摄像头的距离,f表示焦距,W表示世界坐标系下的目标宽度,w

表示图像坐标系下的目标宽度。6.一...

【专利技术属性】
技术研发人员:李晓飞郝文华王恬
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1