一种融合凝视的视听协同物品指代表达理解与分割方法、系统、设备及存储介质技术方案

技术编号：40090078 阅读：9 留言：0更新日期：2024-01-23 16:04

本发明专利技术公开了一种融合凝视的视听协同物品指代表达理解与分割方法、系统、设备及存储介质，所述方法包括以下步骤：(1)通过对物品指代OCID‑Ref数据集进行预处理，构建指代意图欠明确表达的数据集OCID‑underRef；(2)构造凝视引导的视觉定位网络GVG；(3)在真实人机交互场景下通过部署凝视引导的视觉定位网络来实现交互式人机物品递送；本发明专利技术减轻了数据集采集与标注的人力工作量；能够在语言描述的物品指代意图欠明确的情况下，结合人的凝视注意力检测来克服不确定性，尽量避免了因物品指代意图模糊而造成的人机多次问答交互。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视听协同的视觉定位，具体涉及一种融合凝视的视听协同物品指代表达理解与分割方法、系统、设备及存储介质。

技术介绍

1、确定人机交递目标物品是驱动机器人实现目标导向物体抓取和交递的前提，也是人机交互领域的一个长期挑战。虽然深度学习的进步提供了强大的神经网络模型来处理复杂的视觉和语言输入，但是机器人自身感知不确定性和人类表达不确定性共存，是制约机器人理解人类指代意图的瓶颈。首先，视觉输入是复杂和含噪的，同时由于物品混杂摆放、相互遮挡，导致场景物体状态通常存在部分可观测性，这必然会导致视觉信息处理存在一定误差。其次，尽管人类语言丰富多彩，但它们有时在指代目标方面是模棱两可的。例如当场景中存在两个同类物品实例时，这两个不同对象可以完全匹配人的语言指令。因此单纯依靠机器人自主视觉感知或接受人的语言指令，都容易出现指代目标物品表达不清的问题。

2、通过语言-视觉对齐来弥补单通道感知的不足，是实现物品指代意图理解的有效途径。指代表达理解(referring expression comprehension，rec)和指代表达分割(referring expression segmentation，res)是根据给定的语言表达识别目标视觉实例的两个新兴研究任务。现有的大多数rec方法遵循多阶段流水线，即从图像中检测出显著区域，通过多模态交互选择最匹配的区域。同时，现有的res方法通常是将一个lstm或gru模块嵌入到一个单阶段分割网络中对引用进行分割。与res相比，rec在预测参考点的潜在位置方面具有优势，这可以弥补re

3、在人机交互式物品交递场景中，人的凝视往往能够有效锁定指代目标物品。然而凝视点的检测结果往往(见adriàrecasens等，“where are they looking？”，nips2015)由于凝视估计误差而呈现出一定的注意力区域分布预测。如何将凝视信息与指代表达理解和分割网络相结合，从而充分发挥凝视对视觉定位所起的辅助所用，尚有待深入研究。

技术实现思路

1、专利技术目的：本专利技术的目的是提供一种融合凝视的视听协同物品指代表达理解与分割方法、系统、设备及存储介质以解决由于凝视估计误差而呈现出一定的注意力区域分布预测，充分利用凝视信息辅助引导视觉定位网络，实现欠明确指代物品的定位与分割。

2、技术方案：本专利技术所述的一种融合凝视的视听协同物品指代表达理解与分割方法，包括以下步骤：

3、(1)通过对公开物品指代数据集ocid-ref进行预处理，构建含凝视标注的指代意图欠明确表达的数据集ocid-underref；所述预处理包括：模拟物体凝视区域热力图；对目标物品指代文本进行模糊化处理得到欠明确物品指代文本；

4、(2)构造凝视引导的视觉定位网络gvg；以场景rgb图像与欠明确物品指代文本为输入，采用指代表达理解与指代表达分割两个任务协同的网络结构，引入凝视注意力特征与指代不明的文本特征相融合，实现凝视辅助下的指代物品同时检测与分割；

5、(3)在真实人机交互场景下通过部署凝视引导的视觉定位网络来实现交互式人机物品递送。

6、进一步的，所述步骤(1)模拟物体凝视区域热力图是指在ocid-ref数据集上进行凝视建模，具体如下：

7、通过对每个物品标注框bi，i＝1，...，n；以bi为中心建立高斯分布的方法，为每一个物品生成一张模拟凝视区域热力图gi，i＝1，...，n；因此所得的ocid-underref中每个物体都带了模拟凝视区域热力图，其作用是，在模型训练阶段将此模拟凝视区域热力图gi作为凝视通道图像的输入。

8、进一步的，所述步骤(1)对目标物品指代文本进行模糊化处理是指在在数据集准备过程中模拟欠明确的物品指代表达，具体如下：使用nltk工具包对进行模糊化；通过pos_tag函数对文本中每个单词进行词性标注，提取词性为名词单数形式的单词作为gvg网络的模糊化后的文本输入；在模型训练阶段，则直接采用数据集中对于物品类别的标注作为欠明确文本输入。

9、进一步的，所述步骤(2)凝视引导的视觉定位网络的输入为一张场景rgb图像i、凝视区域热力图g和一段欠明确的指代表达e。

10、进一步的，所述步骤(2)凝视注意力特征与指代欠明确的文本特征相融合具体如下：

11、将场景图像i经过凝视估计网络获取凝视区域热力图g，通过resnet-18网络提取凝视特征fg；对于场景rgb图像i，采用cspdarknet-53视觉骨干网络提取三个尺度的视觉特征fv1、fv2和fv3；对于欠明确的指代表达e输入，首先通过词嵌入将其映射为文本向量然后采用gru编码器提取文本特征ft；在多模态特征融合的过程中，采取将凝视信息的空间特征抽象为高层语义特征的策略，先将文本特征ft和凝视特征fg进行拼接以补充文本所缺失的位置属性，然后与高层视觉特征fv1相加；经过上采样和下采样的过程得到含有视-听多模态特征的多尺度张量fm1、fm2和fm3；其中，fm1和fm2分别送入指代表达理解和指代表达分割分支，完成指代物品的定位框和分割掩码预测，并在指代表达分割分支中引入了高分辨率特征图fm3对fm2进行修正。

12、进一步的，所述步骤(3)具体如下：在桌面存在同一物品多个实例的情况下，交互者以欠明确表达的物品指代语音输入，即仅说出物品名称，并注视特定物体实例；服务机器人视觉系统对人的凝视进行检测，将训练得到的凝视引导的视觉定位网络直接迁移到实物场景中，该网络通过输入凝视区域热力图、场景图像和欠明确表达的物品指代文本，输出锁定交互者注视的特定目标物品。

13、进一步的，一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，真实场景下的凝视区域热力图由一个预训练过的凝视估计网络gaze following进行预测。

14、本专利技术所述的一种融合凝视的视听协同物品指代表达理解与分割系统，包括以下模块：

15、数据预处理模块：用于通过对公开物品指代数据集ocid-ref进行预处理，构建含凝视标注的指代意图欠明确表达的数据集ocid-underref；所述预处理包括：模拟物体凝视区域热力图；对目标物品指代文本进行模糊化处理；

16、凝视引导的视觉定位网络gvg模块：用于构造凝视引导的视觉定位网络gvg；以本文档来自技高网...

【技术保护点】

1.一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(1)模拟物体凝视区域热力图是指在OCID-Ref数据集上进行凝视建模；具体如下：

3.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(1)对目标物品指代文本进行模糊化处理是指在在数据集准备过程中模拟欠明确的物品指代表达，具体如下：使用NLTK工具包对进行模糊化；通过pos_tag函数对文本中每个单词进行词性标注，提取词性为名词单数形式的单词作为GVG网络的模糊化后的文本输入；在模型训练阶段，则直接采用数据集中对于物品类别的标注作为欠明确文本输入。

4.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(2)凝视引导的视觉定位网络的输入为一张场景RGB图像I、凝视区域热力图G和一段欠明确的指代表达E。

5.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其

6.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(3)具体如下：在桌面存在同一物品多个实例的情况下，交互者以欠明确表达的物品指代语音输入，即仅说出物品名称，并注视特定物体实例；服务机器人视觉系统对人的凝视进行检测，将训练得到的凝视引导的视觉定位网络直接迁移到实物场景中，该网络通过输入凝视区域热力图、场景图像和欠明确表达的物品指代文本，输出锁定交互者注视的特定目标物品。

7.根据权利要求6所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，真实场景下的凝视区域热力图由一个预训练过的凝视估计网络Gaze Following进行预测。

8.一种融合凝视的视听协同物品指代表达理解与分割系统，包括以下模块：

9.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种融合凝视的视听协同物品指代表达理解与分割方法中的步骤。

10.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被设计为运行时实现根据权利要求1-7任一项所述的一种融合凝视的视听协同物品指代表达理解与分割方法中的步骤。

...

【技术特征摘要】

1.一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(1)模拟物体凝视区域热力图是指在ocid-ref数据集上进行凝视建模；具体如下：

3.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(1)对目标物品指代文本进行模糊化处理是指在在数据集准备过程中模拟欠明确的物品指代表达，具体如下：使用nltk工具包对进行模糊化；通过pos_tag函数对文本中每个单词进行词性标注，提取词性为名词单数形式的单词作为gvg网络的模糊化后的文本输入；在模型训练阶段，则直接采用数据集中对于物品类别的标注作为欠明确文本输入。

4.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(2)凝视引导的视觉定位网络的输入为一张场景rgb图像i、凝视区域热力图g和一段欠明确的指代表达e。

5.根据权利要求1所述的一种融合凝视的视听协同物品指代表达理解与分割方法，其特征在于，所述步骤(2)凝视注意力特征与指代欠明确的文本特征相融合具体如下：

6...

【专利技术属性】
技术研发人员：宋伟，钱堃，廖建峰，张卓旸，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人