当前位置: 首页 > 专利查询>山东大学专利>正文

一种云服务机器人的视觉问答方法及系统技术方案

技术编号:34390725 阅读:22 留言:0更新日期:2022-08-03 21:18
本发明专利技术属于服务机器人视觉问答领域,提供了一种云服务机器人的视觉问答方法及系统,包括获取待查询的信息交互图片数据及其包含的视觉信息;基于改进后的视觉问答模型,得到融合预测结果;将待查询的信息交互数据与融合预测结果进行匹配,得到最相似组的信息交互参考预测结果,并作为视觉问答系统的输出结果;本发明专利技术利用了偏差消除与对比学习方法的独特优势,更聚焦于图片中重要元素信息,优化得分元素占比,充分利用参考样本信息,强化实体嵌入,消弭语义偏差,改进服务机器人的视觉问答模型,从而提高了实际服务器人的人机交互问答的准确性,使得服务器人的体验性更好。使得服务器人的体验性更好。使得服务器人的体验性更好。

【技术实现步骤摘要】
一种云服务机器人的视觉问答方法及系统


[0001]本专利技术属于服务机器人视觉问答
,具体涉及一种云服务机器人的视觉问答方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]服务机器人已经广泛应用于如迎宾、无接触消毒配送等多种现实场景中。在以上场景中,基于视觉的人机交互的问答功能发挥着不可或缺的作用。但由于其本体对于视觉信息利用率低,服务机器人在人机对话时单纯采集对象语义信息、而不能利用视觉图像中的大量重要信息,这使得大多数服务机器人人机交互能力低下,问答结果误差较大,大多数机器人只能应用于特定语义小场景,在很大程度上限制了服务机器人的发展。为提升模型适应家庭和医院等环境下处理复杂结构数据的泛化性,针对视觉信息提出构建多任务协同和参数共享的视觉问答(Visual Question Answering,VQA)功能,以获取对话模态中的先验数据(图片加文本描述)、场景信息、实体及空间关系,更好地提升机器人服务靶向性与人性化,使机器人问答服务功能更加智能,更好理解视觉信息意图。
[0004]服务机器人的视觉问答系统相比于传统的语音问答系统而言,是一项结合计算机视觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处理,包括图像识别,图像分类等任务。自然语言处理主要是对自然语言文本形式的内容进行处理以及理解,包括机器翻译,信息检索,生成文本摘要等任务。视觉问答是需要对给定图像和问题进行处理,经过一定的视觉问答技术处理过后生成自然语言答案,是对二者的结合。
[0005]然而在持续的视觉问答过程中,由于服务机器人不断与外界进行视觉交互与语义采集,机器人会累积大量细微偏差,当偏差累积到一定饱和度,针对视觉的问答效果会明显降低;且因为服务机器人工作场景复杂,如医院等同一时刻大量视觉信息传入,机器人难以对噪声进行精确清洗并对主要信息进行聚焦,造成问答结果过渡依赖先验知识,实际场景视觉信息抓取度与区分度不够,其服务性能鲁棒性较差且场景考虑单一,传统的单一优化算法也存在稳定性差的缺点,难以被广泛使用。
[0006]专利技术人在研发的过程中发现,现有的视觉问答算法系统,存在稳定性差、耗费成本巨大缺点,因此,难以将理论分析应用于实际评价。

技术实现思路

[0007]为了解决上述问题,本专利技术提出了一种云服务机器人的视觉问答方法及系统,本专利技术为了提升服务机器人视觉问答系统精确度与鲁棒性,借助多次消偏法以及对比学习算法构建高质量服务机器人VQA系统,其能够提高实际服务器人的人机交互问答的准确性,使得服务机器人的体验性更好。
[0008]根据一些实施例,本专利技术的第一方案提供了一种云服务机器人的视觉问答方法,
采用如下技术方案:
[0009]一种云服务机器人的视觉问答方法,包括:
[0010]获取待查询的信息交互图片数据及其包含的视觉信息;
[0011]基于改进后的视觉问答模型,得到融合预测结果;
[0012]将待查询的信息交互数据与融合预测结果进行匹配,得到最相似组的信息交互参考预测结果,并作为视觉问答系统的输出结果;
[0013]其中,改进后的视觉问答模型,包括:
[0014]消偏模块,通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏,得到处理后的先验数据集中的文本信息;
[0015]对比学习模块,通过将待查询的信息交互图片数据及其包含的视觉信息与处理后的先验数据集中的视觉信息进行对比学习,提取图片信息;
[0016]词性提取模块,通过提取问答句子中的关键物体名词,通过提取到的关键物体名词对图片信息进行聚焦定位,得到定位后的图片信息;
[0017]特征融合模块,将处理后的先验数据集中的文本信息与定位后的图片信息进行融合,得到融合预测结果。
[0018]进一步地,所述通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏,得到处理后的先验数据集中的文本信息,包括:
[0019]获取不同场景下机器人视觉问答的先验数据进行特征编码,得到语义预测概率分布;
[0020]通过答案的出现次数形成候选答案集,将每一个候选答案作为分类的标签,输出语义最高预测概率分布;
[0021]基于消除偏差框架进行两次消除偏差的过程,将最高预测概率分布项和次高预测概率分布项隐藏,得到二次消偏后预测分布概率中的文本信息;
[0022]基于二次消偏后预测分布概率,得到处理后的先验数据集。
[0023]进一步地,所述获取不同场景下机器人视觉问答的先验数据进行特征编码,得到语义预测概率分布,包括:
[0024]根据不同场景下机器人语言信息统计先验知识,得到机器人视觉问答的先验数据;
[0025]对机器人视觉问答的先验数据进行特征编码;
[0026]将特征编码后的机器人视觉问答的先验数据转化为语义预测概率分布。
[0027]进一步地,所述基于消除偏差框架进行两次消除偏差的过程,将最高预测概率分布项和次高预测概率分布项隐藏,得到二次消偏后预测分布概率,具体为:
[0028]基于一次消除偏差框架,将语义预测概率分布中最高预测概率分布项隐藏,得到一次消偏后预测分布概率;
[0029]基于二次消除偏差框架,将一次消偏后预测分布概率中最高预测概率分布项隐藏,得到二次消偏后预测分布概率。
[0030]进一步地,所述次高概率分布项就是一次消偏后预测分布概率中最高预测概率分布项。
[0031]进一步地,通过将待查询的信息交互图片数据及其包含的视觉信息与处理后的先
验数据集中的视觉信息进行对比学习,提取图片信息,包括:
[0032]获取先验数据集中的图片

问题样本对和待查询的图片

问题样本对;
[0033]将先验数据集中包含的视觉信息与待查询的图片

问题样本对中的视觉信息进行比对;
[0034]提取图片信息。
[0035]进一步地,所述通过提取问答句子中的关键物体名词,通过提取到的关键物体名词对图片信息进行聚焦定位,得到定位后的图片信息,包括:
[0036]使用两个注意力模块提取问答句子中的上下文特征;
[0037]使用两个注意力模块提取问答句子中的视觉语义特征;
[0038]将提取的上下文特征与视觉语义特征连接,得到关键物体名词表征;
[0039]将关键物体名词表征对图片信息进行聚焦定位,得到定位后的图片信息。
[0040]根据一些实施例,本专利技术的第二方案提供了一种云服务机器人的视觉问答系统,采用如下技术方案:
[0041]一种云服务机器人的视觉问答系统,包括:
[0042]数据获取模块,被配置为获取待查询的信息交互图片数据及其包含的视觉信息;
[0043]融合预测模块,被配置为基于改进后的视觉问答模型,得到融合预测结果;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云服务机器人的视觉问答方法,其特征在于,包括:获取待查询的信息交互图片数据及其包含的视觉信息;基于改进后的视觉问答模型,得到融合预测结果;将待查询的信息交互数据与融合预测结果进行匹配,得到最相似组的信息交互参考预测结果,并作为视觉问答系统的输出结果;其中,改进后的视觉问答模型,包括:消偏模块,通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏,得到处理后的先验数据集中的文本信息;对比学习模块,通过将待查询的信息交互图片数据及其包含的视觉信息与先验数据集中的视觉信息进行对比学习,提取图片信息;词性提取模块,通过提取问答句子中的关键物体名词,通过提取到的关键物体名词对图片信息进行聚焦定位,得到定位后的图片信息;特征融合模块,将处理后的先验数据集中的文本信息与定位后的图片信息进行融合,得到融合预测结果。2.如权利要求1所述的一种云服务机器人的视觉问答方法,其特征在于,所述通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏,得到处理后的先验数据集中的文本信息,包括:获取不同场景下机器人视觉问答的先验数据进行特征编码,得到语义预测概率分布;通过答案的出现次数形成候选答案集,将每一个候选答案作为分类的标签,输出语义最高预测概率分布;基于消除偏差框架进行两次消除偏差的过程,将最高预测概率分布项和次高预测概率分布项隐藏,得到二次消偏后预测分布概率;基于二次消偏后预测分布概率,得到处理后的先验数据集中的文本信息。3.如权利要求2所述的一种云服务机器人的视觉问答方法,其特征在于,所述获取不同场景下机器人视觉问答的先验数据进行特征编码,得到语义预测概率分布,包括:根据不同场景下机器人语言信息统计先验知识,得到机器人视觉问答的先验数据;对机器人视觉问答的先验数据进行特征编码;将特征编码后的机器人视觉问答的先验数据转化为语义预测概率分布。4.如权利要求2所述的一种云服务机器人的视觉问答方法,其特征在于,所述基于消除偏差框架进行两次消除偏差的过程,将最高预测概率分布项和次高预测概率分布项隐藏,得到二次消偏后预测分布概率,具体为:基于一次消除偏差框架,将语义预测概率分布中最高预测概率分布项隐藏,得到一次消偏后预测分布概率;基于二次消除偏差框架,将一次消偏后预测分布概率中最高预测概率分布项隐藏,得到二次消偏后预测分布概率。5.如权利要求4所述的一种云服务机器人的视觉问答方法,其特征在于,所述次高概率分布项就是一次...

【专利技术属性】
技术研发人员:周风余范崇锋刘进尹磊陈建业
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1