一种云服务机器人的视觉问答方法及系统技术方案

技术编号：34390725 阅读：22 留言：0更新日期：2022-08-03 21:18

本发明专利技术属于服务机器人视觉问答领域，提供了一种云服务机器人的视觉问答方法及系统，包括获取待查询的信息交互图片数据及其包含的视觉信息；基于改进后的视觉问答模型，得到融合预测结果；将待查询的信息交互数据与融合预测结果进行匹配，得到最相似组的信息交互参考预测结果，并作为视觉问答系统的输出结果；本发明专利技术利用了偏差消除与对比学习方法的独特优势，更聚焦于图片中重要元素信息，优化得分元素占比，充分利用参考样本信息，强化实体嵌入，消弭语义偏差，改进服务机器人的视觉问答模型，从而提高了实际服务器人的人机交互问答的准确性，使得服务器人的体验性更好。使得服务器人的体验性更好。使得服务器人的体验性更好。

全部详细技术资料下载

【技术实现步骤摘要】
一种云服务机器人的视觉问答方法及系统

[0001]本专利技术属于服务机器人视觉问答
，具体涉及一种云服务机器人的视觉问答方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]服务机器人已经广泛应用于如迎宾、无接触消毒配送等多种现实场景中。在以上场景中，基于视觉的人机交互的问答功能发挥着不可或缺的作用。但由于其本体对于视觉信息利用率低，服务机器人在人机对话时单纯采集对象语义信息、而不能利用视觉图像中的大量重要信息，这使得大多数服务机器人人机交互能力低下，问答结果误差较大，大多数机器人只能应用于特定语义小场景，在很大程度上限制了服务机器人的发展。为提升模型适应家庭和医院等环境下处理复杂结构数据的泛化性，针对视觉信息提出构建多任务协同和参数共享的视觉问答(Visual Question Answering,VQA)功能，以获取对话模态中的先验数据(图片加文本描述)、场景信息、实体及空间关系，更好地提升机器人服务靶向性与人性化，使机器人问答服务功能更加智能，更好理解视觉信息意图。
[0004]服务机器人的视觉问答系统相比于传统的语音问答系统而言，是一项结合计算机视觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处理，包括图像识别，图像分类等任务。自然语言处理主要是对自然语言文本形式的内容进行处理以及理解，包括机器翻译，信息检索，生成文本摘要等任务。视觉问答是需要对给定图像和问题进行处理，经过一定的视觉问答技术处理过后生成自...

【技术保护点】

【技术特征摘要】
1.一种云服务机器人的视觉问答方法，其特征在于，包括：获取待查询的信息交互图片数据及其包含的视觉信息；基于改进后的视觉问答模型，得到融合预测结果；将待查询的信息交互数据与融合预测结果进行匹配，得到最相似组的信息交互参考预测结果，并作为视觉问答系统的输出结果；其中，改进后的视觉问答模型，包括：消偏模块，通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏，得到处理后的先验数据集中的文本信息；对比学习模块，通过将待查询的信息交互图片数据及其包含的视觉信息与先验数据集中的视觉信息进行对比学习，提取图片信息；词性提取模块，通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对图片信息进行聚焦定位，得到定位后的图片信息；特征融合模块，将处理后的先验数据集中的文本信息与定位后的图片信息进行融合，得到融合预测结果。2.如权利要求1所述的一种云服务机器人的视觉问答方法，其特征在于，所述通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏，得到处理后的先验数据集中的文本信息，包括：获取不同场景下机器人视觉问答的先验数据进行特征编码，得到语义预测概率分布；通过答案的出现次数形成候选答案集，将每一个候选答案作为分类的标签，输出语义最高预测概率分布；基于消除偏差框架进行两次消除偏差的过程，将最高预测概率分布项和次高预测概率分布项隐藏，得到二次消偏后预测分布概率；基于二次消偏后预测分布概率，得到处理后的先验数据集中的文本信息。3.如权利要求2所述的一种云服务机器人的视觉问答方法，其特征在于，所述获取不同场景下机器人视觉问答的先验数据进行特征编码，得到语义预测概率分布，包括：根据不同场景下机器人语言信息统计先验知识，得到机器人视觉问答的先验数据；对机器人视觉问答的先验数据进行特征编码；将特征编码后的机器人视觉问答的先验数据转化为语义预测概率分布。4.如权利要求2所述的一种云服务机器人的视觉问答方法，其特征在于，所述基于消除偏差框架进行两次消除偏差的过程，将最高预测概率分布项和次高预测概率分布项隐藏，得到二次消偏后预测分布概率，具体为：基于一次消除偏差框架，将语义预测概率分布中最高预测概率分布项隐藏，得到一次消偏后预测分布概率；基于二次消除偏差框架，将一次消偏后预测分布概率中最高预测概率分布项隐藏，得到二次消偏后预测分布概率。5.如权利要求4所述的一种云服务机器人的视觉问答方法，其特征在于，所述次高概率分布项就是一次...

【专利技术属性】
技术研发人员：周风余，范崇锋，刘进，尹磊，陈建业，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人