基于场景的视觉辅助信息确定方法、系统、设备及存储介质技术方案

技术编号:34399323 阅读:22 留言:0更新日期:2022-08-03 21:37
本公开实施例提供了一种基于场景的视觉辅助信息确定方法、系统、设备及存储介质,涉及人工智能技术领域,用以解决相关技术中存在的助盲系统难以基于使用者实际所处环境进行感知及决策的技术问题。涉及的基于场景的视觉辅助信息确定方法,包括:获取目标对象当前所处场景的图像;根据所述图像提取所述图像特征;获取与所述场景关联的问题文本;根据所述问题文本提取问题文本特征;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息。本公开实施例实现了对目标对象所处环境的认知和推理,达到了代替目标对象对其所处场景进行识别的目的,提高了视觉辅助效果。觉辅助效果。觉辅助效果。

【技术实现步骤摘要】
基于场景的视觉辅助信息确定方法、系统、设备及存储介质


[0001]本公开涉及人工智能
,具体而言,涉及一种基于场景的视觉辅助信息确定方法、系统、设备及存储介质。

技术介绍

[0002]目前,视障人士与助盲系统的交互大多是根据自身需求基于自然语言模态信息的交互,但由于视障人士无法获知其所处场景的信息,这种交互通常无法满足视障人士在某些特殊场景下的需求。一些助盲系统主要回答一些结构化信息或者自然语言问答的任务,只涉及到对自然语言的处理及识别,并不考虑视障人士实际所处的场景信息,故无法实现基于实际场景对视障人士的问题进行回答。如,大多数助盲系统多依赖于互联网搜索功能,在大多数情况下对用户提出问题的回答只是单纯的互联网搜索结果的呈现,无法满足用户的实际需求。或者,一些助盲系统使用计算机视觉中的目标检测技术来检测路障或寻找物品,但该种方式停留在对物体简单的识别检测上,难以对使用者所处环境的进行感知及决策。

技术实现思路

[0003]本公开实施例提供一种基于场景的视觉辅助信息确定方法、系统、设备及存储介质,以用于至少部分地解决相关技术中存在的助盲系统难以基于使用者实际所处环境进行感知及决策的技术问题。
[0004]根据本公开的第一个方面,提供了一种基于场景的视觉辅助信息确定方法,包括:获取目标对象当前所处场景的图像;根据所述图像提取所述图像特征;获取与所述场景关联的问题文本;根据所述问题文本提取问题文本特征;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息。
[0005]可选的,获取与所述场景关联的问题文本,包括:根据所述图像对所述场景进行识别,得到场景信息;根据所述场景信息生成与所述场景关联的问题文本。
[0006]可选的,所述方法还包括:获取针对所述问题文本的反馈信息;若所述反馈信息表明所述问题文本无效,获取第一语音信息;根据所述第一语音信息转换得到与所述场景关联的问题文本。
[0007]可选的,根据所述场景信息生成与所述场景关联的问题文本,包括:获取工作模式信息;若所述工作模式信息表明当前工作模式为主动提问工作模式,根据所述场景信息确定与所述场景相似度高于阈值的历史场景;根据与所述历史场景对应的历史问题文本生成与所述场景关联的问题文本。
[0008]可选的,获取与所述场景关联的问题文本,包括:获取工作模式信息;若所述工作模式信息表明当前工作模式为被动提问工作模式,获取第二语音信息;根据所述第二语音信息转换得到与所述场景关联的问题文本。
[0009]可选的,根据所述问题文本提取问题文本特征,包括:根据预设概念词汇表确定所
述问题文本中的关键词对应的概念,其中,所述预设概念词汇表中定义了图像中的对象、图像中对象的属性以及图像中对象之间的关系对应的语义嵌入概念;根据所述问题文本中的关键词对应的概念,提取所述问题文本特征。
[0010]可选的,根据所述图像提取所述图像特征,包括:将所述图像转化为概率图,所述概率图包括节点以及边,所述节点与所述图像中的对象对应,所述边与所述图像中对象之间的关系对应;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息,包括:从所述概率图中节点的统一初始分布开始,读取所述问题文本特征;
[0011]利用读取的所述问题文本特征通过转移所述边上的概率重新分配在所述节点上注意力;通过计算所述问题特征与所述边之间的相关性,将注意力由当前节点转移至最相关的邻近节点,直至完成状态转移过程,得到所述视觉辅助信息。
[0012]可选的,将所述图像转化为概率图,包括:将所述图像输入预先训练得到的掩码语言模型MLM模型,得到所述MLM模型输出的所述概率图;其中,所述MLM模型基于图片数据集以及图片描述文本使用掩码预训练方式训练得到。
[0013]可选的,所述方法还包括:在根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息之后,将与所述场景关联的问题文本以及所述视觉辅助信息转换为第三语音信息;输出所述第三语音信息。
[0014]根据本公开的第二个方面,提供了一种视觉辅助系统,包括:图像采集模块,用于获取目标对象当前所处场景的图像;图像处理模块,用于根据所述图像提取所述图像特征;问题生成模块,用于获取与所述场景关联的问题文本;视觉问答模块,根据所述问题文本提取问题文本特征,根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息。
[0015]根据本公开的第三个方面,提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行本公开实施例提供的任意一种基于场景的视觉辅助信息确定方法。
[0016]根据本公开的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本公开实施例提供的任意一种基于场景的视觉辅助信息确定方法。
[0017]本公开实施例的基于场景的视觉辅助信息确定方法、系统、存储介质及电子设备,获取目标对象所处场景的图像以及与该场景关联的问题文本,提取图像特征以及问题文本特征,通过确定出与问题文本相关性最高的视觉辅助信息作为问题文本所描述的问题的答案,可基于目标对象所处场景确定出该场景下的视觉辅助信息,实现了对目标对象所处环境的认知和推理,达到了代替目标对象对其所处场景进行识别的目的,提高了视觉辅助效果。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施
例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是根据本公开一示例性实施例示出的一种基于场景的视觉辅助信息确定方法的流程图;
[0021]图2是根据本公开一示例性实施例示出的基于场景的视觉辅助信息确定方法的流程图;
[0022]图3是根据本公开一示例性实施例示出的基于场景的视觉辅助信息确定方法的流程图;
[0023]图4是根据本公开一示例性实施例示出的基于场景的视觉辅助信息确定方法的流程图;
[0024]图5是根据本公开一示例性实施例示出的基于场景的视觉辅助信息确定方法的流程图;
[0025]图6是根据本公开一示例性实施例示出的基于场景的视觉辅助信息确定方法的流程图;
[0026]图7是根据本公开一示例性实施例示出的基于场景的视觉辅助信息确定方法的流程图;
[0027]图8是根据本公开一示例性实施例示出的一种视觉辅助系统的结构示意图;
[0028]图9是根据本公开一示例性实施例示出的一视觉辅助系统工作过程的示意图;
[0029]图10是根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于场景的视觉辅助信息确定方法,其特征在于,包括:获取目标对象当前所处场景的图像;根据所述图像提取所述图像特征;获取与所述场景关联的问题文本;根据所述问题文本提取问题文本特征;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息。2.根据权利要求1所述的方法,其特征在于,获取与所述场景关联的问题文本,包括:根据所述图像对所述场景进行识别,得到场景信息;根据所述场景信息生成与所述场景关联的问题文本。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取针对所述问题文本的反馈信息;若所述反馈信息表明所述问题文本无效,获取第一语音信息;根据所述第一语音信息转换得到与所述场景关联的问题文本。4.根据权利要求2所述的方法,其特征在于,根据所述场景信息生成与所述场景关联的问题文本,包括:获取工作模式信息;若所述工作模式信息表明当前工作模式为主动提问工作模式,根据所述场景信息确定与所述场景相似度高于阈值的历史场景;根据与所述历史场景对应的历史问题文本生成与所述场景关联的问题文本。5.根据权利要求1所述的方法,其特征在于,获取与所述场景关联的问题文本,包括:获取工作模式信息;若所述工作模式信息表明当前工作模式为被动提问工作模式,获取第二语音信息;根据所述第二语音信息转换得到与所述场景关联的问题文本。6.根据权利要求1所述的方法,其特征在于,根据所述问题文本提取问题文本特征,包括:根据预设概念词汇表确定所述问题文本中的关键词对应的概念,其中,所述预设概念词汇表中定义了图像中的对象、图像中对象的属性以及图像中对象之间的关系对应的语义嵌入概念;根据所述问题文本中的关键词对应的概念,提取所述问题文本特征。7.根据权利要求1所述的方法,其特征在于,根据所述图像提取所述图像特征,包括:将所述图像转化为概率图,所述概率图包括节点以及边,所述节点与所述图...

【专利技术属性】
技术研发人员:王昊李伟谢碧霄姚旭杨刘振华胡婕
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1