一种图像特征确定、视觉问答方法、装置、设备及介质制造方法及图纸

技术编号:22330751 阅读:42 留言:0更新日期:2019-10-19 12:23
本说明书实施例公开了一种图像特征确定、视觉问答方法、装置、设备及介质,图像特征确定方法包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。

【技术实现步骤摘要】
一种图像特征确定、视觉问答方法、装置、设备及介质
本申请涉及计算机
,尤其涉及一种图像特征确定、视觉问答方法、装置、设备及介质。
技术介绍
现有技术中有许多研究领域涉及到图像特征的确定,例如在视觉问答领域。视觉问答(VisualQuestionAnswering,VQA)是一种涉及计算机视觉和自然语言处理的综合性任务,一个视觉问答系统的输入包含一张图像和一个问句,结合这两部分信息,输出一个符合自然语言规则且内容合理的答案来回答该问句。在视觉问答领域,图像特征的确定结果可以直接影响问题答案的准确性。现有技术中,通过目标检测网络得到图像的候选特征框,并从候选特征框提取出相应的图像特征,各个图像特征之间相对独立,未考虑同一图像的各个图像特征之间的相互关系,且并未对各个候选特征框的特征框信息进行有效利用;现有技术中,采取的是直接统计数据集中所有出现过的答案作为最终分类的候选项,分类种类较大,难以保障分类精度,导致系统整体准确率不足,降低视觉问答准确性。有鉴于此,需要更有效和更高效的图像特征确定和视觉问答方案。
技术实现思路
本说明书实施例提供一种图像特征确定方法、装置、设备及介质,用以解决如何更有效或更高效地进行图像特征确定的技术问题;本说明书实施例提供一种视觉问答方法,用以解决如何更高效和更准确地进行视觉问答的技术问题。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供一种图像特征确定方法,包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。本说明书实施例提供一种图像特征确定装置,包括;初始特征确定模块,用于确定目标图像的图像内容特征以及图像几何特征;编码模块,用于确定所述图像几何特征的位置编码;关联矩阵确定模块,用于根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;图像特征确定模块,用于根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。本说明书实施例提供一种图像特征确定设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过确定图像内容特征以及图像几何特征,引入自注意力机制,对各个特征框之间的关系进行编码,能够充分利用各个特征框的特征框信息,能够确定图像内容特征之间的位置关系和/或相互关联关系,将融合了关联关系的图像内容特征作为图像特征,有效提高了图像特征的信息丰富度和准确度。本说明书实施例提供一种视觉问答方法,包括:接收目标图像输入与问题输入;确定问题特征以及目标图像的图像特征,根据所述图像特征和问题特征确定预测答案,以及根据所述问题特征确定掩模矩阵;根据所述预测答案和所述掩模矩阵确定并输出最终答案;其中,所述图像特征根据上述实施例得到。本说明书实施例提供一种视觉问答装置,包括:输入模块,用于接收目标图像输入与问题输入;图像特征确定模块,用于确定所述目标图像的图像特征;问题特征确定模块,用于确定所述问题的问题特征;预测答案确定模块,用于根据所述图像特征和问题特征确定预测答案;掩模确定模块,用于根据所述问题特征确定掩模矩阵;应答模块,用于根据所述预测答案和所述掩模矩阵确定并输出最终答案。本说明书实施例提供一种视觉问答设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:接收目标图像输入与问题输入;确定问题特征以及目标图像的图像特征,根据所述图像特征和问题特征确定预测答案,以及根据所述问题特征确定掩模矩阵;根据所述预测答案和所述掩模矩阵确定并输出最终答案;其中,所述图像特征根据上述实施例得到。本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:接收目标图像输入与问题输入;确定问题特征以及目标图像的图像特征,根据所述图像特征和问题特征确定预测答案,以及根据所述问题特征确定掩模矩阵;根据所述预测答案和所述掩模矩阵确定并输出最终答案;其中,所述图像特征根据上述实施例得到。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:通过确定图像内容特征以及图像几何特征,引入自注意力机制,对各个特征框之间的关系进行编码,能够充分利用各个特征框的特征框信息,能够确定图像内容特征之间的位置关系和/或相互关联关系,将融合了关联关系的图像内容特征作为图像特征,有效提高了图像特征的信息丰富度和准确度,以及视觉问答的准确度;基于问题的语义表征对其答案进行分类,生成问题掩码,以对分类候选项进行过滤,能够有效减少答案分类数量,加快损失函数收敛速度,提高视觉问答的准确度。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本说明书第一个实施例中图像特征确定方法的流程示意图。图2是本说明书第一个实施例中的图像特征确定过程示意图。图3是本说明书第一个实施例中利用服务器确定图像特征的示意图。图4是本说明书第二个实施例中视觉应答方法的流程示意图。图5是本说明书第二个实施例中的视觉问答过程示意图。图6是本说明书第二个实施例中利用服务器进行视觉应答的示意图。图7是本说明书第二个实施例中的掩模生成与应用示意图。图8是本说明书第二个实施例中的视觉问答示例图。图9是本说明书第三个实施例中图像特征确定装置的结构示意图。图10是本说明书第四个实施例中视觉应答装置的结构示意图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。图1是本说本文档来自技高网
...

【技术保护点】
1.一种图像特征确定方法,包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。

【技术特征摘要】
1.一种图像特征确定方法,包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。2.如权利要求1所述的方法,确定目标图像的图像内容特征包括:根据目标检测网络确定所述目标图像的候选特征框;根据所述候选特征框确定所述目标图像的图像内容特征;和/或,确定目标图像的图像几何特征包括:根据目标检测网络确定所述目标图像的候选特征框;将所述候选特征框的坐标数据作为所述目标图像的图像几何特征。3.如权利要求2所述的方法,所述目标检测网络有一类或多类;确定目标图像的图像内容特征包括:对任一类目标检测网络,根据该类目标检测网络确定与其对应的目标图像候选特征框;根据与该类目标检测网络对应的目标图像候选特征框确定与该类目标检测网络对应的图像内容特征;将与各类目标检测网络对应的图像内容特征组合作为所述目标图像的图像内容特征;和/或,确定目标图像的图像几何特征包括:对任一类目标检测网络,根据该类目标检测网络确定与其对应的目标图像的候选特征框;将与各类目标检测网络对应的候选特征框的坐标数据组合,作为所述目标图像的图像几何特征。4.如权利要求2所述的方法,所述坐标数据包括候选特征框的特征框长度数据或候选特征框中心坐标数据。5.如权利要求4所述的方法,所述位置编码包括绝对位置编码和相对位置编码。6.如权利要求5所述的方法,其特征在于,确定所述图像几何特征的绝对位置编码包括:对任一候选特征框,使用线性变换矩阵与该候选特征框的坐标矩阵相乘,得到该候选特征框对应的绝对位置编码;和/或,确定所述图像几何特征的相对位置编码包括:对任一对候选特征框坐标矩阵fm和fn,确定该对候选特征框的坐标差值根据得到fm和fn之间的相对位置编码其中,xm,ym为fm的中心坐标,wm为fm的宽度数据,hm为fm的高度数据;xn,yn为fn的中心坐标,wn为fn的宽度数据,hn为fn的高度数据;Pos为fm和fn的4个坐标差值,i为位置编码的第i个维度,dmodel为位置编码的特征维度,Concatenate表示在特征维度进行矩阵拼接。7.如权利要求6所述的方法,根据所述位置编码确定所述图像内容特征之间的关联关系矩阵包括:将图像内容特征矩阵分别与线性变换矩阵WV、WK和WQ相乘,得到fV=fc.WV、fK=fc.WK和fQ=fc.WQ;根据确定注意力权重矩阵wmn;其中,dk为的特征维度,和分别代表第m个和第n个候选特征框内的图像内容特征;将所述注意力权重矩阵wmn作为fm和fn的关联关系矩阵。8.如权利要求7所述的方法,根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征包括:将所述注意力权重矩阵wmn与fV加权求和,得到包含相对位置关系的加权图像特征;将所述加权图像特征与所述绝对位置编码相加,将相加结果作为所述图像特征。9.一种视觉问答方法,包括:接收目标图像输入与问题输入;确定问题特征以及目标图像的图像特征,根据所述图像特征和问题特征确定预测答案,以及根据所述问题特征确定掩模矩阵;根据所述预测答案和所述掩模矩阵确定并输出最终答案;其中,所述图像特征根据权利要求1至7中任一项得到。10.如权利要求9所述的方法,确定问题特征包括:对输入的问题进行拆分,对拆分后的词语进行词嵌入和编码,得到表征所述问题的语义信息的矩阵,将所述矩阵作为问题特征。11.如权利要求9所述的方法,根据所述图像特征和问题特征确定预测答案包括:将所述图像特征和所述问题特征进行融合处理,得到融合矩阵;其中,所述融合处理包括点乘和/或相加和/或双线性池化;将融合矩阵进行分类,得到预测答案。12.如权利要求9所述的方法,根据所述问题特征确定掩模矩阵包括:选择问题-答案库中频次大于等于预设值的答案,得到无重复元素的答案组,...

【专利技术属性】
技术研发人员:梅崴李长亮丁洪利
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1