【技术实现步骤摘要】
一种图像特征确定、视觉问答方法、装置、设备及介质
本申请涉及计算机
,尤其涉及一种图像特征确定、视觉问答方法、装置、设备及介质。
技术介绍
现有技术中有许多研究领域涉及到图像特征的确定,例如在视觉问答领域。视觉问答(VisualQuestionAnswering,VQA)是一种涉及计算机视觉和自然语言处理的综合性任务,一个视觉问答系统的输入包含一张图像和一个问句,结合这两部分信息,输出一个符合自然语言规则且内容合理的答案来回答该问句。在视觉问答领域,图像特征的确定结果可以直接影响问题答案的准确性。现有技术中,通过目标检测网络得到图像的候选特征框,并从候选特征框提取出相应的图像特征,各个图像特征之间相对独立,未考虑同一图像的各个图像特征之间的相互关系,且并未对各个候选特征框的特征框信息进行有效利用;现有技术中,采取的是直接统计数据集中所有出现过的答案作为最终分类的候选项,分类种类较大,难以保障分类精度,导致系统整体准确率不足,降低视觉问答准确性。有鉴于此,需要更有效和更高效的图像特征确定和视觉问答方案。
技术实现思路
本说明书实施例提供一种图像特征确定方法、装置、设备及介质,用以解决如何更有效或更高效地进行图像特征确定的技术问题;本说明书实施例提供一种视觉问答方法,用以解决如何更高效和更准确地进行视觉问答的技术问题。为解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供一种图像特征确定方法,包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系 ...
【技术保护点】
1.一种图像特征确定方法,包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。
【技术特征摘要】
1.一种图像特征确定方法,包括:接收目标图像,确定所述目标图像的图像内容特征以及图像几何特征;以及,确定所述图像几何特征的位置编码;根据所述位置编码确定所述图像内容特征之间的关联关系矩阵;根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征。2.如权利要求1所述的方法,确定目标图像的图像内容特征包括:根据目标检测网络确定所述目标图像的候选特征框;根据所述候选特征框确定所述目标图像的图像内容特征;和/或,确定目标图像的图像几何特征包括:根据目标检测网络确定所述目标图像的候选特征框;将所述候选特征框的坐标数据作为所述目标图像的图像几何特征。3.如权利要求2所述的方法,所述目标检测网络有一类或多类;确定目标图像的图像内容特征包括:对任一类目标检测网络,根据该类目标检测网络确定与其对应的目标图像候选特征框;根据与该类目标检测网络对应的目标图像候选特征框确定与该类目标检测网络对应的图像内容特征;将与各类目标检测网络对应的图像内容特征组合作为所述目标图像的图像内容特征;和/或,确定目标图像的图像几何特征包括:对任一类目标检测网络,根据该类目标检测网络确定与其对应的目标图像的候选特征框;将与各类目标检测网络对应的候选特征框的坐标数据组合,作为所述目标图像的图像几何特征。4.如权利要求2所述的方法,所述坐标数据包括候选特征框的特征框长度数据或候选特征框中心坐标数据。5.如权利要求4所述的方法,所述位置编码包括绝对位置编码和相对位置编码。6.如权利要求5所述的方法,其特征在于,确定所述图像几何特征的绝对位置编码包括:对任一候选特征框,使用线性变换矩阵与该候选特征框的坐标矩阵相乘,得到该候选特征框对应的绝对位置编码;和/或,确定所述图像几何特征的相对位置编码包括:对任一对候选特征框坐标矩阵fm和fn,确定该对候选特征框的坐标差值根据得到fm和fn之间的相对位置编码其中,xm,ym为fm的中心坐标,wm为fm的宽度数据,hm为fm的高度数据;xn,yn为fn的中心坐标,wn为fn的宽度数据,hn为fn的高度数据;Pos为fm和fn的4个坐标差值,i为位置编码的第i个维度,dmodel为位置编码的特征维度,Concatenate表示在特征维度进行矩阵拼接。7.如权利要求6所述的方法,根据所述位置编码确定所述图像内容特征之间的关联关系矩阵包括:将图像内容特征矩阵分别与线性变换矩阵WV、WK和WQ相乘,得到fV=fc.WV、fK=fc.WK和fQ=fc.WQ;根据确定注意力权重矩阵wmn;其中,dk为的特征维度,和分别代表第m个和第n个候选特征框内的图像内容特征;将所述注意力权重矩阵wmn作为fm和fn的关联关系矩阵。8.如权利要求7所述的方法,根据所述图像内容特征和所述关联关系矩阵确定所述目标图像的图像特征包括:将所述注意力权重矩阵wmn与fV加权求和,得到包含相对位置关系的加权图像特征;将所述加权图像特征与所述绝对位置编码相加,将相加结果作为所述图像特征。9.一种视觉问答方法,包括:接收目标图像输入与问题输入;确定问题特征以及目标图像的图像特征,根据所述图像特征和问题特征确定预测答案,以及根据所述问题特征确定掩模矩阵;根据所述预测答案和所述掩模矩阵确定并输出最终答案;其中,所述图像特征根据权利要求1至7中任一项得到。10.如权利要求9所述的方法,确定问题特征包括:对输入的问题进行拆分,对拆分后的词语进行词嵌入和编码,得到表征所述问题的语义信息的矩阵,将所述矩阵作为问题特征。11.如权利要求9所述的方法,根据所述图像特征和问题特征确定预测答案包括:将所述图像特征和所述问题特征进行融合处理,得到融合矩阵;其中,所述融合处理包括点乘和/或相加和/或双线性池化;将融合矩阵进行分类,得到预测答案。12.如权利要求9所述的方法,根据所述问题特征确定掩模矩阵包括:选择问题-答案库中频次大于等于预设值的答案,得到无重复元素的答案组,...
【专利技术属性】
技术研发人员:梅崴,李长亮,丁洪利,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。