一种融合物体位置关系的图像描述方法及装置制造方法及图纸

技术编号：39971822 阅读：6 留言：0更新日期：2024-01-09 00:50

本发明专利技术公开一种融合物体位置关系的图像描述方法及装置，该方法包括以下步骤：S1.输入待描述图像，提取待描述图像的全局特征信息以及候选框特征信息；S2.根据提取特征信息构建物体关系场景图；S3.对物体关系场景图中包含的各类节点信息进行初次编码；如果物体关系场景图中物体节点间位置关系比例与物体的原始位置关系相比存在比例失衡现象，则根据比例失衡程度对节点信息初次编码得到的物体关系编码特征矩阵进行二次编码；S4.将编码后的物体关系场景图以及节点信息输入至联合解码器中进行联合解码，预测出待描述图像的文本信息。本发明专利技术能够充分融合图像中物体位置关系，实现高效、精准的图像描述。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像描述领域，尤其涉及一种融合物体位置关系的图像描述方法及装置。

技术介绍

1、图像描述技术是利用图像视觉特征和对应的文本特征，使计算机生成与人类描述相符的文字描述的技术。图像描述主要检测的目标通常是人物、山、河流、地标建筑等物体，其难点在于不仅要检测出图像中的物体，而且要理解物体之间的关系，进而生成合理的文字描述。现有技术中，图像描述通常是采用卷积神经网络提取视觉特征，经过解码后生成描述图像内容的自然语句，其中视觉特征通常是颜色、形状或者纹理等特征，往往不关注图像中物体之间位置关系，因而无法准确捕获、描述隐藏在图像中的物体位置信息。而对于同一个物体通过不同的拍摄角度和构图方法会包含不同的位置关系信息，利用物体之间的位置关系可以挖掘隐藏在图像中有价值的数据，传统图像描述方法由于缺乏图像位置信息的捕获、描述，会导致最终生成的图像描述的准确度并不高。

2、图像描述需要针对于图像和文本两种不同模态数据进行处理，属于跨模态领域处理，图像的视觉特征和标注的文本特征之间会存在语意鸿沟。如果要在图像的描述语句中加入正确描述物体位置关系的位置信息，会存在以下问题：

3、1、图像往往受到拍摄角度影响，其包含的物体信息易出现比例失常的现象，这种现象也会导致模型错误生成不完整、不合理的物体位置关系描述；

4、2、数据集标注信息中的位置关系词数量通常很少，只包含一些简单的、口语化的介词类短语，而标注信息存在偏置问题，无法直接生成隐含的位置信息关系词。

5、图像描述可以应用于各类型下游应用任务

技术实现思路

1、本专利技术要解决的技术问题就在于：针对现有技术存在的技术问题，本专利技术提供一种实现方法简单、描述效率以及准确度高的融合物体位置关系的图像描述方法及装置，能够有效地挖掘、捕获物体间隐含的位置关系和细节信息，实现更准确、更合理的图像描述。

2、为解决上述技术问题，本专利技术提出的技术方案为：

3、一种融合物体位置关系的图像描述方法，包括以下步骤：

4、步骤s1.输入待描述图像，分别提取待描述图像的全局特征信息以及候选框特征信息；

5、步骤s2.根据提取的全局特征信息以及候选框特征信息构建物体关系场景图g，所述物体关系场景图g包括特征节点a、物体节点o和关系节点r；所述特征节点a对应包含所述候选框特征信息中对应候选框的特征信息，所述物体节点o对应包含所述候选框特征信息中对应物体特征信息，所述关系节点r对应包含所述全局特征信息以及所述候选框特征信息中对应候选框的特征信息、物体信息；

6、步骤s3.对所述物体关系场景图g中的各类节点信息进行初次编码，得到各类节点的编码特征矩阵；如果所述物体关系场景图g中物体节点间位置关系比例与物体的原始位置关系相比存在比例失衡现象，则根据比例失衡程度对关系节点r初次编码得到的物体关系编码特征矩阵进行二次编码，得到二次编码后物体关系编码特征矩阵；

7、步骤s4.将编码后的所述物体关系场景图g以及节点信息输入至联合解码器中进行联合解码，预测出待描述图像的文本信息。

8、进一步的，步骤s3中，按照下式对所述物体关系场景图g中的各类节点信息进行初次编码：

9、

10、其中，xi为物体关系场景图g中节点的编码特征矩阵，vi为特征信息矩阵，为各节点类别对应的嵌入编码矩阵，w[0]表示物体节点o对应的嵌入编码矩阵，w[1]表示特征节点a对应的嵌入编码矩阵，w[2]表示关系节点r对应的嵌入编码矩阵,d表示输入的特征向量维度。

11、进一步的，所述步骤s3根据比例失衡程度对关系节点r初次编码得到的物体关系编码特征矩阵进行二次编码包括：

12、步骤s31.从图像描述数据集中选取频率最高的多种物体名词和多种位置关系词构建得到知识库词典，并将所述知识库词典编码到所述物体关系场景图g中；

13、步骤s32.根据知识库词典以及物体节点o的边界框位置信息，计算所述物体关系场景图g中相邻物体节点之间的位置关系，所述知识库词典中存储有词频最高的多个物体名词以及多个位置关系词；

14、步骤s33.根据计算出的相邻物体节点之间的位置关系，判断是否存在比例失衡现象，如果存在则转入步骤s34，否则退出当前计算；

15、步骤s34.根据比例失衡程度对关系节点r初次编码得到的物体关系编码特征矩阵进行二次编码，得到二次编码后物体关系编码特征矩阵。

16、进一步的，步骤s31中使用独热编码方法将知识库词典编码到节点类别嵌入编码矩阵wα[q]中；步骤s33中，通过将计算出的相邻物体节点之间的位置关系与比例常识先验知识中原始位置关系比例进行比较，以判断是否存在比例失衡现象，所述比例常识先验知识中存储有多种物体的原始位置关系比例及对应的位置关系词。

17、进一步的，步骤s34中按照下式进行二次编码：

18、zi＝xi⊙wα[q]

19、其中，zi为二次编码后物体关系编码特征矩阵，xi为初次编码后得到的物体关系编码特征矩阵，是比例失衡程度类别对应的嵌入编码矩阵,q表示比例失衡的类别，所述比例失衡的类别按照比例失衡程度值划分得到。

20、进一步的，步骤s4中，采用双层lstm(long short-term memory，时间循环网络)结构对编码后的物体关系场景图g的gcn(图卷积网络)图结构和节点信息进行解码，采用偏置门控机制对生成的预测词进行判断，若生成的预测词属于预先构建的关系词容错词典，则使用偏置门控机制对双层lstm进行更新。

21、进一步的，使用偏置门控机制对双层lstm中的进行更新，如下公式所示：

22、

23、

24、其中，zt为偏置门控机制控制候选信息的保留程度，wt-1为attention lstm层当前时刻t的输入信息，为attention lstm层当前时刻t的输出信息，σ(·)为sigmoid激活函数，保证zt值为0～1。

25、进一步的，步骤s4中还包括对物体关系场景图节点进行更新擦除步骤，包括：

26、每次对解码预测的词进行判断，若判断为不属于物体位置关系的词，则不改变当前物体关系场景图g结构；若判断为属于物体位置关系的词语，就更新当前物体关系场景图g结构以及更新物体节点o和关系节点r的信息；

27、记录图结构中不同节点的更新次数和擦除频率，如果存在位置关系词出现的频率超过预设擦除频率β，则判定属于错误擦本文档来自技高网...

【技术保护点】

1.一种融合物体位置关系的图像描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合物体位置关系的图像描述方法，其特征在于，步骤S3中，按照下式对所述物体关系场景图G中的各类节点信息进行初次编码：

3.根据权利要求1所述的融合物体位置关系的图像描述方法，其特征在于，所述步骤S3中根据比例失衡程度对关系节点R初次编码得到的物体关系编码特征矩阵进行二次编码的步骤包括：

4.根据权利要求3所述的融合物体位置关系的图像描述方法，其特征在于，步骤S31中使用独热编码方法将知识库词典编码到节点类别嵌入编码矩阵中；步骤S33中，通过将计算出的相邻物体节点之间的位置关系与比例常识先验知识中原始位置关系比例进行比较，以判断是否存在比例失衡现象，所述比例常识先验知识中存储有多种物体的原始位置关系比例及对应的位置关系词。

5.根据权利要求3所述的融合物体位置关系的图像描述方法，其特征在于，步骤S34中按照下式进行二次编码：

6.根据权利要求1～5中任意一项所述的融合物体位置关系的图像描述方法，其特征在于，步骤S4中，采用双层LST

7.根据权利要求6所述的融合物体位置关系的图像描述方法，其特征在于，使用偏置门控机制对双层LSTM中的进行更新，如下公式所示：

8.根据权利要求1～5中任意一项所述的融合物体位置关系的图像描述方法，其特征在于，步骤S4中还包括对物体关系场景图节点进行更新擦除步骤，包括：

9.根据权利要求8所述的融合物体位置关系的图像描述方法，其特征在于，所述注意力分数按照下式计算得到：

10.一种计算机装置，包括处理器以及存储器，所述存储器用于存储计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～9中任意一项所述方法。

...

【技术特征摘要】

1.一种融合物体位置关系的图像描述方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合物体位置关系的图像描述方法，其特征在于，步骤s3中，按照下式对所述物体关系场景图g中的各类节点信息进行初次编码：

3.根据权利要求1所述的融合物体位置关系的图像描述方法，其特征在于，所述步骤s3中根据比例失衡程度对关系节点r初次编码得到的物体关系编码特征矩阵进行二次编码的步骤包括：

4.根据权利要求3所述的融合物体位置关系的图像描述方法，其特征在于，步骤s31中使用独热编码方法将知识库词典编码到节点类别嵌入编码矩阵中；步骤s33中，通过将计算出的相邻物体节点之间的位置关系与比例常识先验知识中原始位置关系比例进行比较，以判断是否存在比例失衡现象，所述比例常识先验知识中存储有多种物体的原始位置关系比例及对应的位置关系词。

5.根据权利要求3所述的融合物体位置关系的图像描述方法，其特征在于，步骤s34中按照下式进行二次编码：

...

【专利技术属性】
技术研发人员：文益民，杨璐，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人