一种基于全局上下文特征融合知识图谱的目标检测方法技术

技术编号:39064650 阅读:22 留言:0更新日期:2023-10-12 19:57
本发明专利技术公开了一种基于全局上下文特征融合知识图谱的目标检测方法,先构建基于全局上下文特征的神经网络模型和知识图谱,再利用COCO2017数据集训练神经网络模型,通过神经网络模型预测出待检测图像的预测框类别概率矩阵;然后通过对知识图谱的量化处理得到语义一致性矩阵,再语义一致性矩阵更新预测框类别概率矩阵,最终输出图像中每个目标的位置和类别标签。标签。标签。

【技术实现步骤摘要】
一种基于全局上下文特征融合知识图谱的目标检测方法


[0001]本专利技术属于目标检测
,更为具体地讲,涉及一种基于全局上下文特征融合知识图谱的目标检测方法。

技术介绍

[0002]近年来,人工智能作为驱动传统产业升级和科技革命的重要力量,使得许多产业蓬勃发展。随着计算机硬件的不断升级,人们可以利用更为复杂的算法来处理和分析数字图像。
[0003]在计算机视觉任务中,需要解决的基本问题包括:图像分类、目标检测以及图像分割等。其中,图像分类可以识别出给定图像中对象的类别;而目标检测不仅可以识别出给定图像中对象的类别,还可以预测每个对象的位置。图像分割可以被看作是目标检测的一种特殊设置,在这种设置中,不需要通过包围框对目标进行局部化,而需要进行像素级的局部化。因此,作为计算机视觉中最基本和最具挑战性的问题之一,目标检测是解决复杂或高级任务的基础。
[0004]卷积神经网络能够将原始像素转换为更高级别的语义信息,还可以从大量的训练数据中自动学习,从而有效地解决计算机视觉中的各种复杂问题。在应用卷积神经网络进行图像分类任务取得卓越的成果后,基于深度学习的目标检测技术也实现了重大的突破。特别是针对一些特定领域的目标检测任务,例如医疗影像分析、自动驾驶、人脸识别等,这些任务具有独特的数据特征和应用需求,需要深度学习模型具有更好的泛化能力和适应性。目前,先进的目标检测器大多以深度学习网络为骨干,并对其进行了不断的改进和优化,以提高模型的性能。
[0005]尽管目标检测模型能够自动检测出图像中物体的位置和类别信息,但机器和人类之间的学习方式仍然存在着显著的差距,现有的最先进的目标检测算法只注重利用图像本身的特征,在很大程度上忽略了关于真实世界的大量背景知识。在大规模、多类别的目标检测任务中,对于被严重遮挡和微小尺寸的物体识别困难,但人类可以瞬间判断出。上述并不是因为人类能够更好的从目标特征中得出结论,而是因为人类可以依靠先验知识(比如物体之间的关系以及上下文信息等)进行判断或者推理,并以此识别出物体的具体类别。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提供一种基于全局上下文特征融合知识图谱的目标检测方法,充分利用图像自身特征以及捕获图像中目标对象之间的关系来提升检测性能。
[0007]为实现上述专利技术目的,本专利技术一种基于全局上下文特征融合知识图谱的目标检测方法,其特征在于,包括以下步骤:
[0008](1)、下载数据集
[0009]下载包含有N个类别的目标检测数据集,每个类别具有多张图片,且每张图片统一
缩放到相同大小;然后为每张图片中的目标添加真实目标框,并标记类别标签;
[0010]下载包含有M条知识的知识库,提取每条知识的头实体s
i
、尾实体e
i
和关系r
i
,然后组合成三元组(s
i
,r
i
,e
i
),i=1,2,

,M;
[0011](2)、构建基于全局上下文特征的神经网络模型;
[0012]基于全局上下文特征的神经网络模型包括主干、瓶颈和检测三个部分;
[0013]其中,主干部分包括焦点模块Focus、五个卷积模块CBL、四个全局上下文特征模块GCF、快速空间金字塔池化模块SPPF和上采样模块;
[0014]每个CBL又包括卷积层、批归一化层和LeakyReLU激活函数;
[0015]每个GCF又包括三个1
×
1的卷积层和两个激活函数,其中,第一个卷积层的输出接softmax函数,第二个卷积层的输出接LeakyReLU激活函数;
[0016]在Focus的输出端依次串联CBL与GCF,且CBL与GCF交替连接;在GCF的输出端依次串联SPPF、CBL和上采样模块;
[0017]瓶颈部分采用跨阶段局部结构,包括三个分支;
[0018]其中,将主干部分中Focus输出端的第三个CBL与上采样模块输出在通道方向进行拼接,再通过GCF和CBL后输入至上采样模块,然后再将上采样模块输出与Focus输出端的第二个CBL输出在通道方向进行拼接,最后将拼接结果通过GCF融合,得到瓶颈部分的第一个分支输出;
[0019]将第一个分支的输出通过CBL后与第一个分支中的CBL的输出在通道方向进行拼接,然后将拼接结果通过GCF融合,得到瓶颈部分的第二个分支输出;
[0020]将第二个分支的输出通过CBL后与主干部分输出端的最后一个CBL的输出在通道方向进行拼接,然后将拼接结果通过GCF融合,得到瓶颈部分的第三个分支输出;
[0021]检测部分包括三个卷积模块CBL,每个CBL连接在三个分支的输出端,通过卷积操作从瓶颈部分的三个分支中得到融合后的预测框类别概率矩阵P;
[0022](3)、构建知识图谱并量化处理;
[0023](3.1)、构建知识图谱;
[0024]根据目标检测数据集,从知识库提取包含有目标检测数据集的N个类别的所有三元组,构成目标检测数据集的知识图谱;
[0025](3.2)、量化知识图谱;
[0026](3.2.1)、将知识图谱中同一类别的三元组的头实体、尾实体统一标记为实体节点v,那么知识图谱中第i个类别的三元组标记的实体节点记为v
i
,i=1,2,

,N;
[0027](3.2.2)、利用重启随机游走算法遍历知识图谱,计算出任意两个实体节点间的语义一致性指标;
[0028][0029][0030]其中,s
ij
表示第i个实体节点与第j个实体节点间的语义一致性指标,i,j[1,N]且i≠j;P(v
j
|v
i
:α)表示从实体节点v
i
经过t步到达实体节点v
j
的概率;α表示每移动一步时有α的概率重新回到实体节点v
i

[0031](3.2.3)、构建语义一致性矩阵S;
[0032][0033](4)、训练基于全局上下文特征的神经网络模型;
[0034]在每一轮训练过程中,从目标检测数据集随机选取一张图像,记为X,然后将图像X输入至基于全局上下文特征的神经网络模型;
[0035]在主干网络部分,输入图像X先通过Focus得到增强后的图像然后将图像以张量的形式依次流经若干个串联的CBL与GCF、然后通过SPPF和上采样层模块后进入瓶颈部分;在瓶颈部分通过跨阶段局部结构进行特征提取,得到三个不同尺寸的预测图X
k
,k=1,2,3;在检测部分,预测图X
k
通过卷积操作从瓶颈部分的三个分支中得到融合后的预测框类别概率矩阵P;
[0036][0037]其中,p
il
表示第l个预测框属于第i个类别的概率,l=1,2,

,L,L表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局上下文特征融合知识图谱的目标检测方法,其特征在于,包括以下步骤:(1)、下载数据集下载包含有N个类别的目标检测数据集,每个类别具有多张图片,且每张图片统一缩放到相同大小;然后为每张图片中的目标添加目标框,并标记类别标签;下载包含有M条知识的知识库,提取每条知识的头实体s
i
、尾实体e
i
和关系r
i
,然后组合成三元组(s
i
,r
i
,e
i
),i=1,2,

,M;(2)、构建基于全局上下文特征的神经网络模型;基于全局上下文特征的神经网络模型包括主干、瓶颈和检测三个部分;其中,主干部分包括焦点模块Focus、五个卷积模块CBL、四个全局上下文特征模块GCF、快速空间金字塔池化模块SPPF和上采样模块;每个CBL又包括卷积层、批归一化层和LeakyReLU激活函数;每个GCF又包括三个1
×
1的卷积层和两个激活函数,其中,第一个卷积层的输出接softmax函数,第二个卷积层的输出接LeakyReLU激活函数;在Focus的输出端依次串联CBL与GCF,且CBL与GCF交替连接;在GCF的输出端依次串联SPPF、CBL和上采样模块;瓶颈部分采用跨阶段局部结构,包括三个分支;其中,将主干部分中Focus输出端的第三个CBL与上采样模块输出在通道方向进行拼接,再通过GCF和CBL后输入至上采样模块,然后再将上采样模块输出与Focus输出端的第二个CBL输出在通道方向进行拼接,最后将拼接结果通过GCF融合,得到瓶颈部分的第一个分支输出;将第一个分支的输出通过CBL后与第一个分支中的CBL的输出在通道方向进行拼接,然后将拼接结果通过GCF融合,得到瓶颈部分的第二个分支输出;将第二个分支的输出通过CBL后与主干部分输出端的最后一个CBL的输出在通道方向进行拼接,然后将拼接结果通过GCF融合,得到瓶颈部分的第三个分支输出;检测部分包括三个卷积模块CBL,每个CBL连接在三个分支的输出端,通过卷积操作从瓶颈部分的三个分支中得到融合后的预测框类别概率矩阵P;(3)、构建知识图谱并量化处理;(3.1)、构建知识图谱;根据目标检测数据集,从知识库提取包含有目标检测数据集的N个类别的所有三元组,构成目标检测数据集的知识图谱;(3.2)、量化知识图谱;(3.2.1)、将知识图谱中同一类别的三元组的头实体、尾实体统一标记为实体节点v,那么知识图谱中第i个类别的三元组标记的实体节点记为v
i
,i=1,2,

,N;(3.2.2)、利用重启随机游走算法遍历知识图谱,计算出任意两个实体节点间的语义一致性指标;致性指标;
其中,s
ij
表示第i个实体节点与第j个实体节点间的语义一致性指标,i,j[1,N]且i≠j;P(v
j
|v
i
:α)表示从实体节点v
i
经过t步到达实体节点v
j

【专利技术属性】
技术研发人员:徐杰杨帆冯渝荏李家瑛苗珂谢麟冰李子轩
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1