【技术实现步骤摘要】
基于关系视觉注意机制的场景图产生方法
本专利技术属于计算机视觉领域,特别涉及一种场景图产生方法,可用于图像描述与视觉问答任务。
技术介绍
随着深度学习的发展,目前计算机对于图像的理解已经达到新的高度。从目标检测到语义分割,再到实例检测,计算机视觉已经取得非常大的进步。但对于更深层次的图像理解仍然有许多问题。由于图像中的目标间关系并不是独立存在的,目标检测等任务并不能掌握实例间的关系,比如人背着包与人拿着包,虽然通过目标检测出的类别可能相同,但是他们之间的关系类别是不同的。为了使计算机进一步像人类一样理解图像,Johnsn等人提出了场景图任务。并提供了一种场景图的评估方法。简单来说,场景图任务用于产生两目标间的关系。不仅需要检测出图中包含的目标,而且需要能够推理出目标间的关系。在此基础上,进一步可以将场景图的结果运用于更高层级图像理解任务。场景图任务是将图像映射到一组关系的拓扑结构中,它在目标检测任务的基础上,对图像中复杂多样的目标间关系进行检测。随着深度学习的发展,尽管在图像分类,目标检测方面取得了很大的进展,但是对图像的认 ...
【技术保护点】
1.一种基于关系视觉注意机制的场景图产生方法,其特征在于,包括如下:/n(1)输入包含K张图像和标签集合Y的数据集X,利卷积神经网络VGG16得到K张图像的特征集合:S={s
【技术特征摘要】
1.一种基于关系视觉注意机制的场景图产生方法,其特征在于,包括如下:
(1)输入包含K张图像和标签集合Y的数据集X,利卷积神经网络VGG16得到K张图像的特征集合:S={s1,s2,...,si,...,sK},其中si是第i张图像的特征,i∈{1,2,...,K};
(2)对(1)中的特征集合S进行目标检测,得到目标类别L,目标框B与目标特征T:
L={l1,l2,...,li,...,lK},B={b1,b2,...,bi,...,bK},T={t1,t2,...,ti,...,tK},
其中:为第i张图像中目标类别集合,为第i张图像中目标框集合,为第i张图像中目标特征集合;和分别表示第i张图像中第j个目标的类别、目标框和特征,j∈{1,2,...,n},n为图像中目标的数量;
(3)将目标特征集合ti中的每个元素作为节点,并对这些节点进行两两连接,建立全连接关系图gi;
(4)根据(2)中得到的第i张图像的目标类别集合li和目标框集合bi,对全连接关系图gi进行稀疏化,建立稀疏关系图g′i;
(5)将稀疏关系图g′i中每一条边相连的两个节点分别标记为主语节点和宾语节点,构建稀疏关系图g′i中所有边的主宾对集合:ri={(s1,o1),(s2,o2),...,(se,oe),...,(sM,oM)},其中se表示稀疏关系图g′i中第i条边的主语节点,oe表示稀疏关系图g′i中第i条边的宾语节点,M为稀疏关系图gi′中边的条数,e∈{1,2,...,M};
(6)利用主宾对集合ri中的每个元素(se,oe)和目标框集合bi中对应的目标框得到并集特征ue,并建立关系集合ri′={(s1,o1,u1),(s2,o2,u2),...,(se,oe,ue),...,(sM,oM,uM)};
(7)对数据集X中的所有图像执行(3)-(6),得到数据集关系集合R:R={r1′,r2′,...,ri′,...,r′K},并将其划分为训练集Rz与测试集Rs,按照同样的划分方式将标签集合Y划分为训练集标签集合Yz与测试集标签集合Ys;
(8)构造基于关系视觉注意机制的场景图生成网络,其中,场景图生成网络包括主语关系注意力函数Atts,宾语关系注意力函数Atto,主语关系注意力转移函数FS→R和宾语注意力转移函数FO→R;
(9)将(7)中训练集Rz与训练集标签Yz按批次进行划分,得到训练批次集合Rb与标签批次集合Yb:
其中表示训练集Rz的第h个批次,表示训练集标签Yz的第h个批次,h∈{1,2,...,V},Γ表示批次大小,|Rz|表示训练集Rz的数量,V表示批次数量;
(10)按批次将输入到(8)构建的场景图生成网络中,生成关系预测总集合:
P={p1,p2,...,pa,...,pΓ},
其中,pa为第a张图像的关系预测集合,表示第a张图像的第e个关系预测,a∈{1,2,...,Γ};
(11)根据pa和标签批次集合计算交叉熵损失:并通过随机梯度下降优化方法最小化交叉熵损失Λ,得到训练好的场景图生成网络,其中,M表示批次中第a张图像的关系数量,标签批次集合ya表示第a张图像的标签集合,表示第a张图像的第j个关系的标签;
(12)将测试集Rs输入到(11)训练好的场景图生成网络中,生成测试集Rs对应的关系预测集合Ps,并根据该关系预测集合Ps构造出场景图。
2.根据权利要求1所述的方法,其特征在于,(4)中对全连接关系图gi进行稀疏化得到稀疏关系图g′i,具体步骤如下:
(4a)从全连接关系图gi中取一条边e以及对应的两节点,将该边标...
【专利技术属性】
技术研发人员:刘芳,李玲玲,王思危,焦李成,陈璞华,古晶,刘旭,郭雨薇,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。