一种基于本体的半监督图像场景语义深化方法技术

技术编号:26731470 阅读:25 留言:0更新日期:2020-12-15 14:34
本发明专利技术提供一种基于本体的半监督图像场景语义深化方法,包括:检测出图像中的实体,所述实体包括目标实体;得到目标实体的场景信息,该场景信息至少包括目标实体的组成部分;将场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。使用本发明专利技术的方法能够在不提供新的细分类图像数据集的情况下将场景中检测到的实例类别进一步细化,达到深化场景语义描述的效果,同时对于关联谓词检测任务,可以消除不合逻辑的关联谓词,判定从属实体的归属,从而提高谓词检测精度。

【技术实现步骤摘要】
一种基于本体的半监督图像场景语义深化方法
本专利技术属于图像识别领域,具体涉及一种基于本体的半监督图像场景语义深化方法。
技术介绍
目标检测得到的语义信息普遍依赖于监督学习,而目前图像数据集标注存在数据不平衡的情况,即某些精细标注的目标图像样本数不够。现有的图像领域的数据集中,往往存在语义标注浅显,可识别类别数量低等问题。VOC数据集中仅包含20种类别,MSCOCO数据集中仅包含80种类别。而VisualGenome数据集中虽然包含近8万2千种实体,可其中存在十分显著的类别不均衡现象,大约7万5千类别的实体数量小于10。虽然VisualGenome数据集具有细分类别的语义标注,但由于这些类别的标注样本较少导致目标检测算法难以利用这些有细分类的标注数据。同时,基于目标检测的目标间谓词关系识别算法精度也较为低下。由于上文提到的一些问题,现有的关系检测算法基本是使用VisualGenome数据集的子集,即对原始VisualGenome数据集进行了处理,仅提取出少部分实体以及关系来进行模型的训练。在现有的端到端关系检测算法(即,输入图片,输出图中实体和实体间关系)中,主流的方式是2-stage的方法,即先进行目标检测,再根据目标检测的结果进行关系检测,这些2-stage的方法将会累积预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误,导致存在大量误检测的现象。在论文“GraphicalContrastiveLossesforSceneGraphParsing”中,作者建立了一种新的损失函数来避免近端关系混淆以及实体实例混淆。其中,近端关系混淆以及实体实例混淆是关系检测最终结果出现的一些错误,前者是对实体间的关系做出了错误的预测,后者是对关系对中的实体做出了错误的预测。这些错误都是由“预测实体的检测框、预测实体的类别和预测实体间关系谓语的检测错误”累加导致的。该损失函数由三部分组成:空间坐标损失,语义信息损失,视觉信息损失。该方法可以避免一定的误检测,但所检测出的语义信息仅限于数据集所标注的语义类别范围内。在论文“YOLO9000:Better,Faster,Stronger”中,由于缺乏细分类别目标检测数据集,作者将目标检测数据集MScoco与图像分类数据集ImageNet进行联合训练,其中图像分类数据集仅用来调整识别部分的神经网络参数,并不参与检测框生成的参数调整。此方法虽然降低了对于多类别目标检测数据集的依赖,但其仅仅是将依赖转移到了图像分类数据集上,并未从根本上解决依赖细分类别数据集的问题。在申请号为CN201911341230.3的专利文件“一种基于自适应聚类学习的视觉关系检测方法”中,公开了一种基于自适应聚类学习的视觉关系检测方法,通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别,提高了视觉关系检测的精度。但仍无法对实体进行语义深化。综上,目前现存的方法主要解决近端关系混淆以及实体实例混淆问题,或通过潜在关联挖掘对不同子类的视觉关系进行细粒度识别。但均无法达到实体语义深化的效果。
技术实现思路
本专利技术针对以上问题,提出了一种基于本体的半监督图像场景语义深化方法,以在不提供新的图像数据集的情况下将场景中检测到的实例类别进一步细化,达到深化场景语义描述的效果。为了实现上述目的,本专利技术提供一种基于本体的半监督图像场景语义深化方法,包括:S1,检测出图像中的实体,所述实体包括目标实体;S2,得到目标实体的场景信息,该场景信息至少包括目标实体的组成部分;S3,将步骤S2的场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。所述步骤S1包括,采用目标检测模型对图像进行实体检测,生成图像中所有实体的检测框以及实体的类别标签。所述步骤S2包括:S21,针对步骤S1所检测到的实体,采用场景理解模型检测其之间的关系,生成关系三元组;S22,优化关系信息,去除误匹配关系,得到优化的每个目标实体的场景信息。在所述步骤S22中,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果,利用实例分割结果消除实体间的误匹配关系,由此得到优化后的目标实体的场景信息。所述步骤S22包括:S221,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果;S222,根据实例分割结果在S21得到的关系三元组中过滤出待分析的关系三元组,得到具有作为主实体的目标实体和其从属实体的关系三元组,关系三元组的主实体与实例分割结果中的实体的类型相同;S223,将所述S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结果中,计算实例分割结果中每个同种类型的主实体在所述从属实体的检测框中的像素占比,从中选取最大的像素占比并判断其是否大于一阈值,若最大的像素占比大于一阈值,则认定所述从属实体归属于实例分割结果中最大像素占比所对应的主实体;否则,认定所述从属实体不属于任何主实体;S224,将实例分割结果中最大像素占比所对应的主实体的检测框与所述从属实体在其关系三元组中的主实体的检测框通过计算交并比来进行匹配,若匹配成功则认定从属实体为其关系三元组中的主实体的组成部分;S225,根据S224中的结果,去除所述组成部分与其关系三元组中的主实体之外的其他主实体间的关系,得到筛选后的关系三元组。所述步骤S22还包括:S226,根据谓词的种类,从S225中的筛选后的关系三元组中提取出与主实体有关的环境信息。所述步骤S3包括:S31,在一实体本体库中,查找作为主实体的目标实体的语义所对应的所有下位词,并在实体本体库的数据集中得到每个下位词的描述;S32,将所有下位词的描述与所述S22得到的每个主实体的场景信息进行匹配以计算每个主实体与所有下位词的相似度,对于每个主实体,选取相似度最高的下位词,若相似度最高的下位词与该主实体匹配,则将该主实体重命名为相似度最高的下位词,否则,不对该主实体进行重命名。S33,若有其他实体属于主实体的一部分且在主实体的重命名过程贡献了有效信息,则重命名主实体后将该实体及该实体与主实体的关系信息删除。相似度的计算方法由实体本体库所提供的信息来决定,且相似度的计算基于文本匹配的技术。本专利技术的基于本体的半监督图像场景语义深化方法通过实例分割的方法,得到实体的场景信息,可以消除不合逻辑的谓词关系,判定从属实例的归属,从而提高关系检测精度,此外,还通过结合实体本体库的信息来进行语义深化,得到实体的语义深化的结果即更细化的种类,在语义深化步骤中仅结合了实体本体库信息而并未引入新的图像数据集,能够在不提供新的图像数据集的情况下深化场景语义,也意味着语义深化的过程是非监督的,因而本专利技术的基于本体的半监督图像场景语义深化方法能够提高关系检测精度,且能够在不提供新的图像数据集的情况下深化所检测实例的语义描述。附图说明本文档来自技高网
...

【技术保护点】
1.一种基于本体的半监督图像场景语义深化方法,其特征在于,包括:/n步骤S1,检测出图像中的实体,所述实体包括目标实体;/n步骤S2,得到目标实体的场景信息,所述场景信息至少包括目标实体的组成部分;/n步骤S3,将步骤S2的场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。/n

【技术特征摘要】
1.一种基于本体的半监督图像场景语义深化方法,其特征在于,包括:
步骤S1,检测出图像中的实体,所述实体包括目标实体;
步骤S2,得到目标实体的场景信息,所述场景信息至少包括目标实体的组成部分;
步骤S3,将步骤S2的场景信息与实体本体库中的下位词进行匹配,并根据匹配结果对目标实体进行重命名,从而实现对目标实体的类别的语义深化。


2.根据权利要求1所述的基于本体的半监督图像场景语义深化方法,其特征在于,所述步骤S1包括:采用目标检测模型对图像进行实体检测,生成图像中所有实体的检测框以及实体的类别标签。


3.根据权利要求1所述的基于本体的半监督图像场景语义深化方法,其特征在于,所述步骤S2包括:
步骤S21,针对步骤S1所检测到的实体,采用场景理解模型检测实体之间的关系,生成关系三元组;
步骤S22,优化关系信息,去除误匹配关系,得到优化的每个目标实体的场景信息。


4.根据权利要求3所述的基于本体的半监督图像场景语义深化方法,其特征在于,在所述步骤S22中,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果,利用实例分割结果消除实体间的误匹配关系,由此得到优化后的目标实体的场景信息。


5.根据权利要求4所述的基于本体的半监督图像场景语义深化方法,其特征在于,所述步骤S22包括:
步骤S221,采用实例分割模型对图像进行实例分割,实现在像素级识别实体轮廓的任务,得到实例分割结果;
步骤S222,根据实例分割结果在步骤S21得到的关系三元组中过滤出待分析的关系三元组,得到具有作为主实体的目标实体和其从属实体的关系三元组,关系三元组的主实体与实例分割结果中的实体的类型相同;
步骤S223,将所述步骤S21得到的各个关系三元组中的从属实体的检测框分别放入实例分割结...

【专利技术属性】
技术研发人员:陈南希肖天刘李黎张晓林
申请(专利权)人:中国科学院上海微系统与信息技术研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1