【技术实现步骤摘要】
本专利技术涉及计算机视觉领域,尤其是涉及一种场景图生成方法、设备及介质。
技术介绍
1、场景图生成(sgg)作为一种中间层次的视觉理解任务,对于多种视觉-语言跨模态理解任务至关重要,比如图像字幕生成、视觉问题回答(vqa)和图像检索等。甚至最近在机器人环境领域也开始出现相关的研究,最近的工作也表明sgg技术在更广泛的领域中有着潜在的应用前景。
2、场景图生成的核心问题之一是如何对目标之间的关系特征建模,领域内最开始使用联合区域的视觉特征来表示关系的特征,仅仅使用视觉特征来建模关系特征。之后开始探索对物体空间分布的对关系建模,空间分布不仅可以反映物体之间的位置关系,还可以描述物体之间的结构信息。利用区域的属性来描述物体的空间分布,其中包括位置关系、大小关系、距离关系和形状关系。当然受到人们语言习惯的影响,语义先验对关系的分布具有很大影响,目前的方法对于语义特征的引入也十分常见。
3、虽然已经引入了多种模态特征构建关系的特征,然而对于如何去细化这些信息也是也是关系建模的一个重要挑战。领域内提出了很多方法来细化关系特征
...【技术保护点】
1.一种场景图生成方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种场景图生成方法,其特征在于,所述S1具体为:
3.根据权利要求2所述的一种场景图生成方法,其特征在于,所述S1中的卷积神经网络包括VGG和ResNet。
4.根据权利要求1所述的一种场景图生成方法,其特征在于,所述S2中,感兴趣池化层根据目标区域分别提取出目标的视觉特征和视觉关系特征,根据边界框的位置信息形成目标之间的空间关系特征,具体包括以下子步骤:
5.根据权利要求1所述的一种场景图生成方法,其特征在于,所述步骤S3具体为:
6
...【技术特征摘要】
1.一种场景图生成方法,其特征在于,该方法包括:
2.根据权利要求1所述的一种场景图生成方法,其特征在于,所述s1具体为:
3.根据权利要求2所述的一种场景图生成方法,其特征在于,所述s1中的卷积神经网络包括vgg和resnet。
4.根据权利要求1所述的一种场景图生成方法,其特征在于,所述s2中,感兴趣池化层根据目标区域分别提取出目标的视觉特征和视觉关系特征,根据边界框的位置信息形成目标之间的空间关系特征,具体包括以下子步骤:
5.根据权利要求1所述的一种场景图生成方法,其特征在于,所述步骤s3具体为:
6.根据权利要求5所述的一种场景图生成方法,其特征在于,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。