【技术实现步骤摘要】
本专利技术属于计算机视觉和人工智能,涉及一种人-物交互关系识别方法及系统。
技术介绍
1、人-物交互关系识别技术是计算机理解复杂场景下图像和视频内容的基础,具有高价值的实际应用意义,被广泛使用在人机交互、公共安全、智能驾驶、信息检索以及服务型机器人等领域,成为当前计算机视觉研究的前沿领域之一。
2、随着计算机技术的不断突破发展、基于卷积神经网络、transformer网络的深度学习模型使人工智能系统可以更好地理解图像、视频等媒体中的人-物交互过程。但是,不同于按照一定标准预先构建的数据集,真实世界中的人-物交互关系数据长尾效应显著,占总体比例较小的交互关系种类众多,累积起来的总量超过主流交互关系。
3、此情况下,模型在训练中会朝着人-物交互关系对数量多的场景优化,导致稀疏的人-物交互关系漏检或错误的预测,严重制约了模型准确度的提升。因此,如何提升人-物交互关系识别在具有长尾效应数据上的性能具有重要的研究和应用价值。此外,如果模型直接预测输出而不经过任何的后处理或过滤手段,那么得到的是特定对人-物实例和相对于的交互
...【技术保护点】
1.一种人-物交互关系识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种人-物交互关系识别方法,其特征在于,所述人-物交互关系识别模型,采用Transform网络架构构建,包含三个功能不同的模块:第一个模块用于图像特征的初步提取和位置编码向量的生成;第二个模块用于图像全局信息获取,由Transformer编码器和全局上下文记忆功能模块组成;第三个模块用于网络解码过程,由Transformer解码器和四个预测头组成。
3.根据权利要求1所述的一种人-物交互关系识别方法,其特征在于,所述根据图像数据集中不同类别样本的数量确定引入的动
...【技术特征摘要】
1.一种人-物交互关系识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种人-物交互关系识别方法,其特征在于,所述人-物交互关系识别模型,采用transform网络架构构建,包含三个功能不同的模块:第一个模块用于图像特征的初步提取和位置编码向量的生成;第二个模块用于图像全局信息获取,由transformer编码器和全局上下文记忆功能模块组成;第三个模块用于网络解码过程,由transformer解码器和四个预测头组成。
3.根据权利要求1所述的一种人-物交互关系识别方法,其特征在于,所述根据图像数据集中不同类别样本的数量确定引入的动态权重,具体为:
4.根据权利要求3所述的一种人-物交互关系识别方法,其特征在于,所述利用带有动态权重的人-物交互关系识别模型对人和物的特征进行处理,包括:
5.根据权利要求4所述的一种人-物交互关系识别方法,其特征在于,所述静...
【专利技术属性】
技术研发人员:宗恒山,张凤娟,王鑫,蒲洪波,杨晖,白杨,刘奕昆,王浩,王星宇,
申请(专利权)人:中国航天系统科学与工程研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。