一种人-物交互关系识别方法及系统技术方案

技术编号：40904610 阅读：2 留言：0更新日期：2024-04-18 14:35

本发明专利技术涉及一种人‑物交互关系识别方法及系统，包括：获取包含人和物的图像数据集；从图像数据集中提取人和物的特征；建立人‑物交互关系识别模型，在构建模型损失函数时，根据图像数据集中不同类别样本的数量确定引入的动态权重；利用带有动态权重的人‑物交互关系识别模型对人和物的特征进行处理，得到人‑物交互关系识别结果；采用成对非极大值抑制过滤策略，去除人‑物交互关系识别分数低于阈值的结果和人‑物实例预测框重复度高的三元组。本发明专利技术可以有效解决现有人‑物交互关系识别中的长尾现象，使模型性能达到最佳，具有对长尾数据鲁棒、准确率高、抗干扰能力强等优点，可广泛应用于智能监控、虚拟现实等领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉和人工智能，涉及一种人-物交互关系识别方法及系统。

技术介绍

1、人-物交互关系识别技术是计算机理解复杂场景下图像和视频内容的基础，具有高价值的实际应用意义，被广泛使用在人机交互、公共安全、智能驾驶、信息检索以及服务型机器人等领域，成为当前计算机视觉研究的前沿领域之一。

2、随着计算机技术的不断突破发展、基于卷积神经网络、transformer网络的深度学习模型使人工智能系统可以更好地理解图像、视频等媒体中的人-物交互过程。但是，不同于按照一定标准预先构建的数据集，真实世界中的人-物交互关系数据长尾效应显著，占总体比例较小的交互关系种类众多，累积起来的总量超过主流交互关系。

3、此情况下，模型在训练中会朝着人-物交互关系对数量多的场景优化，导致稀疏的人-物交互关系漏检或错误的预测，严重制约了模型准确度的提升。因此，如何提升人-物交互关系识别在具有长尾效应数据上的性能具有重要的研究和应用价值。此外，如果模型直接预测输出而不经过任何的后处理或过滤手段，那么得到的是特定对人-物实例和相对于的交互关系类别。这些预测中存在大量人-物实例交互关系分数低以及人-物实例预测框重叠的hoi三元组，不利于模型总体的性能提升。

技术实现思路

1、本专利技术解决的技术问题是：克服现有技术的不足，提出一种人-物交互关系识别方法及系统，从复杂的图像和视频中提取关键特征，发现、定位和分类其中人-物实例对及其之间的交互关系，解决真实世界中人-物交互关系识别广泛存在的数据长尾问题。

2、本专利技术解决技术的方案是：第一方面，提出一种人-物交互关系识别方法，包括以下步骤：

3、获取包含人和物的图像数据集；

4、从图像数据集中提取人和物的特征；

5、建立人-物交互关系识别模型，在构建模型损失函数时，根据图像数据集中不同类别样本的数量确定引入的动态权重；

6、利用带有动态权重的人-物交互关系识别模型对人和物的特征进行处理，得到人-物交互关系识别结果；

7、采用成对非极大值抑制过滤策略，去除人-物交互关系识别分数低于阈值的结果和人-物实例预测框重复度高的三元组。

8、进一步的，所述人-物交互关系识别模型，采用transform网络架构构建，包含三个功能不同的模块：第一个模块用于图像特征的初步提取和位置编码向量的生成；第二个模块用于图像全局信息获取，由transformer编码器和全局上下文记忆功能模块组成；第三个模块用于网络解码过程，由transformer解码器和四个预测头组成。

9、进一步的，所述根据图像数据集中不同类别样本的数量确定引入的动态权重，具体为：

10、统计传入物体实例或关系正样本的数量；其中，物体实例是指图像数据集中的单个数据项，正样本是指符合要检测或识别标准的目标样本；

11、对于正样本，分别使用以下公式计算正样本中非零物体实例和关系类的权重，物体实例和交互关系类别为零的权重直接赋值0；

12、

13、

14、其中，在模型训练期间，在每次迭代中，采用两个队列qo和qa来累积每个物体实例和关系类的数量，和分别表示队列qo和qa累积的正样本类别i的数量，指数po和pa是适应缓解幅度的超参数，co和ca分别表示队列qo和qa中的物体类别数量，为队列qo中索引为i的正样本所分配的权重，为队列qa中索引为i的正样本所分配的权重；

15、物体实例和关系类的每个权重除以非零权重的均值得到新的权重；

16、对于背景类，如果数量是零，背景类的权重直接赋值0，否则分别使用以下公式计算背景类的权重；

17、

18、

19、其中，为队列qo中背景类别所分配的权重，为队列qa中背景类别所分配的权重，和分别表示累积的物体实例和关系实例在背景类中的数量；即为确定引入的动态权重。

20、进一步的，所述利用带有动态权重的人-物交互关系识别模型对人和物的特征进行处理，包括：

21、使用静态权重和动态权重加权的方法得到最终的权重w，如下所示：

22、w＝γwstatic+(1-γ)wdynamic

23、

24、其中，wdynamic表示引入的动态权重，wstatic表示静态权重，γ是平滑因子，用于调整动态权重和静态权重的比例，lq表示自定义的队列长度；

25、将权重w用于分类损失的传统方法，每个权重w乘以每个对应的类别，然后计算相应损失函数的值；

26、其中，在网络损失函数中采用focal loss损失函数，引入权重因子τ，使得调整后的focal loss损失函数更好的平衡正负样本，计算方式如下：

27、

28、其中，la是损失函数的计算结果，ai为图像数据集中人工标注的真实实例，为模型预测得到的相应结果，nq为<人、物体、关系类别>的实例对数量，lf()为focal loss函数，和分别表示属于正样本类别和背景类别的实例对，τ为权重因子。

29、进一步的，所述静态权重wstatic是根据正样本类别和背景类别中实例总数的比例预设确定，从开始训练时初始化到最终模型构建结束被释放的过程中保持不变。

30、进一步的，所述分类损失的传统方法，包括焦点损失或交叉熵损失任一种。

31、进一步的，所述成对非极大值抑制过滤策略，具体为：

32、s1、获取模型初步识别结果，包括人体边界框、物体边界框、关系类别、关系分数，以<人、物体、关系类别、关系分数>的实例对的形式存储；

33、s2、创建<人、物体、关系类别、关系分数>字典，以<人、物体、关系类别>作为字典的键，字典的值为前100个关系分数的索引；

34、s3、将模型初步识别结果中的关系分数按照降序排序；

35、s4、选取关系分数最高的<人、物体、关系类别>实例对添加到输出列表，并将其从最初创建的字典中删除；

36、s5、从新的字典中选取关系分数最高的<人、物体、关系类别>实例对，计算该实例对与输出列表中各<人、物体、关系类别>实例对的重叠程度piou值；

37、s6、如果重叠程度piou值大于预设的阈值，则将字典中的该<人、物体、关系类别>实例对删除，如果重叠程度piou值小于预设的阈值，则将字典中的该<人、物体、关系类别>实例对添加到输出列表，同时从字典中删除；

38、s7、重复步骤s5～s6，直到<人、物体、关系类别、关系分数>字典为空，得到最终的<人、物体、关系类别、关系分数>输出列表。

39、进一步的，所述重叠程度piou值的计算方法为：

40、

41、其中，m和n表示人-物实例对的索本文档来自技高网...

【技术保护点】

1.一种人-物交互关系识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种人-物交互关系识别方法，其特征在于，所述人-物交互关系识别模型，采用Transform网络架构构建，包含三个功能不同的模块：第一个模块用于图像特征的初步提取和位置编码向量的生成；第二个模块用于图像全局信息获取，由Transformer编码器和全局上下文记忆功能模块组成；第三个模块用于网络解码过程，由Transformer解码器和四个预测头组成。

3.根据权利要求1所述的一种人-物交互关系识别方法，其特征在于，所述根据图像数据集中不同类别样本的数量确定引入的动态权重，具体为：

4.根据权利要求3所述的一种人-物交互关系识别方法，其特征在于，所述利用带有动态权重的人-物交互关系识别模型对人和物的特征进行处理，包括：

5.根据权利要求4所述的一种人-物交互关系识别方法，其特征在于，所述静态权重wstatic是根据正样本类别和背景类别中实例总数的比例预设确定，从开始训练时初始化到最终模型构建结束被释放的过程中保持不变。

6.根据权利要求4所述

7.根据权利要求1所述的一种人-物交互关系识别方法，其特征在于，所述成对非极大值抑制过滤策略，具体为：

8.根据权利要求7所述的一种人-物交互关系识别方法，其特征在于，所述重叠程度PIoU值的计算方法为：

9.基于权利要求1～8任一项所述方法的一种人-物交互关系识别系统，其特征在于，包括图像采集模块、特征提取模块、权重计算模块和关系识别模块；

10.一种计算机可读存储介质，所述的计算机可读存储介质存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现如权利要求1～权利要求8任一所述方法的步骤。

...

【技术特征摘要】

1.一种人-物交互关系识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种人-物交互关系识别方法，其特征在于，所述人-物交互关系识别模型，采用transform网络架构构建，包含三个功能不同的模块：第一个模块用于图像特征的初步提取和位置编码向量的生成；第二个模块用于图像全局信息获取，由transformer编码器和全局上下文记忆功能模块组成；第三个模块用于网络解码过程，由transformer解码器和四个预测头组成。

3.根据权利要求1所述的一种人-物交互关系识别方法，其特征在于，所述根据图像数据集中不同类别样本的数量确定引入的动态权重，具体为：

4.根据权利要求3所述的一种人-物交互关系识别方法，其特征在于，所述利用带有动态权重的人-物交互关系识别模型对人和物的特征进行处理，包括：

5.根据权利要求4所述的一种人-物交互关系识别方法，其特征在于，所述静...

【专利技术属性】
技术研发人员：宗恒山，张凤娟，王鑫，蒲洪波，杨晖，白杨，刘奕昆，王浩，王星宇，
申请(专利权)人：中国航天系统科学与工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人