用于视频场景图生成的时间过渡正则化方法和系统技术方案

技术编号：41320891 阅读：5 留言：0更新日期：2024-05-13 15:00

本发明专利技术涉及计算机图像处理和机器学习领域，更具体，用于视频场景图生成的时间过渡正则化方法和系统，本发明专利技术创建以图像的类别和上下文为条件的转换矩阵，以捕获基于每个类别的统计相关性以及基于每个上下文图像的细粒度相关性，并以显式方式将这些相关性合并到当前的VidSGG算法中，以提供更强、更细粒度的正则化，本发明专利技术着重解决视频中时间相关性的建模和利用，以提升人工智能对视频内容语义分析性能，在高风险领域，如自动驾驶和医疗诊断中，本发明专利技术可以提供更准确的场景图生成，有助于提高决策的可信度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及本专利技术涉及视频场景图生成领域，更具体地，涉及用于视频场景图生成的时间过渡正则化方法和系统。

技术介绍

1、随着科学技术的不断进步，视频影像已经成为现代社会不可或缺的一部分。计算机视觉也逐渐为影像行业作出巨大贡献，包括自动驾驶、智能监控和工业检测等领域的物体识别与检测，如用户可以使用语义标签来精确搜索图像和视频。

2、在计算机视觉领域，场景图生成技术已经取得了显著的进展，在精确表示整体场景的视觉内容的语义作出了重要贡献，场景图生成的贡献包括提升语义分析性能和增强多媒体检索，场景图生成技术允许计算机更好地理解图像中的语义内容，通过将图像中的对象和关系表示为结构化数据，计算机可以更准确地推断图像中发生的事件和语义信息，对于图像分类、物体检测和场景分割等任务的性能提升至关重要；增强多媒体检索：场景图生成技术可以改进多媒体检索任务，使其更加智能化，例如，在图像数据库中搜索特定的场景或物体时，场景图生成可以提供更精确的匹配结果，从而提高了检索的准确性，尽管在静态图像方面取得了显着的进步，但当前领先的场景图生成算法在推理视频中的动态视觉关系时，性能显着下降，因为它还需要深入探索不同图像之间的时间一致性和过渡相关性，以解决为给定视频生成场景图的任务。

3、现有算法主要采用特征空间中的隐式学习来捕获这些相关性,且忽略了语义空间中交互的结构模式，因此只能为训练提供弱正则化，而且仅结合整个数据集中时间相关性的统计分布，而忽略了不同粒度之间时间转换的明显差异，因此，这些方法可能为尾部关系提供不准确的正则化，导致性能次佳。

技术实现思路

1、本专利技术为克服上述现有技术所述的当前的场景图生成算法在推理视频中的动态视觉关系时，性能显着下降的问题，提供用于视频场景图生成的时间过渡正则化方法和系统。

2、本专利技术旨在至少在一定程度上解决上述技术问题。

3、为解决上述技术问题，本专利技术的技术方案如下：

4、用于视频场景图生成的时间过渡正则化方法，包括以下步骤：

5、s1：获取视频；

6、s2：创建基于所述视频的时间转换矩阵；

7、s3：使用vidsgg算法预测视频中帧与帧之间的主客体关系；

8、s4：对时间转换矩阵和视频中帧的主客体关系进行正则化，得到正则化项，所述正则化项用于生成视频场景图。

9、步骤s2中，所述创建基于所述视频的时间转换矩阵包括创建特定类别的时间转换矩阵和创建特定图像的时间转换矩阵。

10、所述创建特定类别的时间转换矩阵，包括以下步骤：

11、s2.1：计算特定类别的上下文嵌入：

12、

13、式中，为所述视频中第帧中的第k个主客体对应的上下文嵌入，为第一全连接层，和为所述视频中第帧中第k个主客体对应的主体类别和客体类别，主客体包括主体和客体，主体为实施者，客体为被实施的对象，特定类别为特定的主客体类型；

14、s2.2：根据特定类别的上下文嵌入创建特定类别的时间转换矩阵：

15、

16、式中，为所述视频中第帧中的第k个主客体的特定类别的时间转换矩阵，为全连接层实现函数，为视频中第帧中的第k个主客体对应的上下文嵌入的关系特征。

17、还包括计算特定类别的时间转换矩阵的l2损失函数：

18、

19、式中，为所述视频中第帧中第k个主客体的先验特定类别的时间转换矩阵，为特定类别的时间转换矩阵的l2损失函数，为所述视频中第帧中所有的主客体，t为所述视频的所有帧数。

20、所述创建特定图像的时间转换矩阵，包括：

21、s2.11：生成特定图像的上下文嵌入：

22、

23、式中，为所述视频中第帧中特定图像的上下文嵌入，为第二全连接层，为第帧中的全局视觉表示，特定图像为特定的图像帧；

24、s2.12：根据特定图像的上下文嵌入构建特定图像的时间转换矩阵：

25、式中，为所述视频中第帧中的第k个主客体的特定图像的时间转换矩阵。

26、还包括计算特定图像的时间转换矩阵的l2损失函数：

27、

28、式中，为所述视频中第帧中的特定图像的第k个主客体的先验时间转换矩阵。

29、步骤s4，所述对时间转换矩阵和视频中帧的主客体关系进行正则化，得到的正则化项包括所述视频中第帧中的第k个主客体的关系分别与特定图像的时间转换矩阵和特定类别的时间转换矩阵进行正则化。

30、所述视频中第帧中的第k个主客体的关系和特定类别的时间转换矩阵进行正则化，包括：

31、

32、式中，为所述视频中第帧中的第k个主客体的关系，为正则化方法的损失函数。

33、所述视频中第帧中的第k个主客体的关系和特定图像的时间转换矩阵进行正则化，包括：

34、。

35、用于视频场景图生成的时间过渡正则化系统，应用于用于视频场景图生成的时间过渡正则化方法，包括：

36、视频获取模块，用于获取视频；

37、创建时间转换矩阵模块，用于创建基于所述视频的时间转换矩阵；

38、vidsgg算法预测模块，用于使用vidsgg算法预测视频帧的主客体关系；

39、正则化模块，用于对时间转换矩阵和视频中帧的主客体关系进行正则化，得到的正则化项，所述正则化项用于生成视频场景图。

40、与现有技术相比，本专利技术技术方案的有益效果是：

41、本专利技术创建以图像的类别和上下文为条件的时间转换矩阵，通过时间转换矩阵将捕获从一帧到下一帧的不同状态（或场景图中的节点）之间的转换概率，反映时间一致性和转换相关性，提升场景图生成在处理动态视觉关系的性能，对动态图像下一帧中的预测结果进行正则化，以提供强大且准确的时间正则化。

本文档来自技高网...

【技术保护点】

1.用于视频场景图生成的时间过渡正则化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，步骤S2中，所述创建基于所述视频的时间转换矩阵包括创建特定类别的时间转换矩阵和创建特定图像的时间转换矩阵。

3.根据权利要求2所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，所述创建特定类别的时间转换矩阵，包括以下步骤：

4.根据权利要求3所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，还包括计算特定类别的时间转换矩阵的L2损失函数：

5.根据权利要求3所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，所述创建特定图像的时间转换矩阵，包括：

6.根据权利要求5所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，还包括计算特定图像的时间转换矩阵的L2损失函数：

7.根据权利要求1所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，步骤S4，所述对时间转换矩阵和视频中帧的主客体关系进行正则化，得到的正则化项包括所述视频中第帧中的

8.根据权利要求7所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，所述视频中第帧中的第k个主客体的关系和特定类别的时间转换矩阵进行正则化，包括：

9.根据权利要求8所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，所述视频中第帧中的第k个主客体的关系和特定图像的时间转换矩阵进行正则化，包括：

10.用于视频场景图生成的时间过渡正则化系统，其特征在于，应用于如权利要求1至9任一项所述的用于视频场景图生成的时间过渡正则化方法，包括：

...

【技术特征摘要】

1.用于视频场景图生成的时间过渡正则化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，步骤s2中，所述创建基于所述视频的时间转换矩阵包括创建特定类别的时间转换矩阵和创建特定图像的时间转换矩阵。

3.根据权利要求2所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，所述创建特定类别的时间转换矩阵，包括以下步骤：

4.根据权利要求3所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，还包括计算特定类别的时间转换矩阵的l2损失函数：

5.根据权利要求3所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，所述创建特定图像的时间转换矩阵，包括：

6.根据权利要求5所述的用于视频场景图生成的时间过渡正则化方法，其特征在于，还包括计算特定图像的时间...

【专利技术属性】
技术研发人员：付晨博，陈添水，周锦诚，徐佳艺，杨骏哲，何耀宏，邓小慧，林泽滨，柯梓铭，杨志景，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人