基于聚类的关键帧识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40551521 阅读：7 留言：0更新日期：2024-03-05 19:10

本申请提供了一种基于聚类的关键帧识别方法、装置、设备及介质，包括：获取待处理视频的每一视频帧在多个视角下的特征数据；根据多个视角下的特征数据，确定每一视频帧的统一稀疏表达；确定并剔除统一稀疏表达中的不合理项，获得每一视频帧的后处理稀疏表达；对后处理稀疏表达进行谱聚类分析，确定至少一个聚类中心及后处理稀疏表达与聚类中心的距离；基于距离由小到大的顺序，对后处理稀疏表达进行采样，将所采样的后处理稀疏表达对应的视频帧确定为待处理视频的关键帧。这样，基于与聚类中心的距离，分别对每个聚类中心附近的视频帧进行采样，确定的关键帧可以尽可能覆盖不同的类别，不会减少待处理视频表达的信息量，从而避免关键帧的丢失。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，特别是涉及一种基于聚类的关键帧识别方法、装置、电子设备及存储介质。

技术介绍

1、视频尤其是高清视频往往数据量较大且存在较大的数据冗余。例如，在地铁场景中，如果需要识别监控视频中的儿童或者行李箱，仅需要在单帧或者少数几帧识别出儿童或者行李箱即可，而不需要对大量的冗余的所有视频帧进行检测识别。

2、现有技术中，可以通过均匀采样的方式，按照相同的间隔抽取视频帧作为关键帧，并将其余视频帧作为无效帧进行去除，从而减少视频中的数据冗余，以提升后续检测识别的效率并节省存储空间。

3、但是，一些情况下，含有有效信息的视频帧仅仅在视频中的短时间内存在，上述方法按照相同的间隔抽取关键帧，将不可避免导致关键帧的丢失，进而减少视频表达的信息量，使得后续检测识别的准确性降低。

技术实现思路

1、为解决上述技术问题，本申请示出了一种基于聚类的关键帧识别方法、装置、电子设备及存储介质。

2、第一方面，本申请示出了一种基于聚类的关键帧识别方法，所述方法包括：

3、获取待处理视频的每一视频帧在多个视角下的特征数据；

4、根据所述多个视角下的特征数据，确定每一视频帧的统一稀疏表达；

5、确定并剔除所述统一稀疏表达中的不合理项，获得每一视频帧的后处理稀疏表达；

6、对所述后处理稀疏表达进行谱聚类分析，确定至少一个聚类中心及所述后处理稀疏表达与所述聚类中心的距离；

7、基于所述距离由小到大的顺序，对所述后

8、可选地，所述获取待处理视频的每一视频帧在多个视角下的特征数据，包括：

9、获取待处理视频；所述待处理视频包括多个视频帧；

10、识别每一视频帧的底层视觉特征、尺度不变特征变换特征、图像全局特征以及卷积神经网络特征，分别作为每一视频帧在每个视角下的特征数据。

11、可选地，所述根据所述多个视角下的特征数据，确定每一视频帧的统一稀疏表达，包括：

12、针对每一视角，根据每一视频帧在该视角下的特征数据，构建每一视频帧的优化目标函数；所述优化目标函数中包括稀疏表达变量；

13、采用交替优化算法，对所述优化目标函数进行收敛，确定所述优化目标函数收敛时所述稀疏表达变量的取值，作为每一视频帧在每一视角下的稀疏表达；

14、根据每一视频帧在多个视角下的稀疏表达，确定每一视频帧的统一稀疏表达。

15、可选地，在包括三个视角的情况下，针对每一视频帧，所述优化目标函数表示为：

16、

17、其中，所述xk为该视频帧在k视角下的特征数据，所述uk为该视频帧在k视角下的稀疏表达变量，所述ek为该视频帧在k视角下的噪声变量，所述||uk||1为所述uk的l1范数，所述||ek||1为所述ek的l1范数，所述为u1、u2及u3的第j列串接拼接获得的矩阵，所述为所述的l21范数，所述α、所述β及所述γ分别为第一预设系数、第二预设系数及第三预设系数，所述min为取最小值运算。

18、可选地，所述采用交替优化算法，对所述优化目标函数进行收敛，确定所述优化目标函数收敛时所述稀疏表达变量的取值，作为每一视频帧在每一视角下的稀疏表达，包括：

19、采用如下公式，交替对所述优化目标函数进行迭代优化：

20、

21、

22、其中，所述p为预设第一对角矩阵，所述p的对角线元素为：所述pll为所述p的第l行第l列，所述为所述uk的第l行第j列；所述q为预设第二对角矩阵，所述q的对角元素为所述qll为所述q的第l行第l列，所述所述及所述分别为u1、u2及u3的第l行第j列；所述s为预设第三对角矩阵，所述s的对角线元素为：所述sll为所述s的第l行第l列，所述为所述ek的第l行第j列，所述i为单位对角矩阵，所述ε为平滑项；所述为所述xk的转置矩阵，所述为所述xk的第j列，所述为所述ek的第j列，所述为所述uk的第j列；

23、在满足如下公式的情况下，判定所述优化目标函数收敛：

24、max|(uk)t+1-(uk)t|<10-4

25、其中，所述t+1与所述t分别为下一次与当前次迭代优化，所述max为取最大值运算；

26、将所述(uk)t作为该视频帧在k视角下的稀疏表达变量uk的取值。

27、可选地，采用如下公式，根据每一视频帧在多个视角下的稀疏表达，确定每一视频帧的统一稀疏表达：

28、

29、其中，所述uij为该视频帧的统一稀疏表达的第i行第j列，所述为所述uk的第i行第j列，为的l2范数。

30、可选地，所述确定并剔除所述统一稀疏表达中的不合理项，获得每一视频帧的后处理稀疏表达，包括：

31、针对所述统一稀疏表达的每一列，将在预设目标行数之前和之后的预设阈值行作为候选行，将所述候选行之外的其他位置的非零值设置为0，获得每一视频帧的后处理稀疏表达。

32、可选地，所述对所述后处理稀疏表达进行谱聚类分析，确定至少一个聚类中心及所述后处理稀疏表达与所述聚类中心的距离，包括：

33、计算所述后处理稀疏表达的相似度矩阵；

34、对所述相似度矩阵进行谱聚类分析，确定至少一个聚类中心及所述后处理稀疏表达与所述聚类中心的距离。

35、可选地，采用如下公式，计算所述后处理稀疏表达的相似度矩阵：

36、

37、其中，所述u为所述后处理稀疏表达，所述ut为所述u的转置矩阵，所述u′为所述后处理稀疏表达的相似度矩阵。

38、可选地，所述对所述后处理稀疏表达进行谱聚类分析，确定至少一个聚类中心及所述后处理稀疏表达与所述聚类中心的距离，包括：

39、对所述后处理稀疏表达进行谱聚类分析，确定预设聚类数目个聚类中心及所述后处理稀疏表达与所述聚类中心的距离；或，

40、对所述后处理稀疏表达进行谱聚类分析，直至聚类结果符合预设轮廓系数条件，确定至少一个聚类中心及所述后处理稀疏表达与所述聚类中心的距离。

41、可选地，所述基于所述距离由小到大的顺序，对所述后处理稀疏表达进行采样，包括：

42、针对每个聚类中心，按照与该聚类中心的距离由小到大的顺序，采样预设数量或预设比例的所述后处理稀疏表达。

43、第二方面，本申请示出了一种基于聚类的关键帧识别装置，所述装置包括：

44、获取模块，用于获取待处理视频的每一视频帧在多个视角下的特征数据；

45、确定模块，用于根据所述多个视角下的特征数据，确定每一视频帧的统一稀疏表达；

46、后处理模块，用于确定并剔除所述统一稀疏表达中的不合理项，获得每一视频帧的后处理稀疏表达；

47、聚类模块，用于对所述后处理稀本文档来自技高网...

【技术保护点】

1.一种基于聚类的关键帧识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频的每一视频帧在多个视角下的特征数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个视角下的特征数据，确定每一视频帧的统一稀疏表达，包括：

4.根据权利要求3所述的方法，其特征在于，在包括三个视角的情况下，针对每一视频帧，所述优化目标函数表示为：

5.根据权利要求4所述的方法，其特征在于，所述采用交替优化算法，对所述优化目标函数进行收敛，确定所述优化目标函数收敛时所述稀疏表达变量的取值，作为每一视频帧在每一视角下的稀疏表达，包括：

6.根据权利要求5所述的方法，其特征在于，采用如下公式，根据每一视频帧在多个视角下的稀疏表达，确定每一视频帧的统一稀疏表达：

7.根据权利要求1所述的方法，其特征在于，所述确定并剔除所述统一稀疏表达中的不合理项，获得每一视频帧的后处理稀疏表达，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述后处理稀疏表达进行谱聚类分析，

9.根据权利要求8所述的方法，其特征在于，采用如下公式，计算所述后处理稀疏表达的相似度矩阵：

10.根据权利要求1所述的方法，其特征在于，所述对所述后处理稀疏表达进行谱聚类分析，确定至少一个聚类中心及所述后处理稀疏表达与所述聚类中心的距离，包括：

11.根据权利要求1所述的方法，其特征在于，所述基于所述距离由小到大的顺序，对所述后处理稀疏表达进行采样，包括：

12.一种基于聚类的关键帧识别装置，其特征在于，所述装置包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至11中任一项所述的基于聚类的关键帧识别方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的基于聚类的关键帧识别方法的步骤。

...

【技术特征摘要】

1.一种基于聚类的关键帧识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待处理视频的每一视频帧在多个视角下的特征数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述多个视角下的特征数据，确定每一视频帧的统一稀疏表达，包括：

4.根据权利要求3所述的方法，其特征在于，在包括三个视角的情况下，针对每一视频帧，所述优化目标函数表示为：

6.根据权利要求5所述的方法，其特征在于，采用如下公式，根据每一视频帧在多个视角下的稀疏表达，确定每一视频帧的统一稀疏表达：

7.根据权利要求1所述的方法，其特征在于，所述确定并剔除所述统一稀疏表达中的不合理项，获得每一视频帧的后处理稀疏表达，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述后处...

【专利技术属性】
技术研发人员：李辉，孙方，梁樑，方志伟，林飞，高翔，宣晶，宋继峰，张侃，石旭，李天宇，姚世严，郑剑飞，吕晓丰，
申请(专利权)人：北京轨道交通路网管理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人