视频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35061913 阅读：30 留言：0更新日期：2022-09-28 11:16

本申请实施例提供了一种视频处理方法、装置、电子设备及计算机可读存储介质，涉及人工智能及音视频处理技术领域。该方法包括：对目标视频中的至少部分视频帧，获得第一图像集、第二图像集以及参考视频帧集；确定属于同一个目标对象的第一图像和第二图像的对应关系；获得至少一个第一图像簇和第二图像簇，并对每个第一图像簇设置对象标签；对于每个第二图像簇，根据第二图像簇中匹配图像对应的第一图像的对象标签，确定第二图像簇的对象标签；从目标视频中确定各个对象标签对应的目标视频片段。本申请实施例在第一部位不可见时，第二部位提供了额外的指导信息，提高了获得任务集锦的准确率和召回率。的准确率和召回率。的准确率和召回率。

全部详细技术资料下载

【技术实现步骤摘要】
视频处理方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能及音视频处理
，具体而言，本申请涉及一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]人物集锦可应用于检索、推荐和二次制作等应用领域，在广播电视、网络视听等行业得到广泛应用。
[0003]相关技术多利用人脸的单模态特征来进行判断，这是因为在深度学习技术的加持下，人脸检测、人脸特征提取和人脸分类/聚类等人脸视觉分析领域取得了长足的进步，某些场景下的准召率甚至能超越人工标注的表现。
[0004]然而，在实际应用中，视频里的人物存在各种各样的姿态、光照和变形情况，一旦出现人脸被遮挡、人物背对镜头、人物低头等情况，人脸检测就会失败，从而导致漏检的情况。

技术实现思路

[0005]本申请实施例提供了一种视频处理的方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可以解决现有技术的上述问题。技术方案如下：
[0006]根据本申请实施例的一个方面，提供了一种视频处理方法，该方法包括：
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法，其特征在于，包括：对目标视频中的至少部分视频帧，进行目标对象的第一部位和第二部位的检测，获得第一图像集、第二图像集以及参考视频帧集；所述第一图像集中的每个第一图像为一个视频帧中一个目标对象的第一部位的子区域；所述第二图像集中的每个第二图像为一个视频帧中一个目标对象的第二部位的子区域；所述参考视频帧集中的每个参考视频帧同时存在至少一个第一图像和至少一个第二图像；对于每个所述参考视频帧，确定属于同一个目标对象的第一图像和第二图像的对应关系；对所述第一图像集中的图像进行聚类，获得至少一个第一图像簇，对所述第二图像集的图像进行聚类，获得至少一个第二图像簇，并对每个所述第一图像簇设置对象标签；对于每个所述第二图像簇，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，确定所述第二图像簇的对象标签；所述匹配图像为所述第二图像簇中具有所述对应关系的第二图像；根据各个第一图像簇和已确定对象标签的第二图像簇对应的对象标签，从所述目标视频中确定各个对象标签对应的目标视频片段。2.根据权利要求1所述的方法，其特征在于，还包括：以人物为单元将所述目标视频对应的音频切分为多个音频片段，对所述多个音频片段进行聚类，获得至少一个音频片段簇；对于每个音频片段簇，确定所述音频片段簇与各个待匹配图像簇的匹配程度，所述待匹配图像簇包括所述第一图像簇或第二图像簇中的至少一个图像簇；对于每个第二图像簇，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，确定所述第二图像簇的对象标签，包括：对于每个第二图像簇，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，以及所述第二图像簇与各个音频片段簇的匹配程度，确定所述第二图像簇的对象标签。3.根据权利要求1所述的方法，其特征在于，所述对目标视频中的部分视频帧，进行目标对象的第一部位和第二部位的检测，之前还包括：以镜头为单元将所述目标视频切分为多个视频片段，从每个所述视频片段中确定预设数目的视频帧，作为所述至少部分视频帧；所述从所述目标视频中确定各个对象标签对应的目标视频片段，包括：对于每个对象标签，将具有所述对象标签的第一图像簇以及第二图像簇均作为目标图像簇，将所述目标图像簇中每个图像所对应的视频片段作为所述对象标签对应的目标视频片段。4.根据权利要求1
‑
3任意一项所述的方法，其特征在于，所述根据所述第二图像簇中匹配图像对应的第一图像的对象标签，确定所述第二图像簇的对象标签，包括：若所述第二图像簇中的所述匹配图像的数量以及所述匹配图像对应的第一图像的对象标签的离散程度符合第一预设条件，则将所有所述匹配图像的对象标签中最多数量的对象标签，作为所述第二图像簇的对象标签。5.根据权利要求4所述的方法，其特征在于，根据所述第二图像簇中匹配图像对应的第一图像的对象标签，以及每个音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二
图像簇的对象标签，包括：若所述第二图像簇中匹配图像的数量或所述匹配图像对应的第一图像的对象标签的离散程度中的至少一项不符合所述第一预设条件，则根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签。6.根据权利要求5所述的方法，其特征在于，所述根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签，包括：若所述第二图像簇和一个第一图像簇均与同一个音频片段簇的匹配程度符合第二预设条件，则将所述一个第一图像簇对应的对象标签，作为所述第二图像簇对应的对象标签。7.根据权利要求5所述的方法，其特征在于，所述根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签，之前还包括：对于所述第二图像簇中的每个匹配图像，确定所述匹配图像对应的第一图像的目标对象标签，将所述匹配图像移动至具有所述目标对象标签的目标第二图像簇中。8.根据权利要求6所述的方法，其特征在于，所述根据每个所述音频片段簇与各个待匹配图像簇的匹配程度，确定所述第二图像簇的对象标签，包括：若所述第二图像簇与所有音频片段簇的匹配程度均不符合第二预设条件，则对于所述第二图像簇中的每个非匹配图像，确定所述非匹配图像与各个第二图像簇的簇中心的相似度，若最大相似度与次大相似度的差值大于预设阈值，则将所述非匹配图像移动至最大相似度的第二图像簇；其中，所述非匹配图像为所述第二图像簇中不具有所述对应关系的第二图像。9.根据权利要求3所述的方法，其特征在于，所述以镜头为单元将目标视频切分为多个视频片段，包括：通过预先训练的镜头分割模型预测每一视频帧的切分置信度；通过滑动窗口统计多个视频帧内切分置信度高于切分阈值的视频帧的数量，若所述数量超过预设值，则将所述滑动窗口中切分置信度最高的视...

【专利技术属性】
技术研发人员：舒秀军，许良晟，谯睿智，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人