视频处理的方法、装置和存储介质制造方法及图纸

技术编号:24331792 阅读:24 留言:0更新日期:2020-05-29 19:57
本发明专利技术涉及视频处理方法、装置和存储介质。该方法包括:获取待处理视频和目标人体区域;检测待处理视频中的多个人体区域;将多个人体区域输入经训练的特征提取网络,得到分别描述多个人体区域的多个第一特征,和将目标人体区域输入经训练的特征提取网络,得到描述目标人体区域的第二特征;将多个第一特征分别与第二特征进行比较,得到与第二特征相匹配的至少一个第一匹配特征;确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点;基于各个时间点处理待处理视频以获取与目标对象关联的视频部分。特征提取网络是使用基于人体区域样本集合构建的数据集训练的,且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。

Methods, devices and storage media of video processing

【技术实现步骤摘要】
视频处理的方法、装置和存储介质
本专利技术涉及深度学习和计算机视觉的
,具体涉及视频处理方法、装置和存储介质。
技术介绍
随着多媒体技术的发展,各种图像及音视频为人们的生活增添了诸多乐趣。人们在观看视频文件时,通常会选择自己感兴趣片段进行观看。目前的视频片段剪辑大体上基于某些特定类别或特定场景进行剪辑,比如基于体育视频和游戏视频中的特定镜头或文字提示(例如,体育视频中的进球、射门,游戏视频中的绝杀、五杀等)来判断是否是精彩镜头,进而对视频进行剪辑。人们还希望在一段视频中仅观看关于特定人物的段落。在这种情况下,相关技术通常通过人脸识别来判断视频画面中的人物以完成针对该特定任务的剪辑。
技术实现思路
在通过人脸识别来识别包含特定人物的视频片段的技术方案中,在某些情况下无法识别或者无法准确识别包含特定人物的视频片段,例如当特定人物的面部不清晰、不完整,人物展现为侧面、背面以及人物动作幅度较大(例如,打斗)等的时候,基于人脸识别来剪辑特定人物片段效果较差。本专利技术的实施例至少部分地解决上面提及的问题。根据本专利技术的一方面,提出了一种视频处理方法。该方法包括:获取待处理视频和表示目标对象的目标人体区域;检测待处理视频中的多个人体区域;将多个人体区域输入经训练的特征提取网络,得到分别描述多个人体区域的多个第一特征,和将目标人体区域输入经训练的特征提取网络,得到描述目标人体区域的第二特征;将多个第一特征分别与第二特征进行比较,得到与第二特征相匹配的第一特征中的至少一个第一匹配特征;确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点;基于各个时间点处理待处理视频以获取与目标对象关联的视频部分;其中,特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的,且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。在一些实施例中,数据集通过下述步骤构建:获取用于特征提取网络的训练视频;按照视频拍摄镜头将训练视频划分为多个训练视频分段;针对多个训练视频分段中的每一个训练视频分段,创建训练视频分段的一个或多个人体区域样本集合;确定一个或多个人体区域样本集合中是否包含人脸;响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。在一些实施例中,针对多个训练视频分段中的每一个训练视频分段,创建训练视频分段的一个或多个人体区域样本集合包括:针对多个训练视频分段中的每一个训练视频分段,每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧,检测多个视频帧中的人体区域;判断所检测到的两个或更多个人体区域之间的相似度;将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成训练视频分段的一个或多个人体区域样本集合。在一些实施例中,响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括:响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,从各个人体区域样本集合中分别选取相同预定数量的人脸;对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较;将人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。在一些实施例中,数据集还通过下述步骤构建:利用行人重识别ReID确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域;从人体区域样本集合中去除人体区域相似度低于第二预定阈值的人体区域。在一些实施例中,判断所检测到的两个或更多个人体区域之间的相似度包括:基于人工特征判断所检测到的两个或更多个人体区域之间的相似度。在一些实施例中,待处理视频中的多个人体区域是通过单次多边框检测器检测的。在一些实施例中,基于各个时间点处理待处理视频以获取与目标对象关联的视频部分包括:基于各个时间点的时间戳对待处理视频进行拼接以获取与目标对象关联的视频部分。根据本专利技术的另一方面,提出了一种用于构建数据集的方法,数据集用于训练特征提取网络。该方法包括:获取用于特征提取网络的训练视频;按照视频拍摄镜头将训练视频划分为多个训练视频分段;针对多个训练视频分段中的每一个训练视频分段,创建训练视频分段的一个或多个人体区域样本集合;确定一个或多个人体区域样本集合中是否包含人脸;响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。在一些实施例中,针对多个训练视频分段中的每一个训练视频分段,创建训练视频分段的一个或多个人体区域样本集合包括:针对多个训练视频分段中的每一个训练视频分段,每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧,检测多个视频帧中的人体区域;判断所检测到的两个或更多个人体区域之间的相似度;将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成训练视频分段的一个或多个人体区域样本集合。在一些实施例中,响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括:响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,从各个人体区域样本集合中分别选取相同预定数量的人脸;对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较;将人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。在一些实施例中,数据集还通过下述步骤构建:利用行人重识别ReID确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域;从人体区域样本集合中去除人体区域相似度低于第二预定阈值的人体区域。根据本专利技术的另一方面,提出了一种特征提取网络的训练方法,包括:获取用于特征提取网络的训练视频,基于所获取的训练视频,使用如前述方面的构建数据集的方法来构造训练数据集,使用数据集来训练特征提取网络以提取描述人体区域的特征。根据本专利技术的另一方面,提出了一种视频处理装置。该装置包括:获取模块、人体检测模块、特征提取模块、比较模块、时间点确定模块和视频处理模块。获取模块被配置成获取待处理视频和表示目标对象的目标人体区域。人体检测模块被配置成检测待处理视频中的多个人体区域。特征提取模块被配置成将多个人体区域输入经训练的特征提取网络,得到分别描述多个人体区域的多个第一特征,和将目标人体区域输入经训练的特征提取网络,得到描述目标人体区域的第二特征,其中,特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的,且人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。比较模块被配置成将多个第一特征分别与第二特征进行比较,得到与第二特征相匹配的第一特征中的至少一个第一匹配特征。时间点确定模块被配置成确定至少一个第一匹配特征在待处理视频中的所对应的各个时间点。视频处理模块被配置成基于各个时间点处理待处理视频以获取与目标对象关联的视频部分。根据本专利技术的另一方面,提出了一种数据集的构建装置,数本文档来自技高网...

【技术保护点】
1.一种视频处理方法,所述方法包括:/n获取待处理视频和表示目标对象的目标人体区域;/n检测所述待处理视频中的多个人体区域;/n将所述多个人体区域输入经训练的特征提取网络,得到分别描述所述多个人体区域的多个第一特征,和将所述目标人体区域输入所述经训练的特征提取网络,得到描述所述目标人体区域的第二特征;/n将所述多个第一特征分别与所述第二特征进行比较,得到与所述第二特征相匹配的所述第一特征中的至少一个第一匹配特征;/n确定所述至少一个第一匹配特征在所述待处理视频中的所对应的各个时间点;/n基于所述各个时间点处理所述待处理视频以获取与所述目标对象关联的视频部分;/n其中,所述特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的,且所述人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。/n

【技术特征摘要】
1.一种视频处理方法,所述方法包括:
获取待处理视频和表示目标对象的目标人体区域;
检测所述待处理视频中的多个人体区域;
将所述多个人体区域输入经训练的特征提取网络,得到分别描述所述多个人体区域的多个第一特征,和将所述目标人体区域输入所述经训练的特征提取网络,得到描述所述目标人体区域的第二特征;
将所述多个第一特征分别与所述第二特征进行比较,得到与所述第二特征相匹配的所述第一特征中的至少一个第一匹配特征;
确定所述至少一个第一匹配特征在所述待处理视频中的所对应的各个时间点;
基于所述各个时间点处理所述待处理视频以获取与所述目标对象关联的视频部分;
其中,所述特征提取网络是使用基于人体区域样本集合构建的数据集进行训练的,且所述人体区域样本集合是针对按照视频拍摄镜头划分的多个视频分段分别生成的。


2.如权利要求1所述的视频处理方法,其中所述数据集通过下述步骤构建:
获取用于所述特征提取网络的训练视频;
按照视频拍摄镜头将所述训练视频划分为多个训练视频分段;
针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合;
确定一个或多个所述人体区域样本集合中是否包含人脸;
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。


3.如权利要求2所述的视频处理方法,所述针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合包括:
针对所述多个训练视频分段中的每一个训练视频分段,所述每一个训练视频分段包含属于相同视频拍摄镜头的多个视频帧,检测所述多个视频帧中的人体区域;
判断所检测到的两个或更多个人体区域之间的相似度;
将相似度满足预定阈值范围的两个或更多个人体区域加入到相同的集合中以生成所述训练视频分段的一个或多个人体区域样本集合。


4.如权利要求2或3所述的视频处理方法,所述响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集包括:
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,从各个人体区域样本集合中分别选取相同预定数量的人脸;
对从各个人体区域样本集合中所选取的人脸进行人脸相似度比较;
将所述人脸相似度高于第一预定阈值的人体区域样本集合进行合并以构建训练数据集。


5.如权利要求2所述的视频处理方法,所述数据集还通过下述步骤构建:
利用行人重识别ReID确定相同人体区域样本集合中的人体区域相似度低于预定阈值的人体区域;
从所述人体区域样本集合中去除所述人体区域相似度低于第二预定阈值的人体区域。


6.如权利要求3所述的视频处理方法,所述判断所检测到的两个或更多个人体区域之间的相似度包括:基于人工特征判断所检测到的两个或更多个人体区域之间的相似度。


7.一种用于构建数据集的方法,所述数据集用于训练特征提取网络,所述方法包括:
获取用于所述特征提取网络的训练视频;
按照视频拍摄镜头将所述训练视频划分为多个训练视频分段;
针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样本集合;
确定一个或多个所述人体区域样本集合中是否包含人脸;
响应于确定一个或多个人体区域样本集合中的各个人体区域中包含人脸,基于人脸的特征对一个或多个人体区域样本集合进行合并以构建训练数据集。


8.如权利要求7所述的用于构建数据集的方法,所述针对所述多个训练视频分段中的每一个训练视频分段,创建所述训练视频分段的一个或多个人体区域样...

【专利技术属性】
技术研发人员:吴韬徐叙远刘孟洋
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1