样本构建、视频处理、模型训练方法、装置、设备及介质制造方法及图纸

技术编号:43567363 阅读:16 留言:0更新日期:2024-12-06 17:37
本发明专利技术公开了一种样本构建、视频处理、模型训练方法、装置、设备及介质。获取视频文件对应的图像字幕组合,对视频文件进行分割,得到包括至少一个单位分段的视频片段,基于目标单位分段的分段标识生成目标图像字幕组合的层次标记信息,基于视频片段和目标图像字幕组合的层次标记信息,构建数据集样本。通过生成目标图像字幕组合的层次标记信息,可以丰富数据集样本的标注,通过构建的数据样本集可以更好地确定视频片段的视觉叙事结构,从而对视频片段进行整体内容理解。

【技术实现步骤摘要】

本专利技术涉及视频理解,尤其涉及一种样本构建、视频处理、模型训练方法、装置、设备及介质,本专利技术可以用于视频搜索、智能家居、在线教育等领域。


技术介绍

1、视频理解是当前计算机视觉研究领域中备受学术界和工业界关注的方向。随着视频行业的高速发展,如何利用人工智能技术更好地对视频内容进行理解变得越来越重要。

2、相关技术中,已经出现用于训练视频理解模型的视频动作识别数据集,比如movienet数据集。movienet包括来自1100部电影的1.1百万个视频片段,涵盖了各种流派和语言。然而,相关技术中的数据集的标注信息有待完善。


技术实现思路

1、本说明书实施方式旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本说明书实施方式提出一种样本构建、视频处理、模型训练方法、装置、设备及介质。

2、本说明书实施方式提供一种数据集样本构建方法,所述方法包括:

3、获取视频文件对应的图像字幕组合;其中,所述视频文件划分为若干单位分段;所述图像字幕组合是基于所述视频文件中的图像帧和/本文档来自技高网...

【技术保护点】

1.一种数据集样本构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述单位分段为场景,所述目标图像字幕组合包括的目标图像帧所属的单位分段为目标场景;所述基于所述目标单位分段的分段标识生成所述目标图像字幕组合的层次标记信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述单位分段为分镜,所述目标图像字幕组合包括的目标图像帧所属的单位分段为目标分镜;所述基于所述目标单位分段的分段标识生成所述目标图像字幕组合的层次标记信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述单位分段包括场景和分镜,所述目标图像字幕组合...

【技术特征摘要】

1.一种数据集样本构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述单位分段为场景,所述目标图像字幕组合包括的目标图像帧所属的单位分段为目标场景;所述基于所述目标单位分段的分段标识生成所述目标图像字幕组合的层次标记信息,包括:

3.根据权利要求1所述的方法,其特征在于,所述单位分段为分镜,所述目标图像字幕组合包括的目标图像帧所属的单位分段为目标分镜;所述基于所述目标单位分段的分段标识生成所述目标图像字幕组合的层次标记信息,包括:

4.根据权利要求1所述的方法,其特征在于,所述单位分段包括场景和分镜,所述目标图像字幕组合包括的目标图像帧所属的分镜为目标分镜,所述目标分镜所属的场景为目标场景;所述基于所述目标单位分段的分段标识生成所述目标图像字幕组合的层次标记信息,包括:

5.根据权利要求1所述的方法,其特征在于,所述视频文件包括第一场景,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述视频文件包括与所述第一场景相邻的第二场景;所述基于所述被划分分镜的分镜边界帧、所述第一场景的初始场景边界帧进行边界对齐处理,得到所述第一场景的目标场景边界帧;

7.根据权利要求6所述的方法,其特征在于,所述第一场景早于所述第二场景,若所述目标匹配场景为第一场景,设置所述被划分分镜的尾部分镜边界帧为所述第一场景的尾部场景边界帧,其中,所述第一场景的尾部场景边界帧为所述目标场景边界帧;或者

8.根据权利要求1所述的方法,其特征在于,所述基于所述目标单位分段的分段标识生成所述目标图像字幕组合的层次标记信息,包括以下情形中的至少一个:

9...

【专利技术属性】
技术研发人员:郑子隆汪江汇汪宇轩
申请(专利权)人:北京通用人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1