用于标记视频片段的方法及装置制造方法及图纸

技术编号:19970866 阅读:22 留言:0更新日期:2019-01-03 16:31
本申请实施例公开了用于标记视频片段的方法及装置。该方法的一具体实施方式包括:从待标记视频中获取视频特征信息序列;将上述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于上述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息;响应于得到对应上述视频特征片段序列的标识信息序列,通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记。该实施方式提高了对视频片段标记的效率和准确性。

Method and device for marking video clips

The embodiment of this application discloses a method and device for marking video clips. One specific embodiment of the method includes: acquiring video feature information sequence from the video to be marked; grouping the adjacent set number of video feature information within the video feature information sequence to obtain the video feature fragment sequence; importing the video feature fragment into the pre-trained video marking model for the video feature fragment sequence, and obtaining the video feature fragment sequence. To the identification information corresponding to the video feature fragment, and in response to the identification information sequence corresponding to the above video feature fragment sequence, the video fragment of the video to be marked is marked by the identification information in the above identification information sequence. The embodiment improves the efficiency and accuracy of video clip marking.

【技术实现步骤摘要】
用于标记视频片段的方法及装置
本申请实施例涉及计算机
,具体涉及用于标记视频片段的方法及装置。
技术介绍
视频通常可以综合了图像信息和音频信息等信息,成为用户获取信息的重要信息载体。视频网站可以向用户提供海量的多种类型或内容的视频,使得用户通过视频同时获取到多种图像和音频等信息,提高了用户获取信息的有效性,有利于视频的传播。
技术实现思路
本申请实施例提出了用于标记视频片段的方法及装置。第一方面,本申请实施例提供了一种用于标记视频片段的方法,该方法包括:从待标记视频中获取视频特征信息序列,其中,上述视频特征信息用于表征上述待标记视频的图像特征和音频特征;将上述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于上述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息,上述视频标记模型用于匹配与视频特征片段对应的标识信息,标识信息用于表征视频特征片段处于事件的开始状态、中间状态或终止状态;响应于得到对应上述视频特征片段序列的标识信息序列,通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记。在一些实施例中,上述从待标记视频中获取视频特征信息序列,包括:间隔设定图像帧,分别从上述待标记视频中提取图像序列和对应图像序列的音频信息序列;建立图像信息序列中的图像和音频信息序列中对应图像的音频信息之间的对应关系,得到视频特征信息序列。在一些实施例中,上述视频标记模型通过以下步骤训练得到:获取多个样本视频特征片段和对应上述多个样本视频特征片段中每个样本视频特征片段的样本标识信息;将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型。在一些实施例中,上述将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型,包括:执行以下训练步骤:将上述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,将上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息与该样本视频特征片段所对应的样本标识信息进行比较,得到上述初始化视频标记模型的预测准确率,确定上述预测准确率是否大于预设准确率阈值,若大于上述预设准确率阈值,则将上述初始化视频标记模型作为训练完成的视频标记模型。在一些实施例中,上述将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型,还包括:响应于不大于上述预设准确率阈值,调整上述初始化视频标记模型的参数,并继续执行上述训练步骤。在一些实施例中,上述将上述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,包括:对于上述样本视频特征片段包含的图像和对应该图像的音频信息,对该图像的图像进行图像识别,得到对应该图像的图像内容信息,对该音频信息进行音频识别,得到对应该音频信息的音频内容信息;响应于图像内容信息序列中存在相邻两帧图像的图像内容信息不同,且音频内容信息序列中存在对应该相邻两帧图像的音频内容信息不同,确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态。在一些实施例中,上述确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态,包括:响应于上述相邻两帧图像中前一帧图像的图像内容信息包括指定图像内容,与该前一帧图像对应的音频内容信息包括指定音频内容,且后一帧图像不包括上述指定图像内容,与该后一帧图像对应的音频内容信息不包括指定音频内容,则设置样本视频特征片段的预测标识信息为事件的终止状态。在一些实施例中,上述确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态,包括:响应于上述相邻两帧图像中后一帧图像的图像内容信息包括指定图像内容,与该后一帧图像对应的音频内容信息包括指定音频内容,且前一帧图像不包括上述指定图像内容,与该前一帧图像对应的音频内容信息不包括指定音频内容,则设置样本视频特征片段的预测标识信息为事件的开始状态。在一些实施例中,上述通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记,包括:对于上述标识信息序列中的标识信息,当该标识信息为开始状态时,将该标识信息与该标识信息后的下一个为终止状态的标识信息之间的标识信息所对应的视频特征片段标记为目标视频片段。第二方面,本申请实施例提供了一种用于标记视频片段的装置,该装置包括:视频特征信息序列获取单元,被配置成从待标记视频中获取视频特征信息序列,其中,上述视频特征信息用于表征上述待标记视频的图像特征和音频特征;视频特征片段序列获取单元,被配置成将上述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;标识信息获取单元,对于上述视频特征片段序列中的视频特征片段,被配置成将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息,上述视频标记模型用于匹配与视频特征片段对应的标识信息,标识信息用于表征视频特征片段处于事件的开始状态、中间状态或终止状态;标记单元,响应于得到对应上述视频特征片段序列的标识信息序列,被配置成通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记。在一些实施例中,上述视频特征信息序列获取单元包括:信息提取子单元,被配置成间隔设定图像帧,分别从上述待标记视频中提取图像序列和对应图像序列的音频信息序列;视频特征信息序列获取子单元,被配置成建立图像信息序列中的图像和音频信息序列中对应图像的音频信息之间的对应关系,得到视频特征信息序列。在一些实施例中,上述装置还包括视频标记模型训练单元,被配置成训练视频标记模型,上述视频标记模型训练单元包括:样本获取子单元,被配置成获取多个样本视频特征片段和对应上述多个样本视频特征片段中每个样本视频特征片段的样本标识信息;视频标记模型训练子单元,被配置成将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型。在一些实施例中,上述视频标记模型训练子单元包括:视频标记模型训练模块,被配置成将上述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,将上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息与该样本视频特征片段所对应的样本标识信息进行比较,得到上述初始化视频标记模型的预测准确率,确定上述预测准确率是否大于预设准确率阈值,若大于上述预设准确率阈值,则将上述初始化视频标记模型作为训练完成的视频标记模型。在一些实施例中,上述视频标记模型训练子单元还包括:参数调整模块,响应于不大于上述预设准确率阈值,被配置成调整上述初始化视频标记模本文档来自技高网...

【技术保护点】
1.一种用于标记视频片段的方法,包括:从待标记视频中获取视频特征信息序列,其中,所述视频特征信息用于表征所述待标记视频的图像特征和音频特征;将所述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于所述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息,所述视频标记模型用于匹配与视频特征片段对应的标识信息,标识信息用于表征视频特征片段处于事件的开始状态、中间状态或终止状态;响应于得到对应所述视频特征片段序列的标识信息序列,通过所述标识信息序列中的标识信息对所述待标记视频的视频片段进行标记。

【技术特征摘要】
1.一种用于标记视频片段的方法,包括:从待标记视频中获取视频特征信息序列,其中,所述视频特征信息用于表征所述待标记视频的图像特征和音频特征;将所述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于所述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息,所述视频标记模型用于匹配与视频特征片段对应的标识信息,标识信息用于表征视频特征片段处于事件的开始状态、中间状态或终止状态;响应于得到对应所述视频特征片段序列的标识信息序列,通过所述标识信息序列中的标识信息对所述待标记视频的视频片段进行标记。2.根据权利要求1所述的方法,其中,所述从待标记视频中获取视频特征信息序列,包括:间隔设定图像帧,分别从所述待标记视频中提取图像序列和对应图像序列的音频信息序列;建立图像信息序列中的图像和音频信息序列中对应图像的音频信息之间的对应关系,得到视频特征信息序列。3.根据权利要求1所述的方法,其中,所述视频标记模型通过以下步骤训练得到:获取多个样本视频特征片段和对应所述多个样本视频特征片段中每个样本视频特征片段的样本标识信息;将所述多个样本视频特征片段中每个样本视频特征片段作为输入,将所述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型。4.根据权利要求3所述的方法,其中,所述将所述多个样本视频特征片段中每个样本视频特征片段作为输入,将所述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型,包括:执行以下训练步骤:将所述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到所述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,将所述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息与该样本视频特征片段所对应的样本标识信息进行比较,得到所述初始化视频标记模型的预测准确率,确定所述预测准确率是否大于预设准确率阈值,若大于所述预设准确率阈值,则将所述初始化视频标记模型作为训练完成的视频标记模型。5.根据权利要求4所述的方法,其中,所述将所述多个样本视频特征片段中每个样本视频特征片段作为输入,将所述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型,还包括:响应于不大于所述预设准确率阈值,调整所述初始化视频标记模型的参数,并继续执行所述训练步骤。6.根据权利要求4所述的方法,其中,所述将所述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到所述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,包括:对于所述样本视频特征片段包含的图像和对应该图像的音频信息,对该图像的图像进行图像识别,得到对应该图像的图像内容信息,对该音频信息进行音频识别,得到对应该音频信息的音频内容信息;响应于图像内容信息序列中存在相邻两帧图像的图像内容信息不同,且音频内容信息序列中存在对应该相邻两帧图像的音频内容信息不同,确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态。7.根据权利要求6所述的方法,其中,所述确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态,包括:响应于所述相邻两帧图像中前一帧图像的图像内容信息包括指定图像内容,与该前一帧图像对应的音频内容信息包括指定音频内容,且后一帧图像不包括所述指定图像内容,与该后一帧图像对应的音频内容信息不包括指定音频内容,则设置样本视频特征片段的预测标识信息为事件的终止状态。8.根据权利要求6所述的方法,其中,所述确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态,包括:响应于所述相邻两帧图像中后一帧图像的图像内容信息包括指定图像内容,与该后一帧图像对应的音频内容信息包括指定音频内容,且前一帧图像不包括所述指定图像内容,与该前一帧图像对应的音频内容信息不包括指定音频内容,则设置样本视频特征片段的预测标识信息为事件的开始状态。9.根据权利要求1至8任意一项所述的方法,其中,所述通过所述标识信息序列中的标识信息对所述待标记视频的视频片段进行标记,包括:对于所述标识信息序列中的标识信息,当该标识信息为开始状态时,将该标识信息与该标识信息后的下一个为终止状态的标识信息之间的标识信息所对应的视频特征片段标记为目标视频片段。10.一种用于标记视频片段的装置,包括:视频特征信息序列获取单元,被配置成从待标记视频中获取视频特征信息序列,其中,所述视...

【专利技术属性】
技术研发人员:刘霄杨凡文石磊柏提李鑫赵翔李旭斌丁二锐
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1