视频标注的方法、系统及设备技术方案

技术编号:32504821 阅读:24 留言:0更新日期:2022-03-02 10:15
本申请提供了一种视频标注方法,该方法包括以下步骤:从未标注视频中抽取多个视频帧,通过显示界面向用户显示多个视频帧中的至少一个视频帧,获取用户在显示界面中对至少一个视频帧进行标注的用户标注结果,根据用户标注结果,获得多个视频帧中的其他视频帧的标注结果,该方法使得用户在视频标注过程中只需要标注一次关键帧,甚至只是确认一次关键帧是否标注正确,即可获得完整的视频的标注结果,极大程度减少了用户的标注操作,提高视频标注效率和用户的使用体验。和用户的使用体验。和用户的使用体验。

【技术实现步骤摘要】
视频标注的方法、系统及设备


[0001]本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及视频标注的方法、系统及设备。

技术介绍

[0002]当前的AI领域,为了训练和优化AI模型,需要使用大量标注好的图片样本和视频样本对AI模型进行训练和学习。比如在分类、检测和分割等图像领域的模型训练中,通常会先对视频进行抽帧,然后对每帧图像进行标注,标注好的视频流、图像集或者音频集可用于AI模型的训练。
[0003]由于当前视频的标注通过人工进行,一个视频包括数以万计的视频帧,人工视频标注是一个非常耗时耗力的过程,加之人的精力有限,导致视频标注的精度低、效率低。

技术实现思路

[0004]本申请提供了一种视频标注方法、系统及设备,用于解决人工视频标注效率低、精度低的问题。
[0005]第一方面,提供了一种视频标注方法,该方法包括以下步骤:从未标注视频中抽取多个视频帧,将该多个视频帧中的至少一个视频帧(可称为关键帧)通过显示界面向用户呈现,以使用户在关键帧中标注所需的目标,获得用户标注结果,最后根据用户标注结果,在剩余的非关键帧中自动标注该目标,获得整个视频的标注结果。
[0006]可选地,标注结果用于被AI模型学习。
[0007]上述方法中,根据关键帧的标注结果,自动标注其他非关键帧,从而获得整个视频的标注结果,而关键帧的标注结果可以是用户标注的,也可以是视频标注系统自动推荐给用户后,用户确认的,这样使得整个标注过程中,用户只需要标注一次关键帧,甚至只是确认一次关键帧是否标注正确,即可获得完整的视频的标注结果,极大程度减少了用户的标注操作,提高视频标注效率和用户的使用体验。
[0008]在第一方面的一种可能的实施方式中,从未标注视频中抽取的多个视频帧之间的图像相似度低于第一阈值,或者,多个视频帧之间的物体变化量高于第二阈值。
[0009]可选地,可通过固定帧率从未标注视频中抽取多个视频帧。
[0010]可选地,可根据用户手动设定的帧率从未标注视频中抽取多个视频帧。
[0011]可选地,可根据未标注视频的视频内容,动态调整抽帧率,从未标注视频中抽取多个视频帧,具体实现中,可先确定相邻帧之间的图像相似度,然后将图像相似度与预先存储的相似度映射关系进行比对,确定与该图像相似度对应的帧率,比如相似度是0.1的时候,帧率为1,相似度是0.2的时候,帧率为2;同理,也可先确定帧间物体的变化量,然后将物体变化量与预先存储的变化量映射关系进行比对,确定该帧间物体的变化量对应的帧率,其中,预先存储的相似度映射关系和变化量映射关系的具体表现形式可以是一个数学公式、映射关系表等等,本申请不对此进行限定。应理解,当视频中存在移动物体的时候,相邻帧
或者相邻多帧之间在灰度上会有差别,基于此可以获得帧间物体的变化率,当然,也可使用已知视频片段和对应的已知帧间物体变化量作为训练样本对深度神经网络进行训练,训练好的模型可以根据输入的视频片段推理出其对应的帧间物体变化量;或者,将历史未标注视频和对应的抽帧率生成样本集,并使用该样本集对AI模型进行训练,将当前正在处理的未标注视频输入该训练好的AI模型,即可获得每个视频时间段对应的抽帧率。
[0012]应理解,根据未标注视频的视频内容,动态调整抽帧率,从未标注视频中抽取多个视频帧,可避免抽取到过多冗余帧或者无法抽取到包含目标的视频帧,使得最终标注好的视频帧可作为高质量的训练样本进行AI模型的训练,提高用户的使用体验。
[0013]在第一方面的一种可能的实施方式中,关键帧可以是用户手动选取的,具体地,可向用户呈现抽帧后获得的多个视频帧,用户从中选择一个或者多个视频帧作为关键帧,准备进行关键帧标注;关键帧还可以是根据视频内容确定的,具体地,可将多个视频帧中的固定帧号作为关键帧,比如将多个视频帧中的首帧或者尾帧作为关键帧,或者,根据关键帧选取模型确定多个视频帧中的关键帧,其中,关键帧选取模型可以是将已知多个视频帧和对应的已知关键帧作为训练样本,使用该训练样本对AI模型进行训练后获得的,训练好的关键帧选取模型可根据输入的视频帧,输出其对应的关键帧。
[0014]应理解,将关键帧自动推荐给用户,可以减少用户视频标注的操作次数,提高用户使用体验,提高视频标注的效率。
[0015]在第一方面的一种可能的实施方式中,可通过以下三种方式获得用户标注结果。
[0016]方式一,可通过“自动标注”的方式获得关键帧上的用户标注结果,具体地,向用户呈现关键帧之后,可同时推荐出多个目标框(也可以是多个中心点、掩膜等等),自动标注出多个目标,用户无需进行任何操作即可自动标注出目标,生成用户标注结果,提升用户体验,提高标注效率。
[0017]具体实现中,可根据视频内容向用户推荐在关键帧上的用户标注结果,比如高速公路上的监控视频通常将车辆作为目标进行标注,那么当未标注视频为高速公路上的监控视频时,可在关键帧中框选出车辆向用户推荐标注结果,或者,向用户获取少量关键字,比如输入“车辆”,系统可根据关键字对关键字进行标注,向用户获取关键字。进一步的,还可将未标注视频输入推荐标注模型,获得推荐标注结果,其中,推荐标注模型可以是AI模型,具体地,可将已知未标注视频和对应的已知标注结果作为训练样本,使用对象性(objectness)算法等计算机视觉算法对深度神经网络进行训练后,获得训练好的推荐标注模型,或者使用其他业界成熟的计算机视觉算法实现上述功能,应理解,上述举例用于说明,并不能构成具体限定。
[0018]方式二,可通过人机交互的方式获得用户标注结果,具体地,向用户呈现关键帧之后,可同时推荐出多个目标框、中心点或者mask供用户选择,用户只需要随便点击一个目标框中的任意位置即可框选出目标,而无需下拉框或者描边框选,提升用户体验,提高标注效率。具体实现中,在向用户推荐标注结果之后,用户可通过显示界面人工修正标注结果,进一步提高标注精度。
[0019]方式三,可通过手动标注的方式获得用户标注结果,具体地,向用户呈现关键帧之后,也可由用户手动绘制出目标框、中心点或者mask,本申请不对此进行限定。
[0020]可以理解的,如果用户选择“自动标注”,视频标注系统可在关键帧上自动生成用
户标注结果,无需用户进行任何标注动作,极大程度提高用户的使用体验和标注效率;如果用户选择“人机交互”,视频标注系统可向用户推荐标注结果,用户只需要手动确认推荐标注结果,比如将鼠标移动到物体的任意位置即可自动生成中心点,而无需人工找到物体中心点,确保标注精度的同时,提高标注效率;如果用户选择“手动标注”,那么用户可以自行对关键帧进行标注,比如手动在物体上绘制目标框,关键帧标注单元可记录用户的绘制信息,将其作为新的样本训练推荐标注模型,进而使得自动标注和人机交互方式获得的用户标注结果更加准确,提高用户的使用体验。
[0021]在第一方面的一种可能的实施方式中,标注结果包括目标框、中心点、掩膜中的一种或者多种。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频标注方法,其特征在于,所述方法包括:从未标注视频中抽取多个视频帧;通过显示界面向用户显示所述多个视频帧中的至少一个视频帧;获取所述用户在所述显示界面中对所述至少一个视频帧进行标注的用户标注结果,其中,所述用户标注结果包括目标在所述至少一个视频帧中的图像区域;根据所述用户标注结果,获得所述多个视频帧中的其他视频帧的标注结果,其中,所述标注结果包括所述目标在所述其他视频帧中的图像区域。2.根据权利要求1所述的方法,其特征在于,所述从未标注视频中抽取多个视频帧包括:根据所述未标注视频的视频内容,从所述未标注视频中抽取多个视频帧,其中,所述多个视频帧之间的图像相似度低于第一阈值,或者,所述多个视频帧之间的物体变化量高于第二阈值。3.根据权利要求1或2所述的方法,其特征在于,所述至少一个视频帧是所述多个视频帧中的首帧或者尾帧;或者,所述至少一个视频帧是将所述多个视频帧输入关键帧选取模型后获得的,所述关键帧选取模型是使用多个已知视频帧和对应的已知关键帧作为训练样本,对神经网络模型进行训练后获得的。4.根据权利要求1至3任一权利要求所述的方法,其特征在于,所述获取所述用户在所述显示界面中对所述至少一个视频帧进行标注的用户标注结果包括:将所述至少一个视频帧输入推荐标注模型,获得推荐标注结果,其中,所述推荐标注结果包括至少一个推荐目标在所述至少一个视频帧中的图像区域;通过所述显示界面向所述用户显示所述推荐标注结果,获取所述用户在所述推荐标注结果中选择的用户标注结果。5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述标注结果包括目标框、中心点、掩膜中的一种或者多种。6.根据权利要求5所述的方法,其特征在于,所述根据所述用户标注结果,获得所述多个视频帧中的其他视频帧的标注结果包括:根据所述用户标注结果,调用多个计算单元,并行处理所述其他视频帧,获得所述其他视频帧的标注结果,其中,一个计算单元处理一个视频帧,或者,至少一个计算单元处理一个视频帧,所述至少一个计算单元中的每个计算单元生成一种标注结果。7.根据权利要求6所述的方法,其特征在于,所述根据所述用户标注结果,获得所述多个视频帧中的其他视频帧的标注结果包括:根据所述用户标注结果,对所述关键帧之后或之前的视频帧进行标注,获得标注结果。8.根据权利要求1至7任一权利要求所述的方法,其特征在于,所述方法还包括:通过所述显示界面接收所述用户对所述标注结果的修改信息,所述修改信息来自于所述用户对所述目标在所述其他视频帧中的图像区域的修改;或者,通过标注修正模型,获得所述标注结果的修改信息,所述标注修正模型是使用多个已知标注结果和对应的已知修改信息作为训练样本,对神经网络模型进行训练后获得的;根据所述修改信息,对所述多个视频帧中的其他视频帧的标注结果进行修改。
9.根据权利要求1至8任一权利要求所述的方法,其特征在于,所述标注结果用于被人工智能AI模型学习。10.一种视频标注系统,其特征在于,所述系统包括:自动抽帧单元,用于从未标注视频中抽取多个视频帧;关键帧处理单元,用于通过显示界面向用户显示所述多个视频帧中的至少一个视频帧;自动标注单元,用于获取所述用户在所述显示界面中对所述至少...

【专利技术属性】
技术研发人员:谢凯源姚亚强白小龙戴宗宏
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1