一种视频模型训练、视频分类方法和装置制造方法及图纸

技术编号:34815543 阅读:43 留言:0更新日期:2022-09-03 20:25
本发明专利技术公开了一种视频模型训练、视频分类方法和装置,涉及视频动作识别领域。为解决现有技术中视频分类的成本较高且效率较低的问题而发明专利技术。包括:分别获取训练视频集中每个训练视频的多个训练关键帧;分别获取每个训练关键帧的可见图像块和屏蔽图像块;分别得到每个训练视频的编码嵌入;分别将每个训练视频的编码嵌入输入视频自监督模型中的编码模块,得到每个训练视频的训练分类标志位嵌入对应的第一输出、训练嵌入集和对应的位置嵌入对应的第二输出;分别将每个训练关键帧对应的解码标志位输入和对应的解码嵌入输入解码模块,得到每个训练关键帧的屏蔽图像块的预测结果;对所述视频自监督模型进行训练,得到预先训练的视频自监督模型。自监督模型。自监督模型。

【技术实现步骤摘要】
一种视频模型训练、视频分类方法和装置


[0001]本专利技术涉及视频动作识别领域,特别是涉及一种视频模型训练、视频分类方法和装置。

技术介绍

[0002]随着通信技术的发展,视频的应用越来越广泛,与此同时,视频分类的需求也越来越广泛,无论是社交网络分享视频检索、推荐,还是监控安防,都需要进行视频分类。
[0003]现有技术中,一般使用分类模型如支持向量机(Support Vector Machine,SVM)等模型实现视频的分类。具体过程包括:首先通过视频

类别集对分类模型进行训练,然后将待分类视频输入至训练好的模型,得到分类结果。
[0004]现有技术中训练分类模型时一般需要大量的人工标注类别的数据,而人工标注的成本很高且效率较低,进而导致视频分类的成本较高且效率较低。

技术实现思路

[0005]有鉴于此,本专利技术的主要目的在于解决现有的视频分类的成本较高且效率较低的问题。
[0006]一方面,本专利技术实施例提供一种视频模型训练方法,包括:S10、分别获取训练视频集中每个训练视频的多个训练关键帧;S20、根据预设规则分别获取每个训练关键帧的可见图像块和屏蔽图像块;S30、分别在每个训练嵌入集的首位插入训练分类标志位嵌入后,与对应的训练位置嵌入相加,得到每个训练视频的编码嵌入;训练嵌入集为将对应训练视频的所有训练关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;S40、分别将每个训练视频的编码嵌入输入视频自监督模型中的编码模块,得到每个训练视频的训练分类标志位嵌入对应的第一输出、训练嵌入集和对应的位置嵌入对应的第二输出;S50、分别将每个训练关键帧对应的解码标志位输入和对应的解码嵌入输入视频自监督模型中的解码模块,得到每个训练关键帧的屏蔽图像块的预测结果;S60、分别根据每个训练关键帧的屏蔽图像块的原始图像和预测结果对所述视频自监督模型进行训练,得到预先训练的视频自监督模型;每个训练关键帧对应的解码嵌入由该训练关键帧对应的图像嵌入和解码位置嵌入组成;该训练关键帧对应的图像嵌入由该训练关键帧对应的可见嵌入在编码模块的输出和该训练关键帧的所有屏蔽图像块对应的预设共享可学习嵌入按该训练关键帧中的图像位置顺序组合而成;任一训练关键帧对应的解码标志位输入为该训练关键帧对应的训练视频的训练分类标志位嵌入对应的第一输出。
[0007]另一方面,本专利技术实施例提供一种视频模型训练方法,包括:P10、根据分类头和上述预先训练的视频自监督模型获取初始分类模型;P20、通过视频

类别训练集对所述初始分类模型进行训练,得到预先训练的分类模型。
[0008]又一方面,本专利技术实施例提供一种视频分类方法,包括:Q10、获取待分类视频的多个分类关键帧;Q20、根据预设规则分别获取每个分类关键帧的可见图像块;Q30、在分类嵌
入集的首位插入分类标志位嵌入后,与对应的分类位置嵌入相加,得到目标模型嵌入;所述分类嵌入集为将所有分类关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;Q40、将所述目标模型嵌入输入上述预先训练的分类模型,得到所述待分类视频的类别。
[0009]又一方面,本专利技术实施例提供一种视频模型训练装置,包括:
[0010]训练帧获取模块,用于分别获取训练视频集中每个训练视频的多个训练关键帧;
[0011]图像块获取模块,与所述训练帧获取模块相连,用于根据预设规则分别获取每个训练关键帧的可见图像块和屏蔽图像块;
[0012]训练嵌入获取模块,与所述图像块获取模块相连,用于分别在每个训练嵌入集的首位插入训练分类标志位嵌入后,与对应的训练位置嵌入相加,得到每个训练视频的编码嵌入;训练嵌入集为将对应训练视频的所有训练关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;
[0013]编码输入模块,与所述训练嵌入获取模块相连,用于分别将每个训练视频的编码嵌入输入视频自监督模型中的编码模块,得到每个训练视频的训练分类标志位嵌入对应的第一输出、训练嵌入集和对应的位置嵌入对应的第二输出;
[0014]解码输入模块,与所述编码输入相连,用于分别将每个训练关键帧对应的解码标志位输入和对应的解码嵌入输入视频自监督模型中的解码模块,得到每个训练关键帧的屏蔽图像块的预测结果;
[0015]自监督训练模块,分别与所述图像块获取模块和解码输入模块相连,用于分别根据每个训练关键帧的屏蔽图像块的原始图像和预测结果对所述视频自监督模型进行训练,得到预先训练的视频自监督模型;
[0016]每个训练关键帧对应的解码嵌入由该训练关键帧对应的图像嵌入和解码位置嵌入组成;该训练关键帧对应的图像嵌入由该训练关键帧对应的可见嵌入在编码模块的输出和该训练关键帧的所有屏蔽图像块对应的预设共享可学习嵌入按该训练关键帧中的图像位置顺序组合而成;任一训练关键帧对应的解码标志位输入为该训练关键帧对应的训练视频的训练分类标志位嵌入对应的第一输出。
[0017]再一方面,本专利技术实施例提供一种视频模型训练装置,包括:
[0018]分类模型获取模块,用于根据分类头和通过上述视频模型训练装置获取的预先训练的视频自监督模型获取初始分类模型;
[0019]分类模型训练模块,与所述分类模型获取模块相连,用于通过视频

类别训练集对所述初始分类模型进行训练,得到预先训练的分类模型。
[0020]再一方面,本专利技术实施例提供一种视频分类装置,包括:
[0021]分类帧获取模块,用于获取待分类视频的多个分类关键帧;
[0022]可见图像块获取模块,与所述分类帧获取模块相连,用于根据预设规则分别获取每个分类关键帧的可见图像块;
[0023]分类嵌入获取模块,与所述可见图像块获取模块相连,用于在分类嵌入集的首位插入分类标志位嵌入后,与对应的分类位置嵌入相加,得到目标模型嵌入;所述分类嵌入集为将所有分类关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;
[0024]视频分类模块,与所述分类嵌入获取模块相连,用于将所述目标模型嵌入输入通过上述视频模型训练装置获取的预先训练的分类模型,得到所述待分类视频的类别。
[0025]综上所述,本专利技术实施例提供的技术方案,训练视频自监督模型时仅通过对训练视频的训练关键帧进行处理后即可对视频自监督模型进行训练,得到预先训练的视频自监督模型。视频分类模型由预先训练的视频自监督模型和分类头生成,由于视频分类模型训练时仅需少量的标注类别的视频,而训练视频自监督模型时,无需对训练视频进行人工标注类别,因此该方案解决了现有技术中训练分类模型时一般需要大量的人工标注类别的数据,而人工标注的成本很高且效率较低,进而导致视频分类的成本较高且效率较低的问题。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频模型训练方法,其特征在于,包括:S10、分别获取训练视频集中每个训练视频的多个训练关键帧;S20、根据预设规则分别获取每个训练关键帧的可见图像块和屏蔽图像块;S30、分别在每个训练嵌入集的首位插入训练分类标志位嵌入后,与对应的训练位置嵌入相加,得到每个训练视频的编码嵌入;训练嵌入集为将对应训练视频的所有训练关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;S40、分别将每个训练视频的编码嵌入输入视频自监督模型中的编码模块,得到每个训练视频的训练分类标志位嵌入对应的第一输出、训练嵌入集和对应的位置嵌入对应的第二输出;S50、分别将每个训练关键帧对应的解码标志位输入和对应的解码嵌入输入视频自监督模型中的解码模块,得到每个训练关键帧的屏蔽图像块的预测结果;S60、分别根据每个训练关键帧的屏蔽图像块的原始图像和预测结果对所述视频自监督模型进行训练,得到预先训练的视频自监督模型;每个训练关键帧对应的解码嵌入由该训练关键帧对应的图像嵌入和解码位置嵌入组成;该训练关键帧对应的图像嵌入由该训练关键帧对应的可见嵌入在编码模块的输出和该训练关键帧的所有屏蔽图像块对应的预设共享可学习嵌入按该训练关键帧中的图像位置顺序组合而成;任一训练关键帧对应的解码标志位输入为该训练关键帧对应的训练视频的训练分类标志位嵌入对应的第一输出。2.根据权利要求1所述的视频模型训练方法,其特征在于,所述预设规则包括预设划分规则和预设比例,所述S20,包括:S201、根据所述预设划分规则分别将每个训练关键帧划分为对应的非重叠图像块;S202、按所述预设比例从每个训练关键帧对应的非重叠图像块中分别获取对应训练关键帧的可见图像块和屏蔽图像块。3.根据权利要求2所述的视频模型训练方法,其特征在于,所述S202包括:按所述预设比例随机从每个训练关键帧对应的非重叠图像块中分别获取对应训练关键帧的可见图像块和屏蔽图像块;或者,对于第i训练关键帧,按预设比例随机从第i训练关键帧对应的非重叠图像块中获取第i训练关键帧的可见图像块和屏蔽图像块;i=1+xn,x为自然数,n为非重叠图像块的数量与可见图像块的可见数量之比向下取整;1≤i≤训练关键帧的总数,i是正整数;对于第j训练关键帧,根据所述可见数量随机从第j训练关键帧的可选区域中随机获取第j训练关键帧的可见图像块,根据第j训练关键帧的可见图像块获取第j训练关键帧的屏蔽图像块;第j训练关键帧为所有训练关键帧中除第i训练关键帧之外的关键帧;第j训练关键帧的可选区域为所有图像位置中,除第一关键帧至第j训练关键帧的前一个关键帧的所有可见图像块的位置;第一关键帧为第j训练关键帧之前最近的第i训练关键帧;1<j≤训练关键帧的总数,j为正整数。4.根据权利要求1至4中任意一项所述的视频模型训练方法,其特征在于,所述S60,包括:S601、分别获取所有训练关键帧的屏蔽图像块的原始图像和当前预测结果的均方误差;
S602、判断所述均方误差是否大于预设阈值;如果大于,执行步骤S603;如果不大于,执行步骤S604;S603、调整视频自监督模型中的可训练参数后,使用调整后的模型重新执行所述步骤S40和S50;S604、将不大于预设阈值时使用的视频自监督模型作为所述预先训练的视频自监督模型。5.一种视频模型训练方法,其特征在于,包括:P10、根据分类头和如权利要求1

4中任意一项的预先训练的视频自监督模型获取初始分类模型;P20、通过视频

类别训练集对所述初始分类模型进行训练,得到预先训练的分类模型。6.根据权利要求5所述的视频模型训练方法,其特征在于,所述P20包括:通过视频

类别训练集对所述初始分类模型中的分类头和预先训练的视频自监督模型同时进行训练,得到预先训练的分类模型;或者,通过视频

类别训练集对所述初始分类模型中的分类头进行训练,得到预先训练的分类模型。7.一种视频分类方法,其特征在于,包括:Q10、获取待分类视频的多个分类关键帧;Q20、根据预设规则分别获取每个分类关键帧的可见图像块...

【专利技术属性】
技术研发人员:耿焕袁一涵林星白兴安徐扬
申请(专利权)人:北京微播易科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1