【技术实现步骤摘要】
一种视频模型训练、视频分类方法和装置
[0001]本专利技术涉及视频动作识别领域,特别是涉及一种视频模型训练、视频分类方法和装置。
技术介绍
[0002]随着通信技术的发展,视频的应用越来越广泛,与此同时,视频分类的需求也越来越广泛,无论是社交网络分享视频检索、推荐,还是监控安防,都需要进行视频分类。
[0003]现有技术中,一般使用分类模型如支持向量机(Support Vector Machine,SVM)等模型实现视频的分类。具体过程包括:首先通过视频
‑
类别集对分类模型进行训练,然后将待分类视频输入至训练好的模型,得到分类结果。
[0004]现有技术中训练分类模型时一般需要大量的人工标注类别的数据,而人工标注的成本很高且效率较低,进而导致视频分类的成本较高且效率较低。
技术实现思路
[0005]有鉴于此,本专利技术的主要目的在于解决现有的视频分类的成本较高且效率较低的问题。
[0006]一方面,本专利技术实施例提供一种视频模型训练方法,包括:S10、分别获取训练视频集中每个训练视频的多个训练关键帧;S20、根据预设规则分别获取每个训练关键帧的可见图像块和屏蔽图像块;S30、分别在每个训练嵌入集的首位插入训练分类标志位嵌入后,与对应的训练位置嵌入相加,得到每个训练视频的编码嵌入;训练嵌入集为将对应训练视频的所有训练关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;S40、分别将每个训练视频的编码嵌入输入视频自监督模型中的编码模块,得到每个训练视频的训练 ...
【技术保护点】
【技术特征摘要】
1.一种视频模型训练方法,其特征在于,包括:S10、分别获取训练视频集中每个训练视频的多个训练关键帧;S20、根据预设规则分别获取每个训练关键帧的可见图像块和屏蔽图像块;S30、分别在每个训练嵌入集的首位插入训练分类标志位嵌入后,与对应的训练位置嵌入相加,得到每个训练视频的编码嵌入;训练嵌入集为将对应训练视频的所有训练关键帧的所有可见图像块对应的可见嵌入进行组合后得到的;S40、分别将每个训练视频的编码嵌入输入视频自监督模型中的编码模块,得到每个训练视频的训练分类标志位嵌入对应的第一输出、训练嵌入集和对应的位置嵌入对应的第二输出;S50、分别将每个训练关键帧对应的解码标志位输入和对应的解码嵌入输入视频自监督模型中的解码模块,得到每个训练关键帧的屏蔽图像块的预测结果;S60、分别根据每个训练关键帧的屏蔽图像块的原始图像和预测结果对所述视频自监督模型进行训练,得到预先训练的视频自监督模型;每个训练关键帧对应的解码嵌入由该训练关键帧对应的图像嵌入和解码位置嵌入组成;该训练关键帧对应的图像嵌入由该训练关键帧对应的可见嵌入在编码模块的输出和该训练关键帧的所有屏蔽图像块对应的预设共享可学习嵌入按该训练关键帧中的图像位置顺序组合而成;任一训练关键帧对应的解码标志位输入为该训练关键帧对应的训练视频的训练分类标志位嵌入对应的第一输出。2.根据权利要求1所述的视频模型训练方法,其特征在于,所述预设规则包括预设划分规则和预设比例,所述S20,包括:S201、根据所述预设划分规则分别将每个训练关键帧划分为对应的非重叠图像块;S202、按所述预设比例从每个训练关键帧对应的非重叠图像块中分别获取对应训练关键帧的可见图像块和屏蔽图像块。3.根据权利要求2所述的视频模型训练方法,其特征在于,所述S202包括:按所述预设比例随机从每个训练关键帧对应的非重叠图像块中分别获取对应训练关键帧的可见图像块和屏蔽图像块;或者,对于第i训练关键帧,按预设比例随机从第i训练关键帧对应的非重叠图像块中获取第i训练关键帧的可见图像块和屏蔽图像块;i=1+xn,x为自然数,n为非重叠图像块的数量与可见图像块的可见数量之比向下取整;1≤i≤训练关键帧的总数,i是正整数;对于第j训练关键帧,根据所述可见数量随机从第j训练关键帧的可选区域中随机获取第j训练关键帧的可见图像块,根据第j训练关键帧的可见图像块获取第j训练关键帧的屏蔽图像块;第j训练关键帧为所有训练关键帧中除第i训练关键帧之外的关键帧;第j训练关键帧的可选区域为所有图像位置中,除第一关键帧至第j训练关键帧的前一个关键帧的所有可见图像块的位置;第一关键帧为第j训练关键帧之前最近的第i训练关键帧;1<j≤训练关键帧的总数,j为正整数。4.根据权利要求1至4中任意一项所述的视频模型训练方法,其特征在于,所述S60,包括:S601、分别获取所有训练关键帧的屏蔽图像块的原始图像和当前预测结果的均方误差;
S602、判断所述均方误差是否大于预设阈值;如果大于,执行步骤S603;如果不大于,执行步骤S604;S603、调整视频自监督模型中的可训练参数后,使用调整后的模型重新执行所述步骤S40和S50;S604、将不大于预设阈值时使用的视频自监督模型作为所述预先训练的视频自监督模型。5.一种视频模型训练方法,其特征在于,包括:P10、根据分类头和如权利要求1
‑
4中任意一项的预先训练的视频自监督模型获取初始分类模型;P20、通过视频
‑
类别训练集对所述初始分类模型进行训练,得到预先训练的分类模型。6.根据权利要求5所述的视频模型训练方法,其特征在于,所述P20包括:通过视频
‑
类别训练集对所述初始分类模型中的分类头和预先训练的视频自监督模型同时进行训练,得到预先训练的分类模型;或者,通过视频
‑
类别训练集对所述初始分类模型中的分类头进行训练,得到预先训练的分类模型。7.一种视频分类方法,其特征在于,包括:Q10、获取待分类视频的多个分类关键帧;Q20、根据预设规则分别获取每个分类关键帧的可见图像块...
【专利技术属性】
技术研发人员:耿焕,袁一涵,林星,白兴安,徐扬,
申请(专利权)人:北京微播易科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。