视频的处理方法及装置、数据的训练方法、装置及系统制造方法及图纸

技术编号:34546839 阅读:22 留言:0更新日期:2022-08-17 12:29
本发明专利技术公开了一种视频的处理方法及装置、数据的训练方法、装置及系统。该方法包括:接收待处理视频;通过视频表征模型对待处理视频进行特征提取,得到待处理视频的视频表征信息,其中,视频表征模型通过对初始模型进行训练得到,初始模型为通过样本数据训练得到的模型,训练任务与所述样本数据的背景特征信息和运动特征信息相关;输出待处理视频的视频表征信息,其中,视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。本发明专利技术解决了现有技术中视频表征模型对视频内容表征不准确的技术问题。表征不准确的技术问题。表征不准确的技术问题。

【技术实现步骤摘要】
视频的处理方法及装置、数据的训练方法、装置及系统


[0001]本专利技术涉及视频处理领域,具体而言,涉及一种视频的处理方法及装置、数据的训练方法、装置及系统。

技术介绍

[0002]互联网中存在大量的视频资源,视频表征模型可以对互联网中的视频内容进行学习以实现对视频内容的检测和标注,例如,在电商平台中,通过对商品短视频内容进行识别并且对视频增加商品标签,使得用户可通过搜索快速找到感兴趣的商品。然而,现有的视频表征模型在特征提取时过多关注视频的背景特征,而较少关注视频前景中的运动特征信息,导致视频表征模型的输出视频表征信息容易受到视频图像的背景影响,进而导致对视频内容表征不准确,例如,视频中背景中包含物体A,前景中为运动的物体B,视频表征模型由于更关注背景特征,可能将背景中的物体A作为视频图像的主题进而输出物体A的特征作为视频表征信息,使得视频表征模型表征的结果与视频的实际内容存在偏差。
[0003]针对上述现有技术中视频表征模型对视频内容表征不准确的技术问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种视频的处理方法及装置、数据的训练方法、装置及系统,以至少解决现有技术中的视频自监督学习容易受到图像背景影响的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种视频的处理方法,包括:接收待处理视频;通过视频表征模型对待处理视频进行特征提取,得到待处理视频的视频表征信息,其中,视频表征模型通过对初始模型进行训练得到,初始模型为通过样本数据训练得到的模型,训练任务与样本数据的背景特征信息和运动特征信息相关;输出待处理视频的视频表征信息,其中,视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。
[0006]根据本专利技术实施例的另一个方面,提供了一种视频的处理方法,包括:接收待处理视频;通过视频处理模型对待处理视频进行处理,得到待处理视频的视频标签,其中,视频处理模型通过对初始模型进行训练得到,初始模型为通过样本数据训练得到的模型,训练任务与样本数据的背景特征信息和运动特征信息相关;显示待处理视频的视频标签。
[0007]根据本专利技术实施例的另一个方面,提供了一种视频的处理方法,包括:接收直播视频;通过视频处理模型对直播视频进行处理,得到直播视频的视频标签,其中,视频标签用于表示直播视频中的目标对象的产品类型,视频处理模型通过对初始模型进行训练得到,所述初始模型为通过样本数据训练得到的模型,训练任务与样本数据的背景特征信息和运动特征信息相关;显示直播视频的视频标签。
[0008]根据本专利技术实施例的另一个方面,提供了一种数据的训练方法,包括:获取待训练模型对样本视频片段进行特征提取得到的第一特征信息;基于第一特征信息和第二特征信
息确定背景损失函数,其中,第二特征信息包括样本视频片段中图像的背景特征信息,背景损失函数用于表征第一特征信息与背景特征信息的差异程度;基于第一特征信息和第三特征信息确定运动损失函数,其中,第三特征信息包括样本视频片段之后的图像的第一运动特征信息,运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度;根据背景损失函数和运动损失函数对待训练模型进行优化。
[0009]根据本专利技术实施例的另一方面,还提供了一种视频的处理装置,包括:第一接收模块,用于接收待处理视频;特征提取模块,用于通过视频表征模型对待处理视频进行特征提取,得到待处理视频的视频表征信息,其中,视频处理模型通过对初始模型进行训练得到,初始模型为通过样本数据训练得到的模型,训练任务与样本数据的背景特征信息和运动特征信息相关;输出模块,用于输出待处理视频的视频表征信息,其中,视频表征信息中包括待处理视频的背景特征信息和待处理视频的运动特征信息。
[0010]根据本专利技术实施例的另一方面,还提供了一种视频的处理装置,包括:第二接收模块,用于接收待处理视频;第一处理模块,用于通过视频处理模型对待处理视频进行处理,得到待处理视频的视频标签,其中,视频处理模型通过对初始模型进行训练得到,初始模型为通过样本数据训练得到的模型,监督任务与样本数据的背景特征信息和运动特征信息相关;第一显示模块,用于显示待处理视频的视频标签。
[0011]根据本专利技术实施例的另一方面,还提供了一种视频的处理装置,包括:第三接收模块,用于接收直播视频;第二处理模块,用于通过视频处理模型对直播视频进行处理,得到直播视频的视频标签,其中,视频标签用于表示直播视频中的目标对象的产品类型,视频处理模型通过对初始模型进行训练得到,所述初始模型为通过样本数据训练得到的模型,训练任务与样本数据的背景特征信息和运动特征信息相关;第二显示模块,用于显示直播视频的视频标签。
[0012]根据本专利技术实施例的另一方面,还提供了一种数据的训练装置,包括:获取模块,用于获取待训练模型对样本视频片段进行特征提取得到的第一特征信息;第一确定模块,用于基于第一特征信息和第二特征信息确定背景损失函数,其中,第二特征信息包括样本视频片段中图像的背景特征信息,背景损失函数用于表征第一特征信息与背景特征信息的差异程度;第二确定模块,用于基于第一特征信息和第三特征信息确定运动损失函数,其中,第三特征信息包括样本视频片段之后的图像的第一运动特征信息,运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度;优化模块,用于根据背景损失函数和运动损失函数对待训练模型进行优化。
[0013]根据本专利技术实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项视频的处理方法。
[0014]根据本专利技术实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的视频的处理方法。
[0015]根据本专利技术实施例的另一方面,还提供了一种数据的训练系统,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待训练模型对样本视频片段进行特征提取得到的第一特征信息;基于第一特征信息和第二特征信息确定背景损失函数,其中,第二特征信息包括样本视频片段中图像的背景特征信息,背景损失函数用于表征第一特征信息与背景特征信息的差异程度;基于第一特征信息和第三特征信息
确定运动损失函数,其中,第三特征信息包括样本视频片段之后的图像的第一运动特征信息,运动损失函数用于表征基于第一特征信息预测的第二运动特征信息与第一运动特征信息之间的差异程度;根据背景损失函数和运动损失函数对待训练模型进行优化。
[0016]在本专利技术实施例中,通过采用经初始模型训练得到的视频处理模型对待处理视频进行特征提取,其中初始模型为通过样本数据训练得到的模型,监督任务与样本数据的背景特征信息和运动特征信息相关,使得视频处理模型可以提取出待处理视频的背景特征信息和运动特征信息,并且视频表征模型在特征提取时更关注运动特征信息,使得视频表征信息中可以包含更多的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频的处理方法,其特征在于,包括:接收待处理视频;通过视频表征模型对所述待处理视频进行特征提取,得到所述待处理视频的视频表征信息,其中,所述视频表征模型通过对初始模型进行训练得到,所述初始模型为通过样本数据训练得到的模型,训练任务与所述样本数据的背景特征信息和运动特征信息相关;输出所述待处理视频的视频表征信息,其中,所述视频表征信息中包括所述待处理视频的背景特征信息和所述待处理视频的运动特征信息。2.根据权利要求1所述的方法,其特征在于,在输出所述待处理视频的视频表征信息之后,所述方法还包括如下至少一项:基于所述视频表征信息对所述待处理视频进行视频分类,得到所述待处理视频的视频标签;基于所述视频表征信息对所述待处理视频进行物体检测,得到所述待处理视频中的目标物体;基于所述视频表征信息对所述待处理视频进行物体追踪,得到所述待处理视频的每帧图像中目标物体所在的位置。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述初始模型,获取所述初始模型的步骤包括:获取待训练模型的目标损失函数,其中,所述目标损失函数由背景特征信息和运动特征信息构成;通过求解所述目标损失函数对所述待训练模型进行优化,得到所述初始模型。4.根据权利要求3所述的方法,其特征在于,获取待训练模型的目标损失函数,包括:获取待训练模型对样本视频片段进行特征提取得到的第一特征信息;基于所述第一特征信息和第二特征信息确定背景损失函数,其中,所述第二特征信息包括所述样本视频片段中图像的背景特征信息,所述背景损失函数用于表征所述第一特征信息与所述背景特征信息的差异程度;基于所述第一特征信息和第三特征信息确定运动损失函数,其中,所述第三特征信息包括所述样本视频片段之后的图像的第一运动特征信息,所述运动损失函数用于表征基于所述第一特征信息预测的第二运动特征信息与所述第一运动特征信息之间的差异程度;确定所述背景损失函数与所述运动损失函数之和为所述目标损失函数。5.一种视频的处理方法,其特征在于,包括:接收待处理视频;通过视频处理模型对所述待处理视频进行处理,得到所述待处理视频的视频标签,其中,所述视频处理模型通过对初始模型进行训练得到,所述初始模型为通过样本数据训练得到的模型,训练任务与所述样本数据的背景特征信息和运动特征信息相关;显示所述待处理视频的视频标签。6.根据权利要求5所述的方法,其特征在于,在显示所述待处理视频的视频标签之后,所述方法还包括如下至少一项:基于所述待处理视频的标签对所述待处理视频进行推荐;显示所述待处理视频的视频标签,接收所述视频标签的校对信息,并基于所述校对信
息修改所述视频标签。7.一种视频的处理方法,其特征在于,包括:接收直播视频;通过视频处理模型对所述直播视频进行处理,得到所述直播视频的视频标签,其中,所述视频标签用于表示所述直播视频中的目标对象的产品类型,所述视频处理模型通过对初始模型进行训练得到,所述初始模型为通过样本数据训练得到的模型,训练任务与所述样本数据的背景特征信息和运动特征信息相关;显示所述直播视频的视频标签。8.一种数据的训练方法,其特征在于,包括:获取待训练模型对样本视频片段进行特征提取得到的第一特征信息;基于所述第一特征信息和第二特征信息确定背景损失函数,其中,所述第二特征信息包括所述样本视频片段中图像的背景特征信息,所述背景损失函数用于表征所述第一特征信息与所述背景特征信息的差异程度;基于所述第一特征信息和第三特征信息确定运动损失函数,其中,所述第三特征信息包括所述样本视频片段之后的图像的第一运动特征信息,所述运动损失函数用于表征基于所述第一特征信息预测的第二运动特征信息与所述第一运动特征信息之间的差异程度;根据所述背景损失函数和所述运动损失函数对所述待训练模型进行优化。9.根据权利要求8所述的方法,其特征在于,获取所述待训练模型对样本视频片段进行特征提取得到的第一特征信息,包括:获取目标视频,并从所述目标视频中随机抽取视频片段,得到所述样本视频片段;将所述样本视频片段输入至所述待训练模型,得到所述待训练模型输出的所述第一特征信息,其中,所述待训练模型为三维的特征提取模型。10.根据权利要求9所述的方法,其特征在于,在基于所述第一特征信息和第二特征信息确定背景损失函数之前,所述方法还包括:获取所述第二特征信息,其中,获取所述第二特征信息的步骤包括:获取所述目标视频对应的压缩数据;从所述压缩数据中提取所述样本视频片段对应的关键帧;通过背景特征提取模型提取所述关键帧的特征信息,得到所述第二特征信息,其中,所述背景特征提取模型为二维的特征提取模型。11.根据权利要求10所述的方法,其特征在于,从所述压缩数据中提取所述样本视频片段对应的关键帧,包括:从所述压缩数据中确定目标视频片段的关键帧,其中,所述目标视频片段的起始帧比所述样本视频片段的起始帧提前第一预设帧数,所述目标视频片段的终止帧比所述样本视频片段的终止帧推后第二预设帧数;从所述目标视频的关键帧中抽取任意一帧作为所述样本视频片段对应的关键帧。12....

【专利技术属性】
技术研发人员:黄梁华刘宇王彬潘攀徐盈辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1