数据处理方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:33510577 阅读:27 留言:0更新日期:2022-05-19 01:19
本发明专利技术公开了一种数据处理方法、装置、存储介质及计算机设备。其中,该方法包括:获取视频的多帧图像数据;通过将多帧图像数据输入视频识别模型,识别出视频的视频场景,其中,视频识别模型包括视频特征模块,视频特征模块用于提取在时序上有关联的多帧图像数据的图像特征,其中,视频识别模型通过多组数据训练得到,多组数据分别包括:视频的多帧图像数据和该视频的视频场景。本发明专利技术解决了无法准确识别视频场景的技术问题。场景的技术问题。场景的技术问题。

【技术实现步骤摘要】
数据处理方法、装置、存储介质及计算机设备


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种数据处理方法、装置、存储介质及计算机设备。

技术介绍

[0002]附着技术的发展,人工智能已经能够应用于各种领域,例如,人工智能可以应用于各种识别领域,比如,采用识别模型识别物体,采用识别模型识别指令等。但在相关技术中,采用人工智能模型识别时,大多数是用于识别静态的内容。例如,对于场景的识别仅仅是采用识别模型对图片进行识别,但对图片进行识别时,由于图片均是静态的,表示的特征有限,无法完整体现整个场景的内容,因此,识别准确率有限。所以,在相关技术中存在对视频场景无法进行准确识别的问题。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种数据处理方法、装置、存储介质及计算机设备,以至少解决无法准确识别视频场景的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:获取视频的多帧图像数据;通过将所述多帧图像数据输入视频识别模型,识本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取视频的多帧图像数据;通过将所述多帧图像数据输入视频识别模型,识别出所述视频的视频场景,其中,所述视频识别模型包括视频特征模块,所述视频特征模块用于提取在时序上有关联的所述多帧图像数据的图像特征,其中,所述视频识别模型通过多组数据训练得到,所述多组数据分别包括:视频的多帧图像数据和该视频的视频场景。2.根据权利要求1所述的方法,其特征在于,所述视频特征模块包括:全局特征子模块和物体局部特征子模块,通过将所述多帧图像数据输入视频识别模型,识别出所述视频的视频场景包括:通过所述全局特征子模块提取所述多帧图像数据中每帧图像数据的视频全局特征,其中,所述视频全局特征包括每帧图像数据的超过预定维数的特征,以及所述多帧图像数据之间的时序信息;通过所述物体局部特征子模块提取所述多帧图像数据中每帧图像数据的物体局部特征;基于所述视频全局特征和所述物体局部特征,识别出所述视频的视频场景。3.根据权利要求2所述的方法,其特征在于,所述视频识别模型还包括:注意力模块,其中,基于所述视频全局特征和所述物体局部特征,识别出所述视频的视频场景包括:依据所述视频全局特征,通过所述注意力模块为所述物体局部特征分配第一权重系数,以及分别为每帧图像数据的视频全局特征分配第二权重系数;依据所述第一权重系数对所述物体局部特征进行更新,得到更新后的物体局部特征,以及依据所述第二权重系数对所述每帧图像数据的视频全局特征进行更新,得到更新后的每帧图像数据的视频全局特征;根据得到的更新后的物体局部特征和更新后的每帧图像数据的视频全局特征,识别出所述视频的视频场景。4.根据权利要求3所述的方法,其特征在于,所述视频识别模型还包括:分类器,其中,根据得到的更新后的物体局部特征和更新后的每帧图像数据的视频全局特征,识别出所述视频的视频场景包括:通过所述注意力模块处理所述更新后的物体局部特征和更新后的每帧图像数据的视频全局特征,得到视频输出特征;采用所述分类器处理所述视频输出特征,得到分类结果,并根据所述分类结果确定所述视频的视频场景。5.根据权利要求3所述的方法,其特征在于,所述视频识别模型还包括:分类器,其中,根据得到的更新后的物体局部特征和更新后的每帧图像数据的视频全局特征,识别出所述视频的视频场景包括:采用所述分类器对所述更新后的物体局部特征和更新后的每帧图像数据的视频全局特征进行分类,分别得到与所述更新后的物体局部特征对应的分类结果和与所述更新后的每帧图像数据的视频全局特征对应的分类结果,其中,每一种分类结果对应一种视频场景;根据与所述更新后的物体局部特征对应的分类结果和与所述更新后的每帧图像数据的视频全局特征对应的分类结果,确定所述视频的视频场景。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,通过以下方式至少之一,获取视频的多帧图像数据:获取视频中连续的多帧图像数据;根据固定的帧间隔对所述视频进行多次采样,得到所述视频中的多帧图像数据。7.根据权利要求6所述的方法,其特征在于,所述视频包括以下至少之一:直播视频,录播视频。8.根据权利要求7所述的方法,其特征在于,所述多帧图像数据为16帧图像数据。9.一种数据处理方法,其特征在于,包括:在交互界面上显示视频;在所述交互界面上接收到请求获取所述视频的视频场景的请求消息;响应所述请求消息,获取所述视频的多帧图像数据,并通过将所述多帧图像数据输入视频识别模型,识别出所述视频的视频场景,其中,所述视频识别模型包括视频特征模块,所述视频特征模块用于提取在时序上有关联的所述多帧图像数据的图像特征,其中,所述视频识别模型通过多组数据训练得到,所述多组数据分别包括:视频的多帧图像数据和该视频的视频场景;在所述交互界面上显示所述视频场景。10.一种数据处理方法,其特征在于,包括:在直播界面直播视频;在所述直播界面显示所述视频的视频场景,其中,所述视频的视频场景依据对所述视频的多帧图像数据采用视频识别模型进行识别得到,所述视频识别模型包括视频特征模块,所述视频特征模块用于提取在时序上有关联的所述多帧图像数据的...

【专利技术属性】
技术研发人员:利明王彬潘攀
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1