视频属性确定方法、装置、设备及存储介质制造方法及图纸

技术编号:35096704 阅读:13 留言:0更新日期:2022-10-01 17:00
本申请公开了一种视频属性确定方法、装置、设备及存储介质,可以应用于云技术、人工智能、智慧交通、车联网等各种场景,所述方法包括:获取目标视频的目标视频帧;对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征;对所述目标视频帧进行场景特征提取,得到所述目标视频的目标场景特征;对所述目标图像属性特征以及所述目标场景特征进行融合处理,得到目标融合特征;根据所述目标融合特征,确定所述目标视频的目标属性信息。本申请提高了确定的属性信息的准确率。率。率。

【技术实现步骤摘要】
视频属性确定方法、装置、设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种视频属性确定方法、装置、设备及存储介质。

技术介绍

[0002]相关技术中,直接使用在公开数据集上预训练好的图像模型提取特征,能够提取出较适合业务数据的粗粒度分类任务相关的视觉特征。但是缺少对多模态信息的综合建模利用,通常单依靠视觉信息来识别,缺失有辨识力的特征提取器,难区分细粒度的业务数据标签;且缺失对场景上下文的信息提取;因此,难以保证准确率和召回率。

技术实现思路

[0003]本申请提供了一种视频属性确定方法、装置、设备及存储介质,可以提高确定的属性信息的准确率。
[0004]一方面,本申请提供了一种视频属性确定方法,所述方法包括:
[0005]获取目标视频的目标视频帧;
[0006]对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征;
[0007]对所述目标视频帧进行场景特征提取,得到所述目标视频的目标场景特征;
[0008]对所述目标图像属性特征以及所述目标场景特征进行融合处理,得到目标融合特征;
[0009]根据所述目标融合特征,确定所述目标视频的目标属性信息。
[0010]另一方面提供了一种视频属性确定装置,所述装置包括:
[0011]目标视频帧获取模块,用于获取目标视频的目标视频帧;
[0012]目标图像属性特征确定模块,用于对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征;
[0013]目标场景特征确定模块,用于对所述目标视频帧进行场景特征提取,得到所述目标视频的目标场景特征;
[0014]目标融合特征确定模块,用于对所述目标图像属性特征以及所述目标场景特征进行融合处理,得到目标融合特征;
[0015]目标属性信息确定模块,用于根据所述目标融合特征,确定所述目标视频的目标属性信息。
[0016]另一方面提供了一种视频属性确定设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的视频属性确定方法。
[0017]另一方面提供了一种计算机存储介质,所述计算机存储介质存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述
的视频属性确定方法。
[0018]另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现如上所述的视频属性确定方法。
[0019]本申请提供的视频属性确定方法、装置、设备及存储介质,具有如下技术效果:
[0020]本申请获取目标视频的目标视频帧;对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征;对所述目标视频帧进行场景特征提取,得到所述目标视频的目标场景特征;对所述目标图像属性特征以及所述目标场景特征进行融合处理,得到目标融合特征;根据所述目标融合特征,确定所述目标视频的目标属性信息。本申请在确定视频属性信息过程中,融入了视频的场景特征,通过目标图像属性特征以及目标场景特征确定出融合特征,提高了确定的属性信息的准确率。
附图说明
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0022]图1是本申请实施例提供的一种视频属性确定系统的示意图;
[0023]图2是本申请实施例提供的一种视频属性确定方法的流程示意图;
[0024]图3是本申请实施例提供的一种对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征的方法的流程示意图;
[0025]图4是本申请实施例提供的一种对所述第二目标对象进行对象特征提取,得到第二目标图像属性特征的方法的流程示意图;
[0026]图5是本申请实施例提供的对所述目标视频帧进行场景特征提取,得到所述目标视频的目标场景特征的方法的流程示意图;
[0027]图6是本申请实施例提供的一种基于目标视频帧构建的有向无环图的示意图;
[0028]图7是本申请实施例提供的一种transformer模型的结构示意图;
[0029]图8是本申请实施例提供的一种MLP网络的结构示意图;
[0030]图9是本申请实施例提供的一种美食视频的属性信息确定方法的流程示意图;
[0031]图10是本申请实施例提供的终端显示目标视频以及目标属性信息的页面;
[0032]图11是本申请实施例提供的一种视频属性确定装置的结构示意图;
[0033]图12是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0036]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0037]计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频属性确定方法,其特征在于,所述方法包括:获取目标视频的目标视频帧;对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征;对所述目标视频帧进行场景特征提取,得到所述目标视频的目标场景特征;对所述目标图像属性特征以及所述目标场景特征进行融合处理,得到目标融合特征;根据所述目标融合特征,确定所述目标视频的目标属性信息。2.根据权利要求1所述的方法,其特征在于,所述对所述目标视频帧进行对象特征提取,得到所述目标视频中目标对象的目标图像属性特征,包括:确定所述目标视频中至少两个目标对象各自的结构完整度和清晰度;将结构完整度大于第一阈值且清晰度大于第二阈值的对象,确定为第一目标对象,将所述至少两个目标对象中除所述第一目标对象之外的对象确定为第二目标对象;对所述第一目标对象进行对象特征提取,得到第一目标图像属性特征;对所述第二目标对象进行对象特征提取,得到第二目标图像属性特征;将所述第一目标图像属性特征以及所述第二目标图像属性特征作为所述目标图像属性特征。3.根据权利要求2所述的方法,其特征在于,所述对所述第二目标对象进行对象特征提取,得到第二目标图像属性特征,包括:对所述第二目标对象进行自重构特征提取,得到目标自重构特征;对所述第二目标对象进行属性描述特征提取,得到目标描述特征;将所述目标自重构特征以及所述目标描述特征,作为所述第二目标图像属性特征。4.根据权利要求3所述的方法,其特征在于,所述对所述第二目标对象进行自重构特征提取,得到目标自重构特征,包括:基于自重构特征提取模型,对所述第二目标对象进行自重构特征提取,得到所述目标自重构特征。5.根据权利要求4所述的方法,其特征在于,所述自重构特征提取模型的训练方法包括:将样本视频帧划分成至少两个网格图像;对至少一个网格图像进行图像处理,得到处理后视频帧;所述图像处理包括网格图像的位置更换、网格图像中部分图像的遮挡处理中的至少一种;基于所述处理后视频帧,对第一预设模型进行自重构特征提取训练,得到自重构特征;基于所述自重构特征,对第二预设模型进行图像重构训练,得到重构视频帧;在训练过程中,不断调整第一预设模型的第一模型参数以及第二预设模型的第二模型参数,直至所述第二预设模型输出的重构视频帧与所述样本视频帧相匹配;将当前第一模型参数所对应的第一预设模型,作为所述自重构特征提取模型;所述当前第一模型参数为所述第一预设模型,在所述第二预设模型输出的重构视频帧与所述样本视频帧相匹配时的模型参数。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标视频对应的目标音频以及目标文本;
对所述目标音频进行对象特征提取,得到所述目标对象的目标音频属性特征;对所述目标文本进行对象特征提取,得到所述目标对象的目标文本属性特征。7.根据权利要求6所述的方法,其特征在于,所述对所述目标图像属性特征以及所述目标场景特征进行融合处理,得到目标融合特征,包括:对所述目标图像属性特征、所述目标场景...

【专利技术属性】
技术研发人员:胡益珲岑杰鹏杨伟东祁雷马锴陈宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1