视频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37678812 阅读:44 留言:0更新日期:2023-05-26 04:45
本公开关于一种视频处理方法、装置、电子设备及存储介质,所述方法包括:获取待处理视频中出现的多个文本信息;确定各个文本信息在所述待处理视频中的文本布局信息;将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性;所述功能属性用于表征每个文本信息的类型,所述来源属性用于表征所述文本信息的来源。该方法通过融合视频中文本的视觉、位置和文本等多种模态的信息,来实现对视频中文本的多个角度多个层次的分析的方法,可以显著提高对视频内容理解的准确度。高对视频内容理解的准确度。高对视频内容理解的准确度。

【技术实现步骤摘要】
视频处理方法、装置、电子设备及存储介质


[0001]本公开涉及互联网的
,尤其涉及一种视频处理方法、装置、电子设备、存储介质及程序产品。

技术介绍

[0002]随着短视频类媒体的兴起,一大批针对短视频内容理解的多模态算法应运而生,文本作为传达视频信息的重要载体,对视频的智能分析起着十分重要的作用。视频的多模态标签分类、搜索、广告算法、推荐算法都十分依赖于视频中的文本信息。
[0003]传统的视频文本分析技术主要是通过对视频进行抽帧,然后通过OCR(光学字符识别)算法获取其中的文本信息,然后提供给下游的算法做进一步地分析。然而,由于视频中的内容较多,通过OCR算法得到的结果中会存在大量噪音,这些噪音往往会干扰视频的主题表达,导致无法进行正确的主题判断。在短视频领域,由于视频抽帧算法的随机性以及创作内容的多样性,文本的表现形式的不确定性更大,噪音更复杂,导致传统分析方法并不能很好地进行视频中的文本分析。

技术实现思路

[0004]本公开提供一种视频处理方法、装置、电子设备、存储介质及程序产品,以至少解决相关技术中对视频内容分析不准确的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种视频处理方法,包括:
[0006]获取待处理视频中出现的多个文本信息;
[0007]确定各个文本信息在所述待处理视频中的文本布局信息;所述文本布局信息用于表征所述各个文本信息对应的文本框在所述待处理视频中的位置信息;
[0008]将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性;所述功能属性用于表征每个文本信息的类型,所述来源属性用于表征所述文本信息的来源。
[0009]在一示例性实施例中,所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性之前,还包括:
[0010]基于所述待处理视频中出现的多个文本信息,对所述待处理视频进行抽帧处理,得到所述待处理视频的多个目标视频帧;
[0011]所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性,包括:
[0012]将所述待处理视频包含的各个目标视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频
中的每个文本信息对应的功能属性和来源属性。
[0013]在一示例性实施例中,所述基于所述待处理视频中出现的多个文本信息,对所述待处理视频进行抽帧处理,得到所述待处理视频的多个目标视频帧,包括:
[0014]确定当前目标视频帧集合以及所述当前目标视频帧集合已覆盖的文本信息;
[0015]遍历其他视频帧,得到包含最多未覆盖的文本信息的新的目标视频帧;所述其他视频帧表示所述待处理视频中除所述当前目标视频帧集合中的目标视频帧之外的视频帧,所述未覆盖文本信息表示所述待处理视频中出现的多个文本信息中除所述已覆盖的文本信息之外的文本信息;
[0016]将所述新的目标视频帧添加至所述当前目标视频帧集合,得到新的当前目标视频帧集合,并返回确定当前目标视频帧集合中已覆盖文本信息的步骤,直至得到的新的当前目标视频帧集合包含所述待处理视频中出现的所有文本信息,将包含所有文本信息的新的当前目标视频帧集合中的各个目标视频帧,确定为所述多个目标视频帧。
[0017]在一示例性实施例中,所述确定各个文本信息在所述待处理视频中的文本布局信息,包括:
[0018]获取所述各个文本信息在所述待处理视频中的文本框位置信息;
[0019]基于所述各个文本信息的文本框位置信息,分别确定各个文本信息对应文本框的倾斜信息;
[0020]根据所述各个文本信息对应文本框的倾斜信息和所述各个文本信息的文本框位置信息,得到所述各个文本信息的文本布局信息。
[0021]在一示例性实施例中,所述属性分类模型包括特征提取子模型、功能属性分类器和来源属性分类器;
[0022]所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性,还包括:
[0023]将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入所述特征提取子模型进行特征提取处理,得到所述特征提取子模型的第一层级的输出特征和第二层级的输出特征;其中,第二层级在所述特征提取子模型中的层级深度大于第一层级在所述特征提取子模型中的层级深度;
[0024]将所述第一层级的输出特征,输入所述来源属性分类器进行分类处理,得到所述待处理视频中的每个文本信息对应的来源属性;
[0025]将所述第二层级的输出特征,输入所述功能属性分类器进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性。
[0026]在一示例性实施例中,所述功能属性分类器包括初级分类器和次级分类器;
[0027]所述将所述第二层级的输出特征,输入所述功能属性分类器进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性,包括:
[0028]通过所述功能属性分类器中的初级分类器,对所述第二层级的输出特征进行初次分类处理,得到所述待处理视频中的每个文本信息对应的初级功能信息;
[0029]通过所述功能属性分类器中的次级分类器,对所述初级功能信息进行再次分类处理,得到所述待处理视频中的每个文本信息对应的功能属性。
[0030]在一示例性实施例中,所述获取待处理视频中出现的多个文本信息,包括:
[0031]通过视频文字识别模型,对待处理视频进行文字识别处理,得到所述待处理视频中出现的多个文本信息;或者,
[0032]通过图像文字识别模型,分别对所述待处理视频包含的各个视频帧进行文字识别处理,得到所述待处理视频中出现的多个文本信息。
[0033]在一示例性实施例中,所述属性分类模型的训练过程包括:
[0034]获取样本数据集;所述样本数据集包括样本视频、样本视频中出现的多个样本文本信息、各个样本文本信息在对应样本视频帧中的文本布局信息,以及各个样本文本信息的功能属性标签和来源属性标签;
[0035]将所述样本视频包含的各个样本视频帧、所述各个样本文本信息以及所述各个样本文本信息的文本布局信息,输入待训练的属性分类模型进行分类处理,得到针对每个样本文本信息的预测功能属性和预测来源属性;
[0036]基于所述预测功能属性与所述功能属性标签之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取待处理视频中出现的多个文本信息;确定各个文本信息在所述待处理视频中的文本布局信息;所述文本布局信息用于表征所述各个文本信息对应的文本框在所述待处理视频中的位置信息;将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性;所述功能属性用于表征每个文本信息的类型,所述来源属性用于表征所述文本信息的来源。2.根据权利要求1所述的方法,其特征在于,所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性之前,还包括:基于所述待处理视频中出现的多个文本信息,对所述待处理视频进行抽帧处理,得到所述待处理视频的多个目标视频帧;所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性,包括:将所述待处理视频包含的各个目标视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性。3.根据权利要求2所述的方法,其特征在于,所述基于所述待处理视频中出现的多个文本信息,对所述待处理视频进行抽帧处理,得到所述待处理视频的多个目标视频帧,包括:确定当前目标视频帧集合以及所述当前目标视频帧集合已覆盖的文本信息;遍历其他视频帧,得到包含最多未覆盖的文本信息的新的目标视频帧;所述其他视频帧表示所述待处理视频中除所述当前目标视频帧集合中的目标视频帧之外的视频帧,所述未覆盖文本信息表示所述待处理视频中出现的多个文本信息中除所述已覆盖的文本信息之外的文本信息;将所述新的目标视频帧添加至所述当前目标视频帧集合,得到新的当前目标视频帧集合,并返回确定当前目标视频帧集合中已覆盖文本信息的步骤,直至得到的新的当前目标视频帧集合包含所述待处理视频中出现的所有文本信息,将包含所有文本信息的新的当前目标视频帧集合中的各个目标视频帧,确定为所述多个目标视频帧。4.根据权利要求1所述的方法,其特征在于,所述确定各个文本信息在所述待处理视频中的文本布局信息,包括:获取所述各个文本信息在所述待处理视频中的文本框位置信息;基于所述各个文本信息的文本框位置信息,分别确定各个文本信息对应文本框的倾斜信息;根据所述各个文本信息对应文本框的倾斜信息和所述各个文本信息的文本框位置信息,得到所述各个文本信息的文本布局信息。5.根据权利要求1所述的方法,其特征在于,所述属性分类模型包括特征提取子模型、
功能属性分类器和来源属性分类器;所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性,还包括:将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入所...

【专利技术属性】
技术研发人员:夏魁李聪汤野骏李家宏
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1