视频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37678812 阅读:46 留言:0更新日期:2023-05-26 04:45
本公开关于一种视频处理方法、装置、电子设备及存储介质,所述方法包括:获取待处理视频中出现的多个文本信息;确定各个文本信息在所述待处理视频中的文本布局信息;将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性;所述功能属性用于表征每个文本信息的类型,所述来源属性用于表征所述文本信息的来源。该方法通过融合视频中文本的视觉、位置和文本等多种模态的信息,来实现对视频中文本的多个角度多个层次的分析的方法,可以显著提高对视频内容理解的准确度。高对视频内容理解的准确度。高对视频内容理解的准确度。

【技术实现步骤摘要】
视频处理方法、装置、电子设备及存储介质


[0001]本公开涉及互联网的
,尤其涉及一种视频处理方法、装置、电子设备、存储介质及程序产品。

技术介绍

[0002]随着短视频类媒体的兴起,一大批针对短视频内容理解的多模态算法应运而生,文本作为传达视频信息的重要载体,对视频的智能分析起着十分重要的作用。视频的多模态标签分类、搜索、广告算法、推荐算法都十分依赖于视频中的文本信息。
[0003]传统的视频文本分析技术主要是通过对视频进行抽帧,然后通过OCR(光学字符识别)算法获取其中的文本信息,然后提供给下游的算法做进一步地分析。然而,由于视频中的内容较多,通过OCR算法得到的结果中会存在大量噪音,这些噪音往往会干扰视频的主题表达,导致无法进行正确的主题判断。在短视频领域,由于视频抽帧算法的随机性以及创作内容的多样性,文本的表现形式的不确定性更大,噪音更复杂,导致传统分析方法并不能很好地进行视频中的文本分析。

技术实现思路

[0004]本公开提供一种视频处理方法、装置、电子设备、存储介质及程序产品,以至少解决相关技术中对视频本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取待处理视频中出现的多个文本信息;确定各个文本信息在所述待处理视频中的文本布局信息;所述文本布局信息用于表征所述各个文本信息对应的文本框在所述待处理视频中的位置信息;将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性;所述功能属性用于表征每个文本信息的类型,所述来源属性用于表征所述文本信息的来源。2.根据权利要求1所述的方法,其特征在于,所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性之前,还包括:基于所述待处理视频中出现的多个文本信息,对所述待处理视频进行抽帧处理,得到所述待处理视频的多个目标视频帧;所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性,包括:将所述待处理视频包含的各个目标视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性。3.根据权利要求2所述的方法,其特征在于,所述基于所述待处理视频中出现的多个文本信息,对所述待处理视频进行抽帧处理,得到所述待处理视频的多个目标视频帧,包括:确定当前目标视频帧集合以及所述当前目标视频帧集合已覆盖的文本信息;遍历其他视频帧,得到包含最多未覆盖的文本信息的新的目标视频帧;所述其他视频帧表示所述待处理视频中除所述当前目标视频帧集合中的目标视频帧之外的视频帧,所述未覆盖文本信息表示所述待处理视频中出现的多个文本信息中除所述已覆盖的文本信息之外的文本信息;将所述新的目标视频帧添加至所述当前目标视频帧集合,得到新的当前目标视频帧集合,并返回确定当前目标视频帧集合中已覆盖文本信息的步骤,直至得到的新的当前目标视频帧集合包含所述待处理视频中出现的所有文本信息,将包含所有文本信息的新的当前目标视频帧集合中的各个目标视频帧,确定为所述多个目标视频帧。4.根据权利要求1所述的方法,其特征在于,所述确定各个文本信息在所述待处理视频中的文本布局信息,包括:获取所述各个文本信息在所述待处理视频中的文本框位置信息;基于所述各个文本信息的文本框位置信息,分别确定各个文本信息对应文本框的倾斜信息;根据所述各个文本信息对应文本框的倾斜信息和所述各个文本信息的文本框位置信息,得到所述各个文本信息的文本布局信息。5.根据权利要求1所述的方法,其特征在于,所述属性分类模型包括特征提取子模型、
功能属性分类器和来源属性分类器;所述将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入训练完成的属性分类模型进行分类处理,得到所述待处理视频中的每个文本信息对应的功能属性和来源属性,还包括:将所述待处理视频包含的各个视频帧、所述各个文本信息以及所述各个文本信息的文本布局信息,输入所...

【专利技术属性】
技术研发人员:夏魁李聪汤野骏李家宏
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1