视频文字处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37781889 阅读:13 留言:0更新日期:2023-06-09 09:12
本发明专利技术公开了一种视频文字处理方法、装置、电子设备及存储介质,该方法包括:获取视频流中每个图像帧的文字单元,得到所述视频流的文字单元集合;然后对所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合;最后基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息。由此在对各种视频内容文字信息进行提取时,文字信息的准确性更高,能够使得语法更通顺,并减少语句错乱的问题,可以提供更为准确的输出信息以进行大数据分析。更为准确的输出信息以进行大数据分析。更为准确的输出信息以进行大数据分析。

【技术实现步骤摘要】
视频文字处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,具体涉及一种视频文字处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前基于大数据进行分析应用场景越来越丰富,在各行各业中均可以采用大数据分析结果进行分析,进而预测并推荐产生各种服务和产品,而大数据分析业务依赖海量原始数据信息,而近几年各种各种视频平台兴起,各种视频平台能够提供大量的视频原始数据,对于视频平台提供的视频数据中存在大量丰富可提取的文字信息,因此对于如何准确提取短视频有用文字信息变得非常重要;在现有技术中针对各种视频内容文字信息进行提取时,文字信息的存在准确性差、语法不通顺、语句错乱等问题,难以提供更为准确的输出信息以进行大数据分析。

技术实现思路

[0003]第一方面,本专利技术的主要目的是提供一种视频文字处理方法,包括:
[0004]获取视频流中每个图像帧的文字单元,得到所述视频流的文字单元集合;
[0005]对所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合;
[0006]基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息。
[0007]可选地,所述获取视频流中每个图像帧的文字单元,得到所述视频流的文字单元集合,包括:
[0008]获取视频流;
[0009]对所述视频流进行抽帧处理,得到图像帧集合;
[0010]对所述图像帧集合中每个图像帧的各个文字区域进行文字提取,得到每个文字区域对应的文字单元;
[0011]对所述图像帧集合中提取的多个所述文字单元进行筛选,得到所述视频流的文字单元集合。
[0012]可选地,所述对所述图像帧集合中提取的多个所述文字单元进行筛选,得到所述视频流的文字单元集合,包括:
[0013]根据每个图像帧中的文字单元,确定所述文字单元的识别分数;所述识别分数为对所述图像帧进行文字提取时得到;
[0014]若所述文字单元的识别分数小于预定阈值,将所述文字单元剔除以得到所述视频流的文字单元集合。
[0015]可选地,所述对所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合,包括:
[0016]将所述文字单元集合中包含预定文字的文字单元剔除,得到筛选后的文字单元集合;
[0017]根据筛选后的所述文字单元集合,确定所述文字单元集合中各个文字单元的位置坐标;所述位置坐标为所述文字单元在所述图像帧中的坐标;
[0018]根据所述位置坐标对各个所述文字单元进行聚类,得到聚类簇集合。
[0019]可选地,所述基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息,包括:
[0020]基于所述聚类簇集合中的各个聚类簇,确定每个聚类簇中的各个文字单元的字体大小;
[0021]根据各个所述文字单元的字体大小对所述聚类簇进行分类,并确定出分类后的各个所述聚类簇对应的标签类别;
[0022]根据各个所述聚类簇对应的标签类别对每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息。
[0023]可选地,所述根据各个所述文字单元的字体大小对所述聚类簇进行分类,得到分类后的聚类簇集合,包括:
[0024]根据各个所述文字单元的字体大小进行分类,得到分类后的聚类簇;
[0025]根据分类后的所述聚类簇确定出每个所述聚类簇中各个文字单元的内容重复率,并根据所述内容重复率对各个所述聚类簇再次进行分类,得到分类完成的聚类簇集合。
[0026]可选地,所述根据各个所述聚类簇对应的标签类别对每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息,包括:
[0027]根据所述聚类簇集合中各个聚类簇的标签类别赋予对应的标签,并确定每个聚类簇中各个文字单元对应的帧序号;
[0028]根据为各个所述聚类簇所赋予的标签,以及每个聚类簇中各个文字单元对应的帧序号对各个所述文字单元进行拼接,得到所述视频流的文字信息。
[0029]第二方面,本专利技术实施例提供了一种视频文字处理装置,包括:
[0030]获取模块,用于获取视频流中每个图像帧的文字单元,得到所述视频流的文字单元集合;
[0031]筛选模块,用于根据所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合;
[0032]拼接模块,用于基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息。
[0033]第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的视频文字处理方法的步骤。
[0034]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述的视频文字处理方法的步骤。
[0035]本专利技术的上述方案至少包括以下有益效果:
[0036]本专利技术提供的视频文字处理方法,首先获取视频流中每个图像帧的文字单元,得
到所述视频流的文字单元集合;然后对所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合;最后基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息。由此在对各种视频内容文字信息进行提取时,文字信息的准确性更高,能够使得语法更通顺,并减少语句错乱的问题,可以提供更为准确的输出信息以进行大数据分析。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0038]图1为本专利技术实施例提供的视频文字处理方法的整体流程示意图;
[0039]图2为本专利技术实施例提供的视频文字处理方法的示例图;
[0040]图3为本专利技术实施例提供的视频文字处理装置的结构框图;
[0041]图4为本专利技术实施例提供的电子设备的结构框图。
[0042]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频文字处理方法,其特征在于,包括:获取视频流中每个图像帧的文字单元,得到所述视频流的文字单元集合;对所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合;基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息。2.根据权利要求1所述的视频文字处理方法,其特征在于,所述获取视频流中每个图像帧的文字单元,得到所述视频流的文字单元集合,包括:获取视频流;对所述视频流进行抽帧处理,得到图像帧集合;对所述图像帧集合中每个图像帧的各个文字区域进行文字提取,得到每个文字区域对应的文字单元;对所述图像帧集合中提取的多个所述文字单元进行筛选,得到所述视频流的文字单元集合。3.根据权利要求2所述的视频文字处理方法,其特征在于,所述对所述图像帧集合中提取的多个所述文字单元进行筛选,得到所述视频流的文字单元集合,包括:根据每个图像帧中的文字单元,确定所述文字单元的识别分数;所述识别分数为对所述图像帧进行文字提取时得到;若所述文字单元的识别分数小于预定阈值,将所述文字单元剔除以得到所述视频流的文字单元集合。4.根据权利要求2所述的视频文字处理方法,其特征在于,所述对所述文字单元集合中的各个文字单元进行筛选,并将筛选后的文字单元进行聚类,得到聚类簇集合,包括:将所述文字单元集合中包含预定文字的文字单元剔除,得到筛选后的文字单元集合;根据筛选后的所述文字单元集合,确定所述文字单元集合中各个文字单元的位置坐标;所述位置坐标为所述文字单元在所述图像帧中的坐标;根据所述位置坐标对各个所述文字单元进行聚类,得到聚类簇集合。5.根据权利要求1所述的视频文字处理方法,其特征在于,所述基于所述聚类簇集合中的各个聚类簇进行分类,并将分类后的每个聚类簇中的文字单元进行拼接,得到所述视频流的文字信息,包括:基于所述聚类簇集合中的各个聚类簇,确定每个聚类簇中的各个文字单元的字体大小;...

【专利技术属性】
技术研发人员:程冰石小华尹义苏建钢蔡俊辉
申请(专利权)人:深圳云天励飞技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1