字幕提取方法、装置、计算机设备、可读存储介质及产品制造方法及图纸

技术编号:33888916 阅读:23 留言:0更新日期:2022-06-22 17:23
本申请实施例公开了一种字幕提取方法、装置、计算机设备、可读存储介质及产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本申请实施例中字幕提取装置获取待处理视频;对所述待处理视频进行分帧处理,以得到多帧图片序列;对每帧图片进行文字检测处理,以识别所述每帧图片中的文字检测框;对每帧图片中的文字检测框进行时间上的轨迹跟随,得到所述待处理视频的文字检测框跟随轨迹集合;根据所述待处理视频的文字检测框跟随轨迹集合,确定参考字幕区域;基于所述参考字幕区域提取所述待处理视频的字幕。提高了字幕提取的准确性。性。性。

【技术实现步骤摘要】
字幕提取方法、装置、计算机设备、可读存储介质及产品


[0001]本申请涉及图像处理
,具体涉及一种字幕提取方法、装置、计算机设备、可读存储介质及产品。

技术介绍

[0002]现有的视频字幕提取方法很多不是对输入视频自动化的提取字幕,而是输入视频中字幕区域的图片,并从这些字幕图片中提取字幕。
[0003]现有的视频字幕提取方法很多采用传统的计算机视觉的方法(比如,边缘检测,图像滤波),视频文字检测和识别步骤采用的是传统的OCR,传统的OCR技术不能处理背景复杂的互联网视频中的文字,导致之前的字幕检测和字幕跟随方法针对的是简单视频,即视频中的除了字幕以外,没有其它文字或者其它文字很少。随着互联网视频的不断增多,视频中的文字种类也很多,字幕只是视频中的文字的一部分,视频中可能会出现很多其他非字幕的文字区域。对于这些包含很多文字的复杂视频,之前的方法无法准确提取并跟随到字幕。

技术实现思路

[0004]本申请实施例提供一种字幕提取方法、装置、计算机设备、可读存储介质及产品,可以提高字幕提取的效率。
[0005]一种字幕提取方法,包括:
[0006]获取待处理视频;
[0007]对所述待处理视频进行分帧处理,以得到多帧图片序列;
[0008]对每帧图片进行文字检测处理,以识别所述每帧图片中的文字检测框;
[0009]对每帧图片中的文字检测框进行时间上的轨迹跟随,得到所述待处理视频的文字检测框跟随轨迹集合;
[0010]根据所述待处理视频的文字检测框跟随轨迹集合,确定参考字幕区域;
[0011]基于所述参考字幕区域提取所述待处理视频的字幕。
[0012]相应地,本申请实施例提供一种字幕提取装置,包括:
[0013]获取单元,用于获取待处理视频;
[0014]分帧单元,用于对所述待处理视频进行分帧处理,以得到多帧图片序列;
[0015]检测单元,用于对每帧图片进行文字检测处理,以识别所述每帧图片中的文字检测框;
[0016]轨迹跟随单元,用于对每帧图片中的文字检测框进行时间上的轨迹跟随,得到所述待处理视频的文字检测框跟随轨迹集合;
[0017]确定单元,用于根据所述待处理视频的文字检测框跟随轨迹集合,确定参考字幕区域;
[0018]提取单元,用于基于所述参考字幕区域提取所述待处理视频的字幕。
[0019]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于对每帧图片中的文字
检测框进行时间上的轨迹跟随,以得到所述文字检测框的跟随轨迹集合;根据所述文字检测框的跟随轨迹集合,生成所述待处理视频的文字检测框跟随轨迹集合。
[0020]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于获取每相邻帧图片中文字检测框的文字编辑距离,以及所述相邻帧图片中每帧图片的对应的文字检测框的坐标信息;根据所述坐标信息与所述文字编辑距离,生成所述文字检测框的跟随轨迹集合。
[0021]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于根据所述坐标信息确定所述相邻帧图片中所述文字检测框的面积信息;若根据所述面积信息确定所述相邻帧图片中的文字检测框满足第一匹配条件,且根据所述文字编辑距离确定所述相邻帧图片中的文字检测框满足第二匹配条件,则将所述相邻帧图片中后一帧图片的文字检测框添加至前一帧图片的文字检测框对应的跟随轨迹集合中。
[0022]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于获取所述相邻帧图片中文字检测框的交集面积与并集面积;根据所述交集面积与并集面积计算所述相邻帧图片中文字检测框的并交比;若所述文字检测框的并交比大于或等于预设并交比,则确定所述文字检测框满足第一匹配条件。
[0023]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于若所述文字编辑距离小于或等于预设编辑距离,则确定所述文字检测框满足第二匹配条件。
[0024]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于采用预设文字识别算法识别相邻帧图片中的文字检测框内的文字内容;根据所述文字内容计算所述相邻帧图片中的文字检测框内的文字内容之间的文字编辑距离。
[0025]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于若根据所述面积信息确定所述相邻帧图片中的文字检测框不满足第一匹配条件,和/或根据所述文字编辑距离确定所述相邻帧图片中的文字检测框不满足第二匹配条件,则按照所述相邻帧图片中后一帧图片中的文字检测框初始化文字检测框的跟随轨迹集合。
[0026]可选的,在一些实施例中,所述轨迹跟随单元,具体可以用于若根据所述面积信息确定所述相邻帧图片中存在多个文字检测框满足第一匹配条件,且满足第二匹配条件,则根据所述多个文字检测框对应的并交比,从所述多个文字检测框中确定目标文字检测框;将所述目标文字检测框添加至所述相邻帧图片的前一帧图片中的所述文字检测框对应的跟随轨迹集合中。
[0027]可选的,在一些实施例中,所述确定单元,具体可以用于依次从所述待处理视频的文字检测框跟随轨迹集合中的每个文字检测框跟随轨迹中,选择一个参考文字检测框对应的坐标信息;根据预设算法与所述参考文字检测框对应的坐标信息,确定所述参考文字检测框对应图片区域的候选值;将所述候选值中最大值所对应的图片区域选定为参考字幕区域。
[0028]可选的,在一些实施例中,所述提取单元,具体可以用于获取所述参考字幕区域的坐标信息与所述待处理视频的文字检测框跟随轨迹集合中所有文字检测框的坐标信息;根据所述参考字幕区域的坐标信息与所述待处理视频的文字检测框跟随轨迹集合中所有文字检测框的坐标信息,提取所述待处理视频的字幕,其中,所述待处理视频的字幕区域的坐标信息与所述参考字区域的坐标信息之间的差值小于预设值。
[0029]此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存
储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的字幕提取方法。
[0030]此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种字幕提取方法中的步骤。
[0031]此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现以执行本申请实施例所提供的任一项所述的字幕提取方法。
[0032]本申请实施例中电子设备在获取待处理视频后,对该待处理视频进行分帧处理,以得到多帧图片序列,然后对每帧图片进行文字检测处理,以识别每帧图片中的文字检测框;然后,对每帧图片中的文字检测框进行轨迹跟随,得到该待处理视频的文字检测框跟随轨迹集合;然后根据该待处理视频的文字检测框跟随轨迹集合,确定参考字幕区域;基于该参考字幕区域提取该待处理视频的字幕。这样对待处理视频中所有文字进行检测并跟随文字检测框的轨迹,并根据每个文字检测框跟随轨迹计算待处理视频的字幕区域,从而区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字幕提取方法,其特征在于,包括:获取待处理视频;对所述待处理视频进行分帧处理,以得到多帧图片序列;对每帧图片进行文字检测处理,以识别所述每帧图片中的文字检测框;对每帧图片中的文字检测框进行时间上的轨迹跟随,得到所述待处理视频的文字检测框跟随轨迹集合;根据所述待处理视频的文字检测框跟随轨迹集合,确定参考字幕区域;基于所述参考字幕区域提取所述待处理视频的字幕。2.根据权利要求1所述的字幕提取方法,其特征在于,所述对每帧图片中的文字检测框进行时间上的轨迹跟随,得到所述待处理视频的文字检测框跟随轨迹集合,包括:对每帧图片中的文字检测框进行时间上的轨迹跟随,以得到所述文字检测框的跟随轨迹集合;根据所述文字检测框的跟随轨迹集合,生成所述待处理视频的文字检测框跟随轨迹集合。3.根据权利要求2所述的字幕提取方法,其特征在于,所述对每帧图片中的文字检测框进行时间上的轨迹跟随,以得到所述文字检测框的跟随轨迹集合包括:获取每相邻帧图片中文字检测框的文字编辑距离,以及所述相邻帧图片中每帧图片的对应的文字检测框的坐标信息;根据所述坐标信息与所述文字编辑距离,生成所述文字检测框的跟随轨迹集合。4.根据权利要求3所述的字幕提取方法,其特征在于,所述根据所述坐标信息与所述文字编辑距离,生成所述文字检测框的跟随轨迹集合包括:根据所述坐标信息确定所述相邻帧图片中所述文字检测框的面积信息;若根据所述面积信息确定所述相邻帧图片中的文字检测框满足第一匹配条件,且根据所述文字编辑距离确定所述相邻帧图片中的文字检测框满足第二匹配条件,则将所述相邻帧图片中后一帧图片的文字检测框添加至前一帧图片的文字检测框对应的跟随轨迹集合中。5.根据权利要求4所述的字幕提取方法,其特征在于,所述面积信息包括交集面积与并集面积,所述根据所述面积信息确定所述相邻帧图片中的文字检测框满足第一匹配条件包括:获取所述相邻帧图片中文字检测框的交集面积与并集面积;根据所述交集面积与并集面积计算所述相邻帧图片中文字检测框的并交比;若所述文字检测框的并交比大于或等于预设并交比,则确定所述文字检测框满足第一匹配条件。6.根据权利要求4所述的字幕提取方法,其特征在于,所述根据所述文字编辑距离确定所述相邻帧图片中的文字检测框满足第二匹配条件包括:若所述文字编辑距离小于或等于预设编辑距离,则确定所述文字检测框满足第二匹配条件。7.根据权利要求3所述的字幕提取方法,其特征在于,所述获取所述相邻帧图片中文字检测框的文字编辑距离包括:
采用预设文字识别算法识别相邻帧图片中的文字检测框内的文字内容;根据所述文字内容计算所述相邻帧图片中的文字检测框内的文字内容之间的文字编辑距离。8.根据权利要求4所述的字幕提取方法,其特征在于,所述方法还包括:若根据所述面积信息确定所述相邻帧图片中的文字检测框不满足第一匹配条件,和/或根据所述文字编辑距离确定所述相邻帧...

【专利技术属性】
技术研发人员:王洪松黄珊
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1