处理视频数据的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24997116 阅读:51 留言:0更新日期:2020-07-24 17:59
本申请涉及一种处理视频数据的方法、装置、计算机设备和存储介质。所述方法包括:获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。通过当前视频中的多个视频帧自适应确定出台词区域,采用自适应确定的台词区域对识别到的文本区域进行筛选,不同视频中的台词区域存在差异,直接根据同一视频中的多个视频帧确定的台词区域进行台词定位,提高了定位的准确度,从而提高台词区域的检测准确度。

【技术实现步骤摘要】
处理视频数据的方法、装置、计算机设备和存储介质
本申请涉及计算机
,尤其涉及一种处理视频数据的方法、装置、计算机设备和存储介质。
技术介绍
在文本搜索,文本翻译等应用场景中,需要首先对视频中的目标区域的文本区域进行提取,以便后续进行ocr识别和翻译。目前的文本检测算法是通过直接检测预先设置的视频区域中的文本信息,将处于该位置上的文本信息作为目标文本,但是,视频中除了目标文本所在区域外,还会有多处文本区域,文本检测算法直接检测出文本,会导致检测出来的区域可能包含非目标区域的文本信息,从而降低检测结果的准确度。
技术实现思路
为了解决上述技术问题,本申请提供了一种处理视频数据的方法、装置、计算机设备和存储介质。第一方面,本申请提供了一种处理视频数据的方法,包括:获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。第二方面,本申请提供了一种处理视频数据的装置,包括:文本检测模块,用于获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;信息获取模块,用于获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;区域确定模块,用于根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。上述处理视频数据的方法、装置、计算机设备和存储介质,所述方法包括:获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。通过当前视频中的多个视频序列帧自适应确定出台词区域,采用自适应确定的台词区域对识别到的文本区域进行筛选,不同视频中的台词区域存在差异,直接根据同一视频中的多个视频序列帧确定的台词区域进行台词定位,提高了定位的准确度,从而提高台词区域的检测准确度。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为一个实施例中处理视频数据的方法的应用环境图;图2为一个实施例中处理视频数据的方法的流程示意图;图3为一个实施例中处理视频数据的装置的结构框图;图4为一个实施例中计算机设备的内部结构图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为一个实施例中处理视频数据的方法的应用环境图。参照图1,该处理视频数据的方法应用于处理视频数据的系统。该处理视频数据的系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110或服务器120获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息;获取当前视频的台词区域信息,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。其中,终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图2所示,在一个实施例中,提供了一种处理视频数据的方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2,该处理视频数据的方法具体包括如下步骤:步骤S201,获取当前视频中的当前帧,对当前帧进行文本检测,得到当前帧的至少一个文本区域信息。具体地,当前视频是指正在处理的视频数据,当前视频可以为一部电视剧,也可以为一部电视剧中的一集,还可以是一部电影等等视频数据。当前帧是指正在处理的视频数据的视频帧,当检测到当前视频帧中存在文本区域时,得到文本区域的信息,即文本区域信息。文本区域信息包括文本区域的大小、位置等等信息。在一个实施例中,视频帧中可能也可能不存在文本区域,对于未检测到文本信息的视频帧时,获取下一个视频帧,对下一个图像帧进行文本检测。步骤S202,获取当前视频的台词区域信息。在本具体实施例中,当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的。步骤S203,根据台词区域信息对各个文本区域信息进行筛选,得到目标文本区域信息。具体地,对当前视频中的多个视频帧的文本区域信息进行筛选,在筛选时,对多个视频序列帧进行累加,对累积得到的视频帧进行区域筛选,得到台词区域,台词区域对应的信息为台词区域信息,台词区域信息包括区域大小、区域所在位置,其中位置可以用行和列的坐标表示。直接通过当前视频的多个视频序列帧的检测得到的文本区域自适应确定台词区域信息,可以得到较准确的台词区域。且视频序列帧可以是整个视频的序列帧,也可以是整个视频中的部分数据的序列帧。台词可以为电影的字幕、电视剧的字幕、或音乐片段的歌词等等。根据当前视频的多个视频序列帧确定的台词区域信息,对当前视频帧的各个文本区域信息进行匹配,将匹配的文本区域信息作为目标文本区域信息,识别目标文本区域信息对应的文本区域中的字符,得到台词。采用台词区域信息对各个文本区域信息进行本文档来自技高网...

【技术保护点】
1.一种处理视频数据的方法,其特征在于,所述方法包括:/n获取当前视频中的当前帧,对所述当前帧进行文本检测,得到所述当前帧的至少一个文本区域信息;/n获取所述当前视频的台词区域信息,所述当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;/n根据所述台词区域信息对各个所述文本区域信息进行筛选,得到目标文本区域信息。/n

【技术特征摘要】
1.一种处理视频数据的方法,其特征在于,所述方法包括:
获取当前视频中的当前帧,对所述当前帧进行文本检测,得到所述当前帧的至少一个文本区域信息;
获取所述当前视频的台词区域信息,所述当前视频的台词区域信息是根据当前视频的多个视频序列帧的文本区域信息确定的;
根据所述台词区域信息对各个所述文本区域信息进行筛选,得到目标文本区域信息。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述当前视频对应的多个原始视频帧,对各个所述原始视频帧进行文本检测得到对应的视频序列帧,各个所述视频序列帧的文本区域和非文本区域的像素值分别为1和0;
对各个所述视频序列帧进行累加,得到热图;
二值化所述热图,得到二值图像,所述二值图像中包含至少一个封闭区域,所述封闭区域的像素值为1;
根据预设台词区域约束规则从各个所述封闭区域中筛选出台词区域,得到所述台词区域信息。


3.根据权利要求2所述的方法,其特征在于,所述根据预设台词区域约束规则从各个所述封闭区域中筛选出台词区域,得到所述台词区域信息,包括:
判断各个所述封闭区域是否满足所述预设台词区域约束规则,所述预设台词区域约束规则包括:所述封闭区域的高度小于预设高度阈值,所述封闭区域的宽度小于第一预设宽度阈值,所述封闭区域的宽度大于第二预设宽度阈值,和所述封闭区域的起始像素位于预设位置的右边;
当所述封闭区域未满足所述预设台词区域约束规则中的至少一个规则时,将所述热图中与所述封闭区域对应的区域的像素值置为0,得到第二热图;
当所述二值图像中仅包含一个封闭区域满足所述预设台词区域约束规则时,将满足所述预设台词区域约束规则所述封闭区域作为所述台词区域;
根据所述第二热图与所述台词区域对应的区域计算所述台词区域信息。


4.根据权利要求3所述的方法,其特征在于,所述将所述热图中与所述封闭区域对应的区域的像素值置为0,得到第二热图之后,还包括:
当所述二值图像中满足所述预设台词区域约束规则的封闭区域多余一个时,则更新所述预设台词区域约束规则,得到更新的预设台词区域约束规则,其中,所述更新的所述预设台词区域约束规则中更新的参数包括所述预设高度阈值、所述第一预设宽度阈值和所述第二预设宽度阈值中的至少一个阈值;
执行判断各个所述封闭区域是否满足所述更新的预设台词区域约束规则。


5.根据权利要求3所述的方法,其特征在于,所述根据所述第二热图与所述台词区域对应的区域计算所述台词区域信息,包括:
统计所述第二热图的中多个预设列中包含预设像素值的行信息,得到对应的行数统计值和对应的行值集合;
从所述行数统计值中筛选出最大值作为目标行值,将所述目标行值对应的行值集合作为所述台词区域的行值集合;
统计所述目标行值对应的各行的像素中包含所述预设像素值的列信息,得到列数统计值和...

【专利技术属性】
技术研发人员:王晨旭
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1