字幕识别方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36860941 阅读:22 留言:0更新日期:2023-03-15 18:30
本申请公开了一种字幕识别方法、装置、电子设备及可读存储介质,所述字幕识别方法包括:获取视频数据;检测所述视频数据对应的字幕文件;当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息;当检测到所述视频数据具备内置字幕信息时,遍历所述视频数据的所有文本框;基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕。本申请提供的字幕识别方案提高字幕识别的准确率。幕识别的准确率。幕识别的准确率。

【技术实现步骤摘要】
字幕识别方法、装置、电子设备及可读存储介质


[0001]本申请涉及通信领域,具体涉及一种字幕识别方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着多媒体技术和网络技术的迅速发展,现代计算机技术特别是海量数据存储与传输技术的成熟,视频作为一种主要的媒体类型在人们的生活、教育、娱乐等方面日益成为不可或缺的信息载体。视频文件播放,尤其是对于观看国外影片,字幕成为一个非常重要的部分。
[0003]目前的主流播放器都提供播放视频和在线字幕匹配的功能,但是匹配成功的效率差别很大,直接造成了播放字幕体验很差。造成这种问题的主要原因是,没有足够丰富的字幕文件与视频文件对应关系能够被播放客户端使用,从而导致播放匹配的命中率不高。

技术实现思路

[0004]针对上述技术问题,本申请提供一种字幕识别方法、装置、电子设备及可读存储介质,可以提高字幕识别的准确率。
[0005]为解决上述技术问题,本申请提供一种字幕识别方法,包括:获取视频数据;检测所述视频数据对应的字幕文件;当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息;当检测到所述视频数据具备内置字幕信息时,遍历所述视频数据的所有文本框;基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕。
[0006]可选的,在本申请的一些实施例中,所述基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕,包括:获取所述视频数据的分辨率;基于所述分辨率,构建初始矩阵;根据所述文本框、初始矩阵以及预设的运动检测算法,识别所述视频数据的字幕。
[0007]可选的,在本申请的一些实施例中,所述根据所述文本框、初始矩阵以及预设的运动检测算法,识别所述视频数据的字幕,包括:基于预设的运动检测算法,计算所述文本框的运动矢量;将当前处理的文本框确定为当前处理对象;计算所述当前处理对象与所述文本框之间的交并比;基于所述交并比、初始矩阵以及运动矢量,识别所述视频数据的字幕。
[0008]可选的,在本申请的一些实施例中,所述基于所述交并比、初始矩阵以及运动矢量,识别所述视频数据的字幕,包括:
基于所述交并比对所述文本框进行更新;根据所述初始矩阵以及运动矢量,对更新后文本框进行滤除处理;将处理后文本框的字幕确定为所述视频数据的字幕。
[0009]可选的,在本申请的一些实施例中,所述当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息,包括:确定所述视频数据中包含文字的帧数;检测所述帧数是否大于预设值;当检测到所述帧数大于预设值时,则遍历所述视频数据中的文本框;基于所述文本框,检测所述视频数据是否具有内置字幕信息。
[0010]可选的,在本申请的一些实施例中,所述获取视频数据,包括:获取视频链接;根据所述视频链接下载所述视频数据,并将所述视频数据转换为预设格式的视频数据。
[0011]可选的,在本申请的一些实施例中,所述基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕之后,还包括:根据所述内置字幕信息对所述视频数据进行语音对齐。
[0012]相应的,本申请还提供一种字幕识别装置,包括:获取模块,用于获取视频数据;第一检测模块,用于检测所述视频数据对应的字幕文件;第二检测模块,用于当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息;遍历模块,用于当检测到所述视频数据具备内置字幕信息时,遍历所述视频数据的所有文本框;识别模块,用于基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕。
[0013]本申请还提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
[0014]本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
[0015]如上所述,本申请提供一种字幕识别方法、装置、电子设备及可读存储介质,在获取视频数据后,检测所述视频数据对应的字幕文件,当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息,当检测到所述视频数据具备内置字幕信息时,遍历所述视频数据的所有文本框,最后,基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕。在本申请提供的字幕识别方案中,可以检测视频数据是否具有对应的字幕文件,当视频数据不具备字幕文件时,检测视频数据是否具备内置字幕信息,当检测到视频数据具备内置字幕信息时,根据视频数据的文本框以及预设的运动检测算法,识别视频数据的字幕,不依赖于视频数据的字幕文件,实现字幕识别,避免在缺乏字幕文件时无法识别视频的字幕或识别的字幕准确性不佳,可见,本方案可以提高字幕识别的准确率。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的字幕识别系统的结构示意图。
[0018]图2是本申请实施例提供的字幕识别方法的流程示意图。
[0019]图3是本申请实施例提供的字幕识别装置的结构示意图。
[0020]图4是本申请实施例提供的智能终端的结构示意图。
[0021]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0022]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0023]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
[0024]应当理解,此处所描述的具体实施例仅仅用以解释本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字幕识别方法,其特征在于,包括:获取视频数据;检测所述视频数据对应的字幕文件;当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息;当检测到所述视频数据具备内置字幕信息时,遍历所述视频数据的所有文本框;基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本框以及预设的运动检测算法,识别所述视频数据的字幕,包括:获取所述视频数据的分辨率;基于所述分辨率,构建初始矩阵;根据所述文本框、初始矩阵以及预设的运动检测算法,识别所述视频数据的字幕。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本框、初始矩阵以及预设的运动检测算法,识别所述视频数据的字幕,包括:基于预设的运动检测算法,计算所述文本框的运动矢量;将当前处理的文本框确定为当前处理对象;计算所述当前处理对象与所述文本框之间的交并比;基于所述交并比、初始矩阵以及运动矢量,识别所述视频数据的字幕。4.根据权利要求3所述的方法,其特征在于,所述基于所述交并比、初始矩阵以及运动矢量,识别所述视频数据的字幕,包括:基于所述交并比对所述文本框进行更新;根据所述初始矩阵以及运动矢量,对更新后文本框进行滤除处理;将处理后文本框的字幕确定为所述视频数据的字幕。5.根据权利要求2所述的方法,其特征在于,所述当未检测到所述视频数据对应的字幕文件时,检测所述视频数据是否具备内置字幕信息,...

【专利技术属性】
技术研发人员:刘艳鑫
申请(专利权)人:北京探境科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1