一种基于图像分割及动态阈值的字幕提取方法技术

技术编号:20222227 阅读:30 留言:0更新日期:2019-01-28 20:35
本发明专利技术公开了一种基于图像分割及动态阈值的字幕提取方法,包括步骤:S1、遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作;S2、分析矩形边界的特征,获取字幕区域的位置;S3、取定间隔的视频帧,对所述字幕区域进行图像分割;S4、对分割后的图形进行灰度化处理,根据灰度图像的像素直方分布获取二值化的动态阈值;S5、基于前序步骤中获得的动态阈值进行图像二值化操作,突出字幕图形,消除噪声像素点;S6、根据所述的动态阈值以及二值化图像进行判断,对不包含字幕的图像进行忽略,仅对包含字幕的图像进行字符识别;S7、汇总识别结果去重去冗,并将整个视频的字幕文本按照时间排列写入csv文件。实施本发明专利技术,能够有效滤除视频帧内的除字幕像素之外的干扰像素,实现字幕的抽取,并最终获得按时间排序的字幕文本文件。

【技术实现步骤摘要】
一种基于图像分割及动态阈值的字幕提取方法
本专利技术涉及视频内的图像处理
,特别涉及一种基于图像分割和动态阈值的字幕提取方法。
技术介绍
视频是一种重要的文化载体,在视频中以字幕形式出现的字幕文本,为视频传播及理解提供了极大的便利。同时对于影视剧等视频媒体而言,翻译后的多语种平行字幕帮助了这一类文化产品的国际化传播。视频中的字幕文本在诸多领域都有着极高的价值,但是由于编码格式的限制,很多影视剧的流通格式都无法做到字幕分轨,导致字幕无法被单独作为物料抽离出来,对于学者的研究以及影视剧的特应性存储等方面提供了诸多阻碍。随着字幕技术以及视频播放软件的发展,字幕与视频的结合方式也分为三种:外挂字幕、内挂字幕和内嵌字幕。外挂字幕和内挂字幕具备一个相同特点,即稍加操作可以分离出一个单独的字幕文件,而内嵌字幕的视频文件中字幕与视频的结合方式则不存在这样的特点。内嵌字幕的视频文件(以mp4格式为例)是指字幕轨道无法单独分离,并且字幕文本已与视频的每一帧画面融合在一起一类的视频文件。其在观赏过程中与上述的二者没有差异,然而这一类视频文件中却无法提取出单独的字幕文件。对于一些需要对影视剧的对白文本进行独立研究的领域而言,使用内嵌字幕的视频文件会对其研究带来阻碍。视频内的字幕可以分为两种:(1)标注字幕:这种字幕是通过后期制作合成到视频流中去的,包含了对当前视频流内容的语义描述;(2)场景字幕:这种字幕是录制中环境和物体本身所携带的文字,如路牌上的路名、服装上的文字和产品上的商标等。场景字幕虽然包含了对视频内容的描述信息,但是对于视频内的语义描述并不具实际作用。一般地,需要进行提取的是视频内的标注字幕。传统的字幕提取方法一般的流程包含字幕定位、字幕图像处理及字幕识别三个主要步骤。其中对于视频内的各类文字采取统一的定位方法,会同时判别出场景字幕及标注字幕,忽视了二者的主次关系,且提取结果混杂,不便于后续的处理及研究。根据我们的调查,目前流通的字幕提取方法及装置当中,虽然有可行的办法,但是其大多依赖于高性能的计算装置,或是对象视频较为单一不具备普适性。
技术实现思路
本专利技术的实施提供一种基于图像分割和动态阈值的字幕提取方法,主要面向以影视剧为代表的一类字幕定点的视频文件。本专利技术主要解决的技术问题在于,如何以高普适度的方式过滤掉含字幕视频帧内的噪声像素。目的是获得纯净的文字图形,以便光学字符识别程序进行识别,并加以有序存储。本专利技术的技术方案包含七个关键步骤:S1、遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作;S2、分析矩形边界的特征,获取字幕区域的位置;S3、取定间隔的视频帧,对所述字幕区域进行图像分割;S4、对分割后的图形进行灰度化处理,根据灰度图像的颜色值的分布情况获取二值化的动态阈值;S5、基于前序步骤中获得的动态阈值进行图像二值化操作,突出字幕图形,消除噪声像素点;S6、根据所述的动态阈值以及二值化图像进行判断,对不包含字幕的图像进行忽略,仅对包含字幕的图像进行字符识别;S7、汇总识别结果去重去冗,并将整个视频的字幕文本按照时间排列写入csv文件。所述步骤S1遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作,包括步骤:S11、取视频内包含字幕的一串时间连续的视频帧,在每一帧内做图像内的轮廓查找操作;S12、对轮廓区域做划定矩形边界操作,获取所有矩形边界框的纵坐标和高度。所述步骤S2分析矩形边界的特征,获取字幕区域的位置,包括步骤:S21、对S12所述的所有矩形边界框的纵坐标和高度的数值进行汇总并整理成数组;S22、统计存储纵坐标数值的数组以及存储矩形框高度数值的数组内各数值出现的频率,得到出现频率最高的纵坐标数值以及高度值(由于字幕出现的频率远高于其余轮廓的图形,因而数组内频率最高的纵坐标数值和高度值对应为字幕矩形框的纵坐标和高度);所述步骤S3中的对所述字幕区域进行图像分割,包括步骤:S31、通过S22步骤得到了字幕区域的纵坐标值以及高度值,由此便可确定字幕区域位置及大小,使用GrabCut方法对该区域进行运算,以确定作为前景的字幕图形区域的模型,同时确定背景的模型;S32、将所述图像内的像素点与前景和背景模型进行比对,并确定一个蒙版数组,该数组内表征前景的元素取1,背景区域的元素取0;S33、将蒙版数组与所述图像进行运算,实现图像分割,以达到将背景进行初步滤除的目标。基于实践测算,所述步骤S3取定间隔的视频帧中,定间隔取600毫秒。所述步骤S4中根据灰度图像的颜色值的分布情况获取二值化的动态阈值,包括步骤:S41、用浮点型灰度计算法对S3步骤的分割后图像进行灰度化处理,获得灰度图像;S42、确定S41步骤所得的灰度图形内所有像素点的颜色值的分布情况,根据分布判断图像内是否包含文字,并给二值化阈值参数赋值。不包含字幕的图像获阈值-1,包含字幕的图像根据颜色值的均值和标准差获得属于该图像的动态阈值。所述步骤S5基于前序步骤中获得的动态阈值进行图像二值化操作,包括步骤:S51、基于S42所述步骤,不包含字幕的图像阈值为-1,不进行二值化操作,包含字幕的图像则根据动态阈值进行二值化操作;S52、二值化的过程当中,字幕像素点的值高于阈值,背景像素点的值低于阈值,二值化将字幕像素点的颜色值取255,背景像素点取0,达到将S41所述灰度图像内的低于阈值的噪声像素点进行去除的目的;S53、基于S52所述步骤,将获得字幕纯白,背景纯黑的图像。进行反相操作,将文字像素点变为纯黑,背景更改为纯白。所述步骤S6对不包含字幕的图像进行忽略,对包含字幕的图像进行字符识别时,包括步骤:S61、基于S42步骤的阈值,可以判断出仅包含背景的图像阈值选取为-1,这一类图像不进行文字识别;S62、基于S42步骤的阈值,当值不为-1时进行识别,使用开源光学字符识别软件Tesseract-OCR进行识别所属步骤S7将整个视频的字幕文本按照时间排列写入csv文件,包括:对所识别出的字幕文本按照时间顺序进行排列,并包含两项参数:字幕出现的时间点以及识别出的字幕文本。附图说明图1为依照本专利技术实施例的基于图像分割及动态阈值的字幕提取方法的流程示意图;图2-1为依照本专利技术实施例的遍历含字幕视频帧,同时进行字幕区域轮廓查找并划定外部矩形边界的样例图;图2-2为字幕位置及大小示意图;图3-1至图3-5为依照本专利技术实施例的图像处理及字幕提取过程的步骤推进示意图。具体实施方式以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本专利技术,并不用于限定本专利技术。另外,以下所提供的实施例是用于实施本专利技术的部分实施例,而非提供实施本专利技术的全部实施例,在本领域技术人员不付出创造性劳动的前提下,对以下实施例的技术方案进行重组所得的实施例、以及基于对专利技术所实施的其他实施例均属于本专利技术的保护范围。如图1所示,本专利技术的技术方案包含七个关键步骤:S1、遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作;S2、分析矩形边界的特征,获取字幕区域的位置;S3、取定间隔的视频帧,对所述字幕区域进行图像分割;S4、对分割后的图形进行灰度化处理,根据灰度图像的颜色值的分布情况获取二值化的动本文档来自技高网
...

【技术保护点】
1.一种基于图像分割及动态阈值的字幕提取方法,包括步骤:S1、遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作;S2、分析矩形边界的特征,获取字幕区域的位置;S3、取定间隔的视频帧,对所述字幕区域进行图像分割;S4、对分割后的图形进行灰度化处理,根据灰度图像的颜色值的分布情况获取二值化的动态阈值;S5、基于前序步骤中获得的动态阈值进行图像二值化操作,突出字幕图形,消除噪声像素点;S6、根据所述的动态阈值以及二值化图像进行判断,对不包含字幕的图像进行忽略,仅对包含字幕的图像进行字符识别;S7、汇总识别结果去重去冗,并将整个视频的字幕文本按照时间排列写入csv文件。

【技术特征摘要】
1.一种基于图像分割及动态阈值的字幕提取方法,包括步骤:S1、遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作;S2、分析矩形边界的特征,获取字幕区域的位置;S3、取定间隔的视频帧,对所述字幕区域进行图像分割;S4、对分割后的图形进行灰度化处理,根据灰度图像的颜色值的分布情况获取二值化的动态阈值;S5、基于前序步骤中获得的动态阈值进行图像二值化操作,突出字幕图形,消除噪声像素点;S6、根据所述的动态阈值以及二值化图像进行判断,对不包含字幕的图像进行忽略,仅对包含字幕的图像进行字符识别;S7、汇总识别结果去重去冗,并将整个视频的字幕文本按照时间排列写入csv文件。2.如权利要求1所述的方法,其特征在于,所述步骤S1遍历视频内某一时段含字幕的视频帧,做轮廓查找和划定轮廓外部矩形边界的操作,包括:S11、取视频内包含字幕的一串时间连续的视频帧,在每一帧内做图像内的轮廓查找操作;S12、对轮廓区域做划定矩形边界操作,获取所有矩形边界框的纵坐标和高度。3.如权利要求1所述的方法,其特征在于,所述步骤S2分析矩形边界的特征,获取字幕区域的位置,包括:S21、对S12所述的所有矩形边界框的纵坐标和高度的数值进行汇总并整理成数组;S22、统计存储纵坐标数值的数组以及存储矩形框高度数值的数组内各数值出现的频率,得到出现频率最高的纵坐标数值以及高度值(由于字幕出现的频率远高于其余轮廓的图形,因而数组内频率最高的纵坐标数值和高度值对应为字幕矩形框的纵坐标和高度)。4.如权利要求1所述的方法,其特征在于,所述步骤S3取定间隔的视频帧,所述定间隔为600毫秒。5.如权利要求1所述的方法,其特征在于,所述步骤S3对所述字幕区域进行图像分割,包括步骤:S31、如权利要求3所述获取了字幕区域的纵坐标值以及高度值,由此便可确定字幕区域位置及大小,使用GrabCut方法对该区域进行运算,以确定作为前景的字幕图形区域的模型,同时确定背景的模型;S32、将所...

【专利技术属性】
技术研发人员:石民勇艾莫尔夫李春芳王冬
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1