一种基于图像分割及动态阈值的字幕提取方法技术

技术编号：20222227 阅读：30 留言：0更新日期：2019-01-28 20:35

本发明专利技术公开了一种基于图像分割及动态阈值的字幕提取方法，包括步骤：S1、遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作；S2、分析矩形边界的特征，获取字幕区域的位置；S3、取定间隔的视频帧，对所述字幕区域进行图像分割；S4、对分割后的图形进行灰度化处理，根据灰度图像的像素直方分布获取二值化的动态阈值；S5、基于前序步骤中获得的动态阈值进行图像二值化操作，突出字幕图形，消除噪声像素点；S6、根据所述的动态阈值以及二值化图像进行判断，对不包含字幕的图像进行忽略，仅对包含字幕的图像进行字符识别；S7、汇总识别结果去重去冗，并将整个视频的字幕文本按照时间排列写入csv文件。实施本发明专利技术，能够有效滤除视频帧内的除字幕像素之外的干扰像素，实现字幕的抽取，并最终获得按时间排序的字幕文本文件。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图像分割及动态阈值的字幕提取方法
本专利技术涉及视频内的图像处理
，特别涉及一种基于图像分割和动态阈值的字幕提取方法。
技术介绍
视频是一种重要的文化载体，在视频中以字幕形式出现的字幕文本，为视频传播及理解提供了极大的便利。同时对于影视剧等视频媒体而言，翻译后的多语种平行字幕帮助了这一类文化产品的国际化传播。视频中的字幕文本在诸多领域都有着极高的价值，但是由于编码格式的限制，很多影视剧的流通格式都无法做到字幕分轨，导致字幕无法被单独作为物料抽离出来，对于学者的研究以及影视剧的特应性存储等方面提供了诸多阻碍。随着字幕技术以及视频播放软件的发展，字幕与视频的结合方式也分为三种：外挂字幕、内挂字幕和内嵌字幕。外挂字幕和内挂字幕具备一个相同特点，即稍加操作可以分离出一个单独的字幕文件，而内嵌字幕的视频文件中字幕与视频的结合方式则不存在这样的特点。内嵌字幕的视频文件(以mp4格式为例)是指字幕轨道无法单独分离，并且字幕文本已与视频的每一帧画面融合在一起一类的视频文件。其在观赏过程中与上述的二者没有差异，然而这一类视频文件中却无法提取出单独的字幕文件。对于一些需要对影视剧的对白文本进行独立研究的领域而言，使用内嵌字幕的视频文件会对其研究带来阻碍。视频内的字幕可以分为两种：(1)标注字幕：这种字幕是通过后期制作合成到视频流中去的,包含了对当前视频流内容的语义描述；(2)场景字幕：这种字幕是录制中环境和物体本身所携带的文字,如路牌上的路名、服装上的文字和产品上的商标等。场景字幕虽然包含了对视频内容的描述信息，但是对于视频内的语义描述并不具实际作用。一般地，需...

【技术保护点】
1.一种基于图像分割及动态阈值的字幕提取方法，包括步骤：S1、遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作；S2、分析矩形边界的特征，获取字幕区域的位置；S3、取定间隔的视频帧，对所述字幕区域进行图像分割；S4、对分割后的图形进行灰度化处理，根据灰度图像的颜色值的分布情况获取二值化的动态阈值；S5、基于前序步骤中获得的动态阈值进行图像二值化操作，突出字幕图形，消除噪声像素点；S6、根据所述的动态阈值以及二值化图像进行判断，对不包含字幕的图像进行忽略，仅对包含字幕的图像进行字符识别；S7、汇总识别结果去重去冗，并将整个视频的字幕文本按照时间排列写入csv文件。

【技术特征摘要】
1.一种基于图像分割及动态阈值的字幕提取方法，包括步骤：S1、遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作；S2、分析矩形边界的特征，获取字幕区域的位置；S3、取定间隔的视频帧，对所述字幕区域进行图像分割；S4、对分割后的图形进行灰度化处理，根据灰度图像的颜色值的分布情况获取二值化的动态阈值；S5、基于前序步骤中获得的动态阈值进行图像二值化操作，突出字幕图形，消除噪声像素点；S6、根据所述的动态阈值以及二值化图像进行判断，对不包含字幕的图像进行忽略，仅对包含字幕的图像进行字符识别；S7、汇总识别结果去重去冗，并将整个视频的字幕文本按照时间排列写入csv文件。2.如权利要求1所述的方法，其特征在于，所述步骤S1遍历视频内某一时段含字幕的视频帧，做轮廓查找和划定轮廓外部矩形边界的操作，包括：S11、取视频内包含字幕的一串时间连续的视频帧，在每一帧内做图像内的轮廓查找操作；S12、对轮廓区域做划定矩形边界操作，获取所有矩形边界框的纵坐标和高度。3.如权利要求1所述的方法，其特征在于，所述步骤S2分析矩形边界的特征，获取字幕区域的位置，包括：S21、对S12所述的所有矩形边界框的纵坐标和高度的数值进行汇总并整理成数组；S22、统计存储纵坐标数值的数组以及存储矩形框高度数值的数组内各数值出现的频率，得到出现频率最高的纵坐标数值以及高度值(由于字幕出现的频率远高于其余轮廓的图形，因而数组内频率最高的纵坐标数值和高度值对应为字幕矩形框的纵坐标和高度)。4.如权利要求1所述的方法，其特征在于，所述步骤S3取定间隔的视频帧，所述定间隔为600毫秒。5.如权利要求1所述的方法，其特征在于，所述步骤S3对所述字幕区域进行图像分割，包括步骤：S31、如权利要求3所述获取了字幕区域的纵坐标值以及高度值，由此便可确定字幕区域位置及大小，使用GrabCut方法对该区域进行运算，以确定作为前景的字幕图形区域的模型，同时确定背景的模型；S32、将所...

【专利技术属性】
技术研发人员：石民勇，艾莫尔夫，李春芳，王冬，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人