一种视频字幕提取方法及装置制造方法及图纸

技术编号：26172513 阅读：43 留言：0更新日期：2020-10-31 13:50

本发明专利技术公开发明专利技术了一种视频字幕提取方法及装置，属于数字图像处理领域，主要包括读取需要检测字幕的视频并进行字幕帧检测；对字幕帧中的字幕区域进行定位；字幕抽取及OCR识别。其中利用帧间角点差来进行字幕帧检测，并提出了部分像素累加法来对字幕帧中的字幕区域进行定位。本发明专利技术实现了对视频中嵌入式字幕的检测和提取，为实现检索和翻译等后续功能提供了保障。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频字幕提取方法及装置
本专利技术涉及数字图像处理领域，尤其涉及一种视频字幕提取方法及装置。
技术介绍
目前视频检索主要依靠标题关键字以及视频标签进行匹配，检索方式较为单一，并且标题关键字以及视频标签对视频内容的反映也不全面，为此，根据视频字幕内容进行视频检索可以作为补充检索方式之一。并且随全球化的到来，文字不通的情形时有发生，所以实现对视频字幕的自动翻译可提升用户体验。视频字幕的提取主要有两大关键点：对字幕帧的提取以及字幕位置的定位。常见的字幕帧提取技术有：基于直方图的算法、基于像素差的算法和基于轮廓的算法等；字幕位置定位常见的技术有：基于边缘的定位方法、基于连通区域的定位方法和基于机器学习的方法等。这些现有技术中存在计算效果差，计算量巨大等问题。
技术实现思路
针对上述现有视频字幕检测和提取的方法计算效果差、计算量巨大的问题，本专利技术的目的在于提供一种视频字幕提取方法及装置，以实现视频中嵌入式字幕的提取。本专利技术提供了如下技术方案：一方面，本专利技术提供了一种视频字幕提...

【技术保护点】
1.一种视频字幕提取方法，其特征在于，所述方法包括：/n读取待检测字幕的视频；/n基于角点数目检测所述视频中的字幕帧；/n对各个字幕帧中的字幕区域进行定位；/n从定位出的字幕区域中抽取字幕并进行光学字符识别，得到字幕文字。/n

【技术特征摘要】
1.一种视频字幕提取方法，其特征在于，所述方法包括：
读取待检测字幕的视频；
基于角点数目检测所述视频中的字幕帧；
对各个字幕帧中的字幕区域进行定位；
从定位出的字幕区域中抽取字幕并进行光学字符识别，得到字幕文字。

2.根据权利要求1所述的方法，其特征在于，所述基于角点数目检测所述视频中的字幕帧，包括：
将所述视频中的每帧图像转换为灰度图像；
对转换为灰度图像的每帧图像进行角点检测，并记录各帧的角点个数；
将角点数目符合预设条件的帧作为字幕帧；所述预设条件包括：所述帧的角点个数大于前一帧的角点个数、所述帧的角点个数大于15；所述帧与前一帧之间的角点个数差值的绝对值大于平均值，所述平均值为所述帧及之后3秒内所有帧与各自上一帧之间的角点个数差值的绝对值的平均值。

3.根据权利要求1所述的方法，其特征在于，所述对各个字幕帧中的字幕区域进行定位，包括：
针对各个字幕帧，将所述字幕帧转换为灰度图像；
截取所述灰度图像底部四分之一高度的图像；
使用拉普拉斯算子对截取出的图像进行边缘检测；
使用大律法对边缘检测后的图像进行二值化处理；
对二值化后的图像进行闭操作；
使用部分像素累加法定位经过所述闭操作的图像中的字幕位置。

4.根据权利要求1所述的方法，其特征在于，所述从定位出的字幕区域中抽取字幕并进行光学字符识别，包括：
读取字幕位置的坐标；
根据坐标截取字幕部分的源图像并转换为灰度图像；
对所述灰度图像进行中值滤波；
使用拉普拉斯算法对经过中值滤波的图像进行边缘检测；
使用大律法对所述图像进行二值化；
对所述经过二值化的图像中的文字进行光学字符识别，得到字幕文字。

5.根据权利要求3所述的方法，其特征在于，所述使用部分像素累加法定位经过所述闭操作的图像中的字幕位置，包括：
对经过所述闭操作的图像沿图像水平方向选取居中并连续在[L/2-L/40，L/2+L/40]长度范围内的所有像素列，设其中的像素的值为Oi；
从i＝1时开始计算并且i递加1，当Oi＝1时计算该像素及下方连续20个像素值的和O_SUMup，其中，O_SUMup＝Oi+Oi+1+Oi+2+Oi+3+...+Oi+20；
当O_SUMup＞10时，记录Oi的位置坐标(xi，yi)，选取记录的所有位置坐标中最小的yi值，该yi值为字幕的顶部坐标的ymin值；
从i＝W时开始计算并且i递减1，当Oi＝1时计算该像素及上方连续20个像素值的和O_SUMdown，其中，O_SUMdown＝Oi+Oi-1+Oi-2+Oi-3+...+Oi-20；W为图像的像素宽度，L为图像的像素长度；
当O_SUMdown＞10时，记录Oi的位置坐标(xi，yi)，选取记录的所有位置坐标中最大的yi值，该yi值为字幕的底部坐标的ymax值；
对经过所述闭操作的图像沿图像竖直方向选取在[ymin,ymax]范围内的所有像素行，设其中的像素的值为Oj；
从j＝1时开始计算并且j递加1，计算右侧连续20个像素值的和O_SUMleft，其中，O_SUMleft＝Oj+Oj+1+Oj+2+Oj+3+...+Oj+20；
当O_SUMleft＞10时，记录Oj的位置坐标(xj,yj)，选取记录的所有位置坐标中最小的xj值，该xj值为字幕的左侧坐标的xmin值；
从j＝L时开始计算并且j递减1，计算左侧连续20个像素值的和O_SUMright，其中，O_SUMright＝Oj+Oj-1+Oj-2+Oj-3+...+Oj-20；
当O_SUMdown＞10时，记录Oj的位置坐标(xj,yj)，选取记录的所有位置坐标中最大的xj值，该xj值为字幕的右侧坐标的xmax值；
保存字幕的位置坐标，其中所述字幕的左上角坐标为(xmin+5,ymin+5)，右下角坐标为(xma...

【专利技术属性】
技术研发人员：田广军，郎梦园，张立国，金梅，张勇，
申请(专利权)人：燕山大学，
类型：发明
国别省市：河北;13

全部详细技术资料下载我是这个专利的主人