当前位置: 首页 > 专利查询>燕山大学专利>正文

一种视频字幕提取方法及装置制造方法及图纸

技术编号:26172513 阅读:39 留言:0更新日期:2020-10-31 13:50
本发明专利技术公开发明专利技术了一种视频字幕提取方法及装置,属于数字图像处理领域,主要包括读取需要检测字幕的视频并进行字幕帧检测;对字幕帧中的字幕区域进行定位;字幕抽取及OCR识别。其中利用帧间角点差来进行字幕帧检测,并提出了部分像素累加法来对字幕帧中的字幕区域进行定位。本发明专利技术实现了对视频中嵌入式字幕的检测和提取,为实现检索和翻译等后续功能提供了保障。

【技术实现步骤摘要】
一种视频字幕提取方法及装置
本专利技术涉及数字图像处理领域,尤其涉及一种视频字幕提取方法及装置。
技术介绍
目前视频检索主要依靠标题关键字以及视频标签进行匹配,检索方式较为单一,并且标题关键字以及视频标签对视频内容的反映也不全面,为此,根据视频字幕内容进行视频检索可以作为补充检索方式之一。并且随全球化的到来,文字不通的情形时有发生,所以实现对视频字幕的自动翻译可提升用户体验。视频字幕的提取主要有两大关键点:对字幕帧的提取以及字幕位置的定位。常见的字幕帧提取技术有:基于直方图的算法、基于像素差的算法和基于轮廓的算法等;字幕位置定位常见的技术有:基于边缘的定位方法、基于连通区域的定位方法和基于机器学习的方法等。这些现有技术中存在计算效果差,计算量巨大等问题。
技术实现思路
针对上述现有视频字幕检测和提取的方法计算效果差、计算量巨大的问题,本专利技术的目的在于提供一种视频字幕提取方法及装置,以实现视频中嵌入式字幕的提取。本专利技术提供了如下技术方案:一方面,本专利技术提供了一种视频字幕提取方法,该方法包括:读取待检测字幕的视频;基于角点数目检测所述视频中的字幕帧;对各个字幕帧中的字幕区域进行定位;从定位出的字幕区域中抽取字幕并进行光学字符识别,得到字幕文字。优选地,所述基于角点数目检测所述视频中的字幕帧,包括:将所述视频中的每帧图像转换为灰度图像;对转换为灰度图像的每帧图像进行角点检测,并记录各帧的角点个数;将角点数目符合预设条件的帧作为字幕帧;所述预设条件包括:所述帧的角点个数大于前一帧的角点个数、所述帧的角点个数大于15;所述帧与前一帧之间的角点个数差值的绝对值大于平均值,所述平均值为所述帧及之后3秒内所有帧与各自上一帧之间的角点个数差值的绝对值的平均值。优选地,所述对各个字幕帧中的字幕区域进行定位,包括:针对各个字幕帧,将所述字幕帧转换为灰度图像;截取所述灰度图像底部四分之一高度的图像;使用拉普拉斯算子对截取出的图像进行边缘检测;使用大律法对边缘检测后的图像进行二值化处理;对二值化后的图像进行闭操作;使用部分像素累加法定位经过所述闭操作的图像中的字幕位置。优选地,所述从定位出的字幕区域中抽取字幕并进行光学字符识别,包括:读取字幕位置的坐标;根据坐标截取字幕部分的源图像并转换为灰度图像;对所述灰度图像进行中值滤波;使用拉普拉斯算法对经过中值滤波的图像进行边缘检测;使用大律法对所述图像进行二值化;对所述经过二值化的图像中的文字进行光学字符识别,得到字幕文字。优选地,所述使用部分像素累加法定位经过所述闭操作的图像中的字幕位置,包括:对经过所述闭操作的图像沿图像水平方向选取居中并连续在[L/2-L/40,L/2+L/40]长度范围内的所有像素列,设其中的像素的值为Oi;从i=1时开始计算并且i递加1,当Oi=1时计算该像素及下方连续20个像素值的和O_SUMup,其中,O_SUMup=Oi+Oi+1+Oi+2+Oi+3+...+Oi+20;当O_SUMup>10时,记录Oi的位置坐标(xi,yi),选取记录的所有位置坐标中最小的yi值,该yi值为字幕的顶部坐标的ymin值;从i=W时开始计算并且i递减1,当Oi=1时计算该像素及上方连续20个像素值的和O_SUMdown,其中,O_SUMdown=Oi+Oi-1+Oi-2+Oi-3+...+Oi-20;W为图像的像素宽度,L为图像的像素长度;当O_SUMdown>10时,记录Oi的位置坐标(xi,yi),选取记录的所有位置坐标中最大的yi值,该yi值为字幕的底部坐标的ymax值;对经过所述闭操作的图像沿图像竖直方向选取在[ymin,ymax]范围内的所有像素行,设其中的像素的值为Oj;从j=1时开始计算并且j递加1,计算右侧连续20个像素值的和O_SUMleft,其中,O_SUMleft=Oj+Oj+1+Oj+2+Oj+3+...+Oj+20;当O_SUMleft>10时,记录Oj的位置坐标(xj,yj),选取记录的所有位置坐标中最小的xj值,该xj值为字幕的左侧坐标的xmin值;从j=L时开始计算并且j递减1,计算左侧连续20个像素值的和O_SUMright,其中,O_SUMright=Oj+Oj-1+Oj-2+Oj-3+...+Oj-20;当O_SUMdown>10时,记录Oj的位置坐标(xj,yj),选取记录的所有位置坐标中最大的xj值,该xj值为字幕的右侧坐标的xmax值;保存字幕的位置坐标,其中所述字幕的左上角坐标为(xmin+5,ymin+5),右下角坐标为(xmax+5,ymax+5)。另一方面,本专利技术还提供了一种视频字幕提取装置,所述装置包括:读取单元,用于读取待检测字幕的视频;检测单元,用于基于角点数目检测所述读取单元读取的所述视频中的字幕帧;定位单元,用于对所述检测单元检测出的各个字幕帧中的字幕区域进行定位;提取单元,用于从所述定位单元定位出的字幕区域中抽取字幕并进行光学字符识别,得到字幕文字。优选地,所述检测单元具体用于:将所述视频中的每帧图像转换为灰度图像;对所述每帧图像进行角点检测,并记录各帧的角点个数;将角点数目符合预设条件的帧作为字幕帧;所述预设条件包括:所述帧的角点个数大于前一帧的角点个数、所述帧的角点个数大于15;所述帧与前一帧之间的角点个数差值的绝对值大于平均值,所述平均值为所述帧及之后3秒内所有帧与各自上一帧之间的角点个数差值的绝对值的平均值。优选地,所述定位单元具体用于:针对各个字幕帧,将所述字幕帧转换为灰度图像;截取所述灰度图像底部四分之一高度的图像;使用拉普拉斯算子对截取出的图像进行边缘检测;使用大律法对边缘检测后的图像进行二值化处理;对二值化后的图像进行闭操作;使用部分像素累加法定位经过所述闭操作的图像中的字幕位置。优选地,所述提取单元具体用于:读取字幕位置的坐标;根据坐标截取字幕部分的源图像并转换为灰度图像;对所述灰度图像进行中值滤波;使用拉普拉斯算法对经过中值滤波的图像进行边缘检测;使用大律法对所述图像进行二值化;对所述经过二值化的图像中的文字进行光学字符识别,得到字幕文字。优选地,所述定位单元用于使用部分像素累加法定位经过所述闭操作的图像中的字幕位置,包括:对经过所述闭操作的图像沿图像水平方向选取居中并连续在[L/2-L/40,L/2+L/40]长度范围内的所有像素列,设其中的像素的值为Oi;从i=1时开始计算并且i递加1,当Oi=1时计算该像素及下方连续20个像素值的和O_SUMup,其中,O_SUMup=Oi+Oi+1+Oi+2+Oi+3+...+Oi+20;当O_SUMup>10时,记录Oi的位置坐标(xi,yi),选取记录的所有位置坐标本文档来自技高网...

【技术保护点】
1.一种视频字幕提取方法,其特征在于,所述方法包括:/n读取待检测字幕的视频;/n基于角点数目检测所述视频中的字幕帧;/n对各个字幕帧中的字幕区域进行定位;/n从定位出的字幕区域中抽取字幕并进行光学字符识别,得到字幕文字。/n

【技术特征摘要】
1.一种视频字幕提取方法,其特征在于,所述方法包括:
读取待检测字幕的视频;
基于角点数目检测所述视频中的字幕帧;
对各个字幕帧中的字幕区域进行定位;
从定位出的字幕区域中抽取字幕并进行光学字符识别,得到字幕文字。


2.根据权利要求1所述的方法,其特征在于,所述基于角点数目检测所述视频中的字幕帧,包括:
将所述视频中的每帧图像转换为灰度图像;
对转换为灰度图像的每帧图像进行角点检测,并记录各帧的角点个数;
将角点数目符合预设条件的帧作为字幕帧;所述预设条件包括:所述帧的角点个数大于前一帧的角点个数、所述帧的角点个数大于15;所述帧与前一帧之间的角点个数差值的绝对值大于平均值,所述平均值为所述帧及之后3秒内所有帧与各自上一帧之间的角点个数差值的绝对值的平均值。


3.根据权利要求1所述的方法,其特征在于,所述对各个字幕帧中的字幕区域进行定位,包括:
针对各个字幕帧,将所述字幕帧转换为灰度图像;
截取所述灰度图像底部四分之一高度的图像;
使用拉普拉斯算子对截取出的图像进行边缘检测;
使用大律法对边缘检测后的图像进行二值化处理;
对二值化后的图像进行闭操作;
使用部分像素累加法定位经过所述闭操作的图像中的字幕位置。


4.根据权利要求1所述的方法,其特征在于,所述从定位出的字幕区域中抽取字幕并进行光学字符识别,包括:
读取字幕位置的坐标;
根据坐标截取字幕部分的源图像并转换为灰度图像;
对所述灰度图像进行中值滤波;
使用拉普拉斯算法对经过中值滤波的图像进行边缘检测;
使用大律法对所述图像进行二值化;
对所述经过二值化的图像中的文字进行光学字符识别,得到字幕文字。


5.根据权利要求3所述的方法,其特征在于,所述使用部分像素累加法定位经过所述闭操作的图像中的字幕位置,包括:
对经过所述闭操作的图像沿图像水平方向选取居中并连续在[L/2-L/40,L/2+L/40]长度范围内的所有像素列,设其中的像素的值为Oi;
从i=1时开始计算并且i递加1,当Oi=1时计算该像素及下方连续20个像素值的和O_SUMup,其中,O_SUMup=Oi+Oi+1+Oi+2+Oi+3+...+Oi+20;
当O_SUMup>10时,记录Oi的位置坐标(xi,yi),选取记录的所有位置坐标中最小的yi值,该yi值为字幕的顶部坐标的ymin值;
从i=W时开始计算并且i递减1,当Oi=1时计算该像素及上方连续20个像素值的和O_SUMdown,其中,O_SUMdown=Oi+Oi-1+Oi-2+Oi-3+...+Oi-20;W为图像的像素宽度,L为图像的像素长度;
当O_SUMdown>10时,记录Oi的位置坐标(xi,yi),选取记录的所有位置坐标中最大的yi值,该yi值为字幕的底部坐标的ymax值;
对经过所述闭操作的图像沿图像竖直方向选取在[ymin,ymax]范围内的所有像素行,设其中的像素的值为Oj;
从j=1时开始计算并且j递加1,计算右侧连续20个像素值的和O_SUMleft,其中,O_SUMleft=Oj+Oj+1+Oj+2+Oj+3+...+Oj+20;
当O_SUMleft>10时,记录Oj的位置坐标(xj,yj),选取记录的所有位置坐标中最小的xj值,该xj值为字幕的左侧坐标的xmin值;
从j=L时开始计算并且j递减1,计算左侧连续20个像素值的和O_SUMright,其中,O_SUMright=Oj+Oj-1+Oj-2+Oj-3+...+Oj-20;
当O_SUMdown>10时,记录Oj的位置坐标(xj,yj),选取记录的所有位置坐标中最大的xj值,该xj值为字幕的右侧坐标的xmax值;
保存字幕的位置坐标,其中所述字幕的左上角坐标为(xmin+5,ymin+5),右下角坐标为(xma...

【专利技术属性】
技术研发人员:田广军郎梦园张立国金梅张勇
申请(专利权)人:燕山大学
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1