【技术实现步骤摘要】
视频字幕实时翻译方法
本专利技术属于图像处理领域,具体涉及一种视频字幕实时翻译方法。
技术介绍
近年来,在自然场景图像中的文本检测和识别已经成为计算机视觉、模式识别甚至文档分析领域中的热门研究主题。研究人员提出了大量的从自然场景图像中提取文本信息的新想法和方法。然而,目前在对视频字幕进行翻译时,由于从图像中提取文本信息的时间复杂度较高,因此无法实现视频字幕实时翻译。
技术实现思路
本专利技术提供一种视频字幕实时翻译方法,以解决目前在对视频字幕进行翻译时,因从图像中提取文本信息的时间复杂度较高而无法实现视频字幕实时翻译的问题。根据本专利技术实施例的第一方面,提供一种视频字幕实时翻译方法,包括:对从视频中截取的原始图像进行多通道提取,获得多个单通道图像;基于最大稳定极值区域MSER算法,分别提取原始图像和多个单通道图像的MSER区域;引入局部对比度文本特征,计算各个MSER区域与其背景区域之间的局部对比度,并根据各个局部对比度,确定是否将对应的MSER区域滤除;引入边界关键点文本特征,确定各个MSER区域的边界关键点;以所述边界关键点作为分类筛选特征,对滤除后所剩各个MS ...
【技术保护点】
一种视频字幕实时翻译方法,其特征在于,包括:对从视频中截取的原始图像进行多通道提取,获得多个单通道图像;基于最大稳定极值区域MSER算法,分别提取原始图像和多个单通道图像的MSER区域;引入局部对比度文本特征,计算各个MSER区域与其背景区域之间的局部对比度,并根据各个局部对比度,确定是否将对应的MSER区域滤除;引入边界关键点文本特征,确定各个MSER区域的边界关键点;以所述边界关键点作为分类筛选特征,对滤除后所剩各个MSER区域通过训练后的支持向量机SVM进行分类筛选,获得文本区域;根据竖直方向上每相邻两个文本区域之间的距离,对各个文本区域进行文本行区分,根据同一文本行 ...
【技术特征摘要】
1.一种视频字幕实时翻译方法,其特征在于,包括:对从视频中截取的原始图像进行多通道提取,获得多个单通道图像;基于最大稳定极值区域MSER算法,分别提取原始图像和多个单通道图像的MSER区域;引入局部对比度文本特征,计算各个MSER区域与其背景区域之间的局部对比度,并根据各个局部对比度,确定是否将对应的MSER区域滤除;引入边界关键点文本特征,确定各个MSER区域的边界关键点;以所述边界关键点作为分类筛选特征,对滤除后所剩各个MSER区域通过训练后的支持向量机SVM进行分类筛选,获得文本区域;根据竖直方向上每相邻两个文本区域之间的距离,对各个文本区域进行文本行区分,根据同一文本行上每相邻两个文本区域之间的距离,对同一文本行的各个文本区域进行分类;基于分类后的各个文本区域进行视频字幕实时翻译。2.根据权利要求1所述的视频字幕实时翻译方法,其特征在于,在对从视频中截取的原始图像进行多通道提取,获得多个单通道图像之前,所述方法还包括:对所述原始图像进行包括锐化和模糊的预处理。3.根据权利要求2所述的视频字幕实时翻译方法,其特征在于,所述对从视频中截取的原始图像进行多通道提取,获得多个单通道图像包括:对所述原始图像和预处理后的原始图像分别进行R、G、B、H、S、V六个通道的图像提取,从而获得多个单通道图像。4.根据权利要求1所述的视频字幕实时翻译方法,其特征在于,所述计算出各个MSER区域与其背景区域之间的局部对比度,并根据各个局部对比度,确定是否将对应的MSER区域滤除包括:根据以下公式计算出各个MSER区域与其背景之间的局部对比度lc:其中,n表示对应MSER区域的像素个数,k表示对应背景区域的像素点个数,Ri、Gi、Bi分别表示对应MSER区域所在图像的三个通道红、绿、蓝的取值,i表示对应MSER区域的第i个像素点,j表示对应背景区域的第j个像素点;针对每个MSER区域,若该MSER区域的局部对比度小于第一预设阈值,则将该MSER区域滤除。5.根据权利要求1所述的视频字幕实时翻译方法,其特征在于,所述确定各个所述MSER区域的边界关键点包括:针对每个MSER区域,将该MSER区域中检测到MSER像素点的...
【专利技术属性】
技术研发人员:代劲,王族,宋娟,张鹏,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。