基于广电字幕识别的训练数据自动生成和深度学习方法技术

技术编号:9866523 阅读:408 留言:0更新日期:2014-04-03 02:45
本发明专利技术公开了一种基于广电字幕识别的训练数据自动生成和深度学习方法,包括步骤:S1、模拟广播电视字幕数据,构建海量视频字符训练集;S2、在所述海量视频字符训练集中提取统计量字符特征,量化所述模拟字幕数据;S3、使用深层神经网络训练字幕识别模型,捕捉广播视频中字幕文本的拓扑结构;S4、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。根据本发明专利技术,通过自动构建海量模拟训练数据,有效解决海量标注数据难以获取的难题;通过结合新的深度学习方法与传统字符识别技术,准确捕捉广播视频中字幕文本的拓扑结构,从而解决现有字符识别技术不适用于广播电视字幕文本的识别问题。

【技术实现步骤摘要】

本专利技术涉及面向三网融合的广播电视新媒体内容管理与分发
,特别涉及一种基于广播电视字幕识别的训练数据自动生成和深度学习方法。
技术介绍
伴随信息技术和通讯技术的不断发展,大量广播视频信息(各类新闻、电视节目、网络电视等)不断涌现,广播视频逐渐成为人们获取日常信息的一种重要媒介。根据2011年国家统计局发布的数据显示,截至2011年,我国广播电视节目综合人口覆盖率已达到97.6%,从中可以看到,在面向三网融合的广播电视新媒体内容管理与分发领域具有非常巨大的社会效益和商业价值。广播视频中的字幕文字是一种高级语义信息,能够为媒体内容管理与分发提供重要的辅助信息。如果能将其视频中的字幕文字准确识别出来,识别内容可广泛用于基于内容的视频存储、标记与检索等应用。时至今日,光学字符识别技术已经取得长足进步并孵化出非常成功的应用。例如,在印刷文档和手写文档识别领域,目前技术已经可以高精度地将大量印刷、手写文档转化为数字文档,极大地提升了以数字图书馆为案例的文化产业数字化建设速度。然而,在广播电视事业不断发展的大背景下,面对广播视频资源中字幕识别的需求,传统的字符识别技术面临着新的困难和挑战,主要存在问题如下:1、广播视频中的字幕文本分辨率低。传统扫描文档中文本字符的分辨率一般不低于300dpi,且背景极其简单;而广播视频中字幕文本的高度往往只有十几到三十几个象素,且背景异常复杂,导致传统的字符识别技术性能直线下降,效果无法接受。2、广播视频中字幕文本的背景复杂、字幕效果多样。图像二值化是传统字符识别技术中最为关键的一步,即将字符文本从其背景中分离出来,获取像素级的文本区域,为后续的识别处理提供输入,该步骤的性能也将直接影响最终的识别结果。然而因海量复杂多样的视频资源和先进非线编工具软件的存在,大量广播视频中的字幕文本往往背景极其复杂,且字幕文本的艺术效果丰富多彩,这直接导致图像二值化性能退化,进而限制字符识别的最终效果。为解决上述问题,有必要融合新的深度学习方法与传统字符识别技术,并针对海量带标注真实数据难以获取的难题,提出模拟数据的自动构建方法,从而辅助提高广播视频中字幕文本的识别精度。
技术实现思路
(一)要解决的技术问题本专利技术所要解决的技术问题是:如何提供一种,将新的深度学习方法与传统字符识别技术相结合,并构建海量模拟训练数据,满足深层神经网络对大数据的需求,进而实现对广播视频中字幕文本的有效识别,为海量广播电视内容的深入开发利用、全面管理分发提供有效技术方案。(二)技术方案为解决上述问题,本专利技术提供一种,包括步骤:s1、模拟广播电视字幕数据,构建海量视频字符训练集;S2、在所述海量视频字符训练集中提取统计量字符特征,量化所述模拟字幕数据;S3、使用深层神经网络训练字幕识别模型,捕捉广播视频中字幕文本的拓扑结构;S4、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。优选地,所述广播电视模拟字幕数据是从国标一级字库和二级常用字库中获取标准字符集,从真实广播视频中提取海量复杂背景图像,之后采用叠加策略加噪处理后生成。优选地,所述统计量字符特征是将构建的海量字符训练集中的各字幕文本图像进行归一化和特征量化,得到八方向梯度直方图的向量描述。优选地,所述八方向梯度直方图的字符特征通过以下步骤提取:a、将字幕文本图像分成8X8个互不相交的矩形区域,为每个区域建立一个梯度直方图;b、利用Sobel算子求解字幕图像中每个象素的8标准方向和梯度大小;c、计算各象素对与其邻近的梯度直方图的贡献;d、将所有区域的梯度直方图组成字幕文本图像的梯度直方图特征。优选地,所述字幕识别模型是将所述统计量字符特征输入深层神经网络,并通过后向传播方法逐层修正神经网络中各结点的权值来迭代优化字幕识别模型。优选地,所述对各类广播视频中字幕文本的单字识别输出是将上述经海量模拟构造数据训练得到的字幕识别模型用于多种广播视频栏目的字幕识别应用,并输出单字识别结果。(三)有益效果根据本专利技术,提出了一种全新的、面向各类广播视频节目中字幕文本的识别方法。通过自动构建海量模拟训练数据,有效解决海量标注数据难以获取的难题;通过结合新的深度学习方法与传统字符识别技术,准确捕捉广播视频中字幕文本的拓扑结构,从而解决现有字符识别技术不适用于广播电视字幕文本的识别问题,使得广播视频中字幕识别过程较现有方法结果更为理想。【附图说明】图1为依照本专利技术实施例的的流程图;图2为依照本专利技术实施例的字符/背景叠加处理策略示意图;图3为依照本专利技术实施例的统计量字符特征提取示意图。【具体实施方式】下面结合附图和实施例,对本专利技术的【具体实施方式】作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。根据本专利技术的优选实施例,结合新的深度学习方法和传统字符识别技术,提出了模拟字幕数据的海量训练集自动构建方法,解决了深层神经网络模型对大数据的需求;之后提取海量训练数据的统计量字符特征,并训练基于深层神经网络的字幕识别模型,用于检测各类广播视频中的字幕文本,输出字幕识别结果。下面根据本专利技术的优选实施样例详细描述具体计算方法。本专利技术提供了一种基于广播电视字幕识别的训练数据自动生成和深度学习方法。图1示出了本专利技术优选实施例中提供的方法流程。如图1所示,该方法包含以下步骤:步骤1、模拟广播电视字幕数据,构建海量广播视频字符训练集;步骤2、在海量广播视频字符训练集中提取统计量字符特征,量化所述模拟字幕数据;步骤3、使用深层神经网络训练字幕识别模型,捕捉广播视频中字幕文本的拓扑结构;步骤4、根据训练得到的字幕识别模型实现对各类广播视频中字幕文本的单字识别输出。上述方法中,所述模拟广播电视字幕数据,构建海量广播视频字符训练集,包含字符集合构建,背景集合构建,以及字符/背景叠加处理。根据本专利技术的优选实施例,字符集合构建的具体过程如下:步骤101、根据国标提取一级字库和二级常用字库,得到4026个标准字符集合;步骤102、以上述标准字符集合作为基准集,分别作如下扩展:22种字体(〃宋体〃,〃黑体〃,〃幼圆〃,〃隶书〃,〃楷书_GB2312,〃宋体_PUA〃,〃宋体_方正超大字符集〃,〃新宋体〃,〃仿宋_GB2312〃,〃方正舒体〃,〃方正姚体〃,〃微软雅黑〃,〃华文宋体〃,〃华文仿宋〃,〃华文楷体〃,〃华文行楷〃,〃华文隶书〃,〃华文细黑〃,〃华文新魏〃,〃华文中宋〃,〃华文彩云〃,〃华文琥珀〃)、5种字尺寸(16,20,24,28,32)、3种字粗细(〃1'!1爪〃,〃SEMIB0LD〃,HEAVY〃)、7 种字偏移(〃00〃,〃U2〃,〃D2〃,〃L2〃,〃R2〃,〃L4〃,〃R4〃)、共计扩展得到 9300060个字符,作为字符集合使用。该字符集合共包含4026类字符,每类字符包含2310个样例。根据本专利技术的优选实施例,背景集合构建的具体过程如下:步骤111、从25个栏目92个广播视频中均匀抽取共32000帧关键帧图像(640X480像素),作为标准背景集合;步骤112、将上述标准背景集合逐帧切分成32X32像素的背景图像,共计9600000幅,作为背景集合使用。根据本专利技术的优选实施例,字符/背景叠加处理的基本思想为:如图2所示,尽量保证同本文档来自技高网
...

【技术保护点】
一种基于广电字幕识别的训练数据自动生成和深度学习方法,其特征在于,包括步骤:S1、模拟广播电视字幕数据,构建海量视频字符训练集;S2、在所述海量视频字符训练集中提取统计量字符特征,量化所述模拟字幕数据;S3、使用深层神经网络训练字幕识别模型,捕捉广播视频中字幕文本的拓扑结构;S4、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。

【技术特征摘要】
1.一种基于广电字幕识别的训练数据自动生成和深度学习方法,其特征在于,包括步骤: 51、模拟广播电视字幕数据,构建海量视频字符训练集; 52、在所述海量视频字符训练集中提取统计量字符特征,量化所述模拟字幕数据; 53、使用深层神经网络训练字幕识别模型,捕捉广播视频中字幕文本的拓扑结构; 54、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。2.根据权利要求1所述的方法,其特征在于,所述模拟广播电视字幕数据是从国标一级字库和二级常用字库中获取标准字符集,从真实广播视频中提取海量复杂背景图像,之后采用叠加策略加噪处理后生成。3.根据权利要求1或2所述的方法,其特征在于,所述统计量字符特征是将构建的海量字符训练集中的各字幕文本图像进行归一化和特征量化,得到八方向梯度直方图的向量描述。4....

【专利技术属性】
技术研发人员:冯柏岚徐波
申请(专利权)人:北京中科模识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1