基于广电字幕识别的训练数据自动生成和深度学习方法技术

技术编号：9866523 阅读：408 留言：0更新日期：2014-04-03 02:45

本发明专利技术公开了一种基于广电字幕识别的训练数据自动生成和深度学习方法，包括步骤：S1、模拟广播电视字幕数据，构建海量视频字符训练集；S2、在所述海量视频字符训练集中提取统计量字符特征，量化所述模拟字幕数据；S3、使用深层神经网络训练字幕识别模型，捕捉广播视频中字幕文本的拓扑结构；S4、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。根据本发明专利技术，通过自动构建海量模拟训练数据，有效解决海量标注数据难以获取的难题；通过结合新的深度学习方法与传统字符识别技术，准确捕捉广播视频中字幕文本的拓扑结构，从而解决现有字符识别技术不适用于广播电视字幕文本的识别问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及面向三网融合的广播电视新媒体内容管理与分发
，特别涉及一种基于广播电视字幕识别的训练数据自动生成和深度学习方法。
技术介绍
伴随信息技术和通讯技术的不断发展，大量广播视频信息(各类新闻、电视节目、网络电视等)不断涌现，广播视频逐渐成为人们获取日常信息的一种重要媒介。根据2011年国家统计局发布的数据显示，截至2011年，我国广播电视节目综合人口覆盖率已达到97.6%，从中可以看到，在面向三网融合的广播电视新媒体内容管理与分发领域具有非常巨大的社会效益和商业价值。广播视频中的字幕文字是一种高级语义信息，能够为媒体内容管理与分发提供重要的辅助信息。如果能将其视频中的字幕文字准确识别出来，识别内容可广泛用于基于内容的视频存储、标记与检索等应用。时至今日，光学字符识别技术已经取得长足进步并孵化出非常成功的应用。例如，在印刷文档和手写文档识别领域，目前技术已经可以高精度地将大量印刷、手写文档转化为数字文档，极大地提升了以数字图书馆为案例的文化产业数字化建设速度。然而，在广播电视事业不断发展的大背景下，面对广播视频资源中字幕识别的需求，传统的字符识别技术面临着新的困难和挑战，主要存在问题如下:1、广播视频中的字幕文本分辨率低。传统扫描文档中文本字符的分辨率一般不低于300dpi，且背景极其简单；而广播视频中字幕文本的高度往往只有十几到三十几个象素，且背景异常复杂，导致传统的字符识别技术性能直线下降，效果无法接受。2、广播视频中字幕文本的背景复杂、字幕效果多样。图像二值化是传统字符识别技术中最为关键的一步，即将字符文本从其背景中分离出来...

【技术保护点】
一种基于广电字幕识别的训练数据自动生成和深度学习方法，其特征在于，包括步骤：S1、模拟广播电视字幕数据，构建海量视频字符训练集；S2、在所述海量视频字符训练集中提取统计量字符特征，量化所述模拟字幕数据；S3、使用深层神经网络训练字幕识别模型，捕捉广播视频中字幕文本的拓扑结构；S4、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。

【技术特征摘要】
1.一种基于广电字幕识别的训练数据自动生成和深度学习方法，其特征在于，包括步骤: 51、模拟广播电视字幕数据，构建海量视频字符训练集； 52、在所述海量视频字符训练集中提取统计量字符特征，量化所述模拟字幕数据； 53、使用深层神经网络训练字幕识别模型，捕捉广播视频中字幕文本的拓扑结构； 54、根据训练得到的所述字幕识别模型实现对广播视频中字幕文本的单字识别输出。2.根据权利要求1所述的方法，其特征在于，所述模拟广播电视字幕数据是从国标一级字库和二级常用字库中获取标准字符集，从真实广播视频中提取海量复杂背景图像，之后采用叠加策略加噪处理后生成。3.根据权利要求1或2所述的方法，其特征在于，所述统计量字符特征是将构建的海量字符训练集中的各字幕文本图像进行归一化和特征量化，得到八方向梯度直方图的向量描述。4....

【专利技术属性】
技术研发人员：冯柏岚，徐波，
申请(专利权)人：北京中科模识科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人