一种视频字幕识别方法及系统技术方案

技术编号:14938752 阅读:100 留言:0更新日期:2017-04-01 00:39
本发明专利技术公开了一种视频字幕识别方法及系统,将原始字幕文本中的字符渲染生成字幕图片,将所述字幕图片叠加至无字幕源视频中,编码生成字幕视频;从所述字幕视频中提取出测试字幕文本;比对所述测试字幕文本与原始字幕文本,并输出对应的识别率。本发明专利技术能够将提取出的一种或多种样式的字幕文本作为测试对象,测试范围广;通过识别算法进行自动测试,识别效率明显得到提升;识别之后的错误更正提升了测试字幕的正确性;对识别结果和识别率的更新,有助于比较优化前后的识别效果;并且便于准确分析视频字幕了解视频属性,进而提升后期视频个性化推荐的精准性,视频字幕搜索的准确性也得到提升,用户寻找视频更加方便和高效。

【技术实现步骤摘要】

本专利技术涉及视频
,尤其涉及视频字幕识别方法及系统
技术介绍
伴随信息技术和通讯技术的不断发展,大量广播视频信息不断涌现,比如各类新闻报道、电视剧目、网络视频等,使得广播电视视频逐渐成为人们获取日常信息的一种重要媒介。根据2014年国家统计局发布的数据显示,截至2014年,我国广播电视节目综合人口覆盖率已达到98.60%,成为世界上覆盖人口最多、公众信息传送量最大,有线、无线、卫星等多种现代技术手段并用的广播电视网络。可以看出,面向三网融合的广播电视新媒体的内容管理与分发,具有巨大的社会效益和商业价值。广播视频中的字幕字符是一种高级语义信息,能够为媒体内容管理与分发提供重要的辅助信息,若能将广播电视新媒体的视频字符准确识别出来,这将对分析视频字幕了解视频属性具有重大意义。目前在视频字幕识别领域,通常是直接从视频流里面解码得到字幕信息,然后将得到的字幕直接与预设的字幕进行比对测试,测试对象单一;对提取出来的文本信息大都通过人眼比对的形式进行测试,采用人工方式进行识别率的计算,效率低下,且准确性得不到认可;对于不同字体大小、不同字体种类的识别效果的测试程序也非常麻烦;同时由于视频字幕背景复杂,识别引擎难以全部有效识别,识别率很难提升。
技术实现思路
为了解决上述技术问题,本专利技术提出了视频字幕识别方法及系统。本专利技术是以如下技术方案实现的:一种视频字幕识别方法,包括:将原始字幕文本中的字符渲染生成字幕图片,将所述字幕图片叠加至无字幕源视频中,编码生成字幕视频;从所述字幕视频中提取出新的字幕文本,所述新的字幕文本为测试字幕文本;比对所述字幕视频中的字符与所述原始字幕文本,并输出对应的识别率;其中,所述字幕图片为一种样式或多种样式,所述多种样式为不同字号和/或不同字体的样式,相同的样式保存在相同的测试字幕文本中。一种视频字幕识别系统,包括:视频生成模块,用于将原始字幕文本中的字符渲染生成字幕图片,将所述字幕图片叠加至无字幕源视频中,编码生成字幕视频;字幕提取模块,用于从所述字幕视频中提取出新的字幕文本,所述新的字幕文本为测试字幕文本;文本对比模块,用于比对所述测试字幕文本与原始字幕文本,并输出对应的识别率;其中,所述字幕图片为一种样式或多种样式,所述多种样式为不同字号和/或不同字体的样式,相同的样式保存在相同的测试字幕文本中。本专利技术提供的视频字幕识别方法及系统,有益效果是:能够对原始字幕文本进行渲染,提取出一种或多种不同样式字幕作为测试对象,测试范围广;通过算法自动比对测试字幕文本与原始字幕文本,识别效率明显得到提升。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是实施例一提供的视频字幕识别方法的流程图;图2是实施例一中的字号为28、字体为黑体的字幕视频图像;图3是实施例一中的字号为32、字体为黑体的字幕视频图像;图4是实施例一中的字号为28、字体为简准圆的字幕视频图像;图5是实施例一中的字号为32、字体为简准圆的字幕视频图像;图6是实施例二提供的视频字幕识别方法的流程图;图7是实施例二提供的对错误字符进行判断的流程图;图8是实施例三提供的视频字幕识别方法的流程图;图9是实施例四提供的视频字幕识别系统的结构框图;图10是实施例五提供的视频字幕识别系统的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术方案运行的环境如下:(1)硬件运行环境:CPU:GenuineIntel(R)@1.73GHz或以上服务器;内存:1GB或以上服务器;硬盘:120GB或以上服务器。(2)软件运行环境:操作系统:64bit的tlinux1.2以上版本;数据库:redis以及mysql。实施例一:本实施例提供了一种视频字幕识别方法,如图1所示,所述方法包括:S101.将原始字幕文本中的字符渲染生成字幕图片,将所述字幕图片叠加至无字幕源视频中,编码生成字幕视频;现有技术中,通常是直接从视频流里面解码得到字幕信息,然后将得到的字幕直接与预设的字幕进行比对测试;而本步骤能够将原始字幕文本中的字符渲染生成一种样式或多种样式的字幕图片,进而编码得到带有一种或多种字幕的视频,对应的多种字幕的视频能够同时满足对多种不同样式的字幕视频的测试。具体地,所述原始字幕文本为完全正确的文本;所述一种或多种样式的字符通过成熟的字体渲染技术,生成以像素形式存在的字幕图片;利用x264视频编码函数库编码,将所述字幕图片叠加至无字幕源视频中,进而生成带有多种字幕的视频。其中,对所述渲染技术举例说明,若需要渲染得到20号、楷体的“王”,则调用楷体文字图片库,从楷体文字图片库中查找“王”字,找到之后,将楷体的“王”缩放到需要的20号字体大小,这样就完成一次渲染过程。S102.从所述字幕视频中提取出新的字幕文本,所述新的字幕文本为测试字幕文本;进一步地,所述多种样式为不同字号和/或不同字体的样式,相同样式的字幕图片保存在相同的测试字幕文本中;具体地,不同的字号和/或不同字体中,不同的字号为不同的字符大小,不同字体为不同的字符风格。需要说明的是,所述字符不仅包括汉字,还包括英文字符等可识别的字符;本实施例以所述字符为汉字为例,多种样式中,不同的字号可以为三号、小四、18或35等大小的字符;不同字体可以为黑体、简准圆、微软雅黑或宋体等风格的字符。原始字幕文本中的字符通过渲染得到一种样式或多种样式的字幕图片,将字幕图片叠加在无字幕源视频的图像上得到对应的字幕视频图像,如图2-5所示,图2为字号为28、字体为黑体的字幕视频图像,图3为字号为32、字体为黑体的字幕视频图像,图4为字号为28、字体为简准圆的字幕视频图像,图5为字号为32、字体为简准圆的字幕视频图像。需要说明的是,所述不同字号和/或不同字体不仅仅限于本实施例,还能够包括目前视频中常用的其他字号和/或字体的类型,所述多种字幕视频能够涵盖广播电视或网络视频中使用的大多数字幕的种类。S103.比对所述测试字幕文本中的字符与原始字幕文本中的字符,得到识别结果;具体地,本实施例通过OCR识别算法,逐字符逐语句的将测试字幕文本中的字符分别与原始字幕文本中的字符对比。其中,OCR(OpticalCharacterRecognition)识别为光学字符识别,通过光学输入方式获取字符图像信息,利用各种模式识别算法分析字符形态特征,判断出字符的标准编码,并按通用格式存储在文本文件本文档来自技高网
...
一种视频字幕识别方法及系统

【技术保护点】
一种视频字幕识别方法,其特征在于,包括:将原始字幕文本中的字符渲染生成字幕图片,将所述字幕图片叠加至无字幕源视频中,编码生成字幕视频;从所述字幕视频中提取出新的字幕文本,所述新的字幕文本为测试字幕文本;比对所述测试字幕文本与原始字幕文本,并输出对应的识别率。

【技术特征摘要】
1.一种视频字幕识别方法,其特征在于,包括:将原始字幕文本中的字符渲染生成字幕图片,将所述字幕图片叠加至无字幕源视频中,编码生成字幕视频;从所述字幕视频中提取出新的字幕文本,所述新的字幕文本为测试字幕文本;比对所述测试字幕文本与原始字幕文本,并输出对应的识别率。2.根据权利要求1所述的视频字幕识别方法,其特征在于,所述字幕图片为一种样式或多种样式,所述多种样式为不同字号和/或不同字体的样式,相同的样式保存在相同的测试字幕文本中。3.根据权利要求2所述的视频字幕识别方法,其特征在于,所述比对所述测试字幕文本与原始字幕文本,并输出对应的识别率,包括:比对测试字幕文本中的字符与原始字幕文本中的字符,得到识别结果。4.根据权利要求3所述的视频字幕识别方法,其特征在于,还包括:根据识别结果的置信度定位错误字符;计算错误字符出现的概率,判断所述概率是否达到常见错误字符的概率,若是,则进一步判断所述错误字符是否存在错误典籍中,若否,则根据错误字符出现的时间,标记对应字幕在测试字幕文本中的位置,对所述错误字符进行人工更正。5.根据权利要求4所述的视频字幕识别方法,其特征在于,所述判断所述错误字符是否存在错误典籍中,包括:若存在错误典籍中,则直接调用错误典籍进行正确替换,若否,则将所述错误字符添至错误典籍。6.根据权利要求4或5所述的视频字幕识别方法,其特征在于,还包括:显示所述错误字符对应字幕的识别结果。7.根据权利要求6所述的视频字幕识别方法,其特征在于,还包括:更新所述错误字符对应字幕的识别结果,更新对应的测试字幕文本的识别率。8.一种视频字幕识别系统,其特征在于,包括:视频生成模块,用于将原始字幕...

【专利技术属性】
技术研发人员:王星星
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1