基于比较的视频字幕错别字词纠错的方法及装置制造方法及图纸

技术编号:15867756 阅读:177 留言:0更新日期:2017-07-23 17:14
本发明专利技术实施例提供了一种基于比较的视频字幕错别字词纠错的方法及装置,涉及智能电视技术领域,用以降低字幕中出现错别字的现象,提高用户体验。所述方法包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。

Method and apparatus for comparison of video caption words spelling error correction based on

The embodiment of the invention provides a method and a device for comparison of video caption words spelling error correction based on smart TV, relates to the technical field, in order to reduce the phenomenon of typos in subtitles, improve the user experience. The method comprises: acquiring n subtitles files, and confirm the application subtitle file and standby subtitle file in the N subtitles file; the n is an integer greater than 2; the application of the subtitle file is playing the subtitle file device to be used; the N file in each caption caption the file is divided into at least one of the subtitle array; the subtitle subtitle array contains entries and the caption entries corresponding to the playing time; according to at least one array to the standby subtitle subtitle file, in order to use the caption file at least one word screen array for subtitle inspection; exist typos in words check out the at least one subtitle array, correct the spelling words.

【技术实现步骤摘要】
基于比较的视频字幕错别字词纠错的方法及装置
本专利技术涉及智能电视
,尤其涉及一种基于比较的视频字幕错别字词纠错的方法及装置。
技术介绍
随着科技的发展,人们观看视频的方法不在仅局限于有线电视的方法,越来越多的数字电视被使用。数字电视不仅可以播放广电网中的电视节目,而且还可以播放互联网视频媒体。现有的互联网视频媒体往往通过字幕爬虫的方式来获取在线字幕,而在互联网上各字幕文件的质量参差不齐,往往会存在错别字词的现象,导致用户体验一般。
技术实现思路
本专利技术的实施例提供一种基于比较的视频字幕错别字词纠错的方法及装置,用以降低字幕中出现错别字的现象,提高用户体验。为达到上述目的,本专利技术的实施例采用如下技术方案:本专利技术实施例提供了一种基于比较的视频字幕错别字词纠错的方法,包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次本文档来自技高网...
基于比较的视频字幕错别字词纠错的方法及装置

【技术保护点】
一种基于比较的视频字幕错别字词纠错的方法,其特征在于,包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。

【技术特征摘要】
1.一种基于比较的视频字幕错别字词纠错的方法,其特征在于,包括:获取n个字幕文件,并在所述n个字幕文件中确定出应用字幕文件及备用字幕文件;所述n为大于2的整数;所述应用字幕文件是播放装置待使用的字幕文件;将所述n个字幕文件中的每个字幕文件划分为至少一个字幕数组;其中,所述字幕数组中包含有字幕条目及所述字幕条目对应的播放时间;根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的至少一个字幕数组进行字幕检验;在检验出所述至少一个字幕数组中存在错别字词时,纠正所述错别字词。2.根据权利要求1所述的方法,其特征在于,根据所述备用字幕文件的至少一个字幕数组,依次对应用字幕文件的字幕数组进行字幕检验,在检验出所述应用字幕文件的字幕数组中存在错别字词时,纠正所述错别字词包括:将第i个字幕数组中的字幕条目与所有备用字幕文件中的所有字幕数组的字幕条目进行字符串匹配,确定所有备用字幕文件中的所有字幕数组的字幕条目中是否存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同;i为大于0,不大于应用字幕文件划分的字幕数组的总个数的整数;若不存在,则在所述各个备用字幕文件中确定出各个校验字幕数组;所述校验字幕数组中的字幕条目对应的播放时间与所述第i个字幕条目对应的播放时间间隔不超过预设阈值;将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目;若存在相似字幕条目,且相似字幕条目的数量达到预设相似阈值,则确定所述第i个字幕数组中的字幕条目存在错别字词;在检验出所述第i个字幕数组中存在错别字词时,纠正所述错别字词;更新i的取值,继续检验应用字幕文件的下一个字幕数组。3.根据权利要求2所述的方法,其特征在于,所述将所述各个校验字幕数组中的字幕条目进行比较,确定是否存在相似字幕条目包括:在所述各个校验字幕数组中的字幕条目中,确定出待比较的两个校验字幕数组中的字幕条目;将所述待比较的两个校验字幕数组中的字幕条目进行字符串比较;若所述待比较的两个校验字幕数组中的字幕条目不同,则进行二进制比较,确定字符串不同的部分与待比较的字幕条目间的比例是否超过预设比例阈值;若未超过预设比例阈值,则确定所述待比较的两个校验字幕数组中的字幕条目为相似字幕条目。4.根据权利要求2或3所述的方法,其特征在于,还包括:若存在至少两个字幕条目与所述第i个字幕数组中的字幕条目相同,则确定所述第i个字幕数组中的字幕条目没有错别字,更新i的取值,继续检验应用字幕文件的下一个字幕数组。5.根据权利要求2或3所述的方法,其特征在于,还包括:若不存在相似字幕条目,则确定所述第i个字幕数组中的字幕条目没...

【专利技术属性】
技术研发人员:罗华欣
申请(专利权)人:山东浪潮商用系统有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1