一种字幕检测方法和装置制造方法及图纸

技术编号:23344715 阅读:27 留言:0更新日期:2020-02-15 04:19
本发明专利技术公开一种字幕检测方法和装置,该方法包括以下步骤:抽取视频文件中的语音,并定位出所述语音对应的时间段;根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本发明专利技术根在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。

A method and device for subtitle detection

【技术实现步骤摘要】
一种字幕检测方法和装置
本专利技术涉及视频
,特别涉及一种字幕检测方法和装置。
技术介绍
随着视频技术的发展,从视频文件中获取字幕的需求越来越大。然而,在一些中文视频中,存在有大量的硬字幕,即无法通过爬取字幕文件获取的字幕,若想获取此类字幕,必须依靠人工标注,非常耗费资源。现有技术中,许多公司尝试使用OCR(OpticalCharacterRecognition,光学字符识别)来获取视频中的字幕,但识别结果受视频背景的复杂度影响较大,而且,若对视频文件逐帧进行OCR,会消耗大量的时间;若对视频文件跳帧进行OCR,则有可能会遗漏关键信息。
技术实现思路
本专利技术提供了一种字幕检测方法和装置,以解决现有技术中字幕检测方法无法兼顾准确性和时效性的缺陷。本专利技术提供了一种字幕检测方法,包括以下步骤:抽取视频文件中的语音,并定位出所述语音对应的时间段;根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符本文档来自技高网...

【技术保护点】
1.一种字幕检测方法,其特征在于,包括以下步骤:/n抽取视频文件中的语音,并定位出所述语音对应的时间段;/n根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;/n从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。/n

【技术特征摘要】
1.一种字幕检测方法,其特征在于,包括以下步骤:
抽取视频文件中的语音,并定位出所述语音对应的时间段;
根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。


2.如权利要求1所述的方法,其特征在于,所述根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧,包括:
确定所述时间段对应的视频帧;
对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。


3.如权利要求1所述的方法,其特征在于,所述从所述目标视频帧中识别出多个字符串,包括:
从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;
分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。


4.如权利要求3所述的方法,其特征在于,所述根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串,包括:
根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。


5.如权利要求1所述的方法,其特征在于,所述通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕,包括:
将所述...

【专利技术属性】
技术研发人员:张晴晴罗磊杨金富段由马光谦汪洋
申请(专利权)人:北京爱数智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1