一种字幕检测方法和装置制造方法及图纸

技术编号:23344715 阅读:11 留言:0更新日期:2020-02-15 04:19
本发明专利技术公开一种字幕检测方法和装置,该方法包括以下步骤:抽取视频文件中的语音,并定位出所述语音对应的时间段;根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本发明专利技术根在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。

A method and device for subtitle detection

【技术实现步骤摘要】
一种字幕检测方法和装置
本专利技术涉及视频
,特别涉及一种字幕检测方法和装置。
技术介绍
随着视频技术的发展,从视频文件中获取字幕的需求越来越大。然而,在一些中文视频中,存在有大量的硬字幕,即无法通过爬取字幕文件获取的字幕,若想获取此类字幕,必须依靠人工标注,非常耗费资源。现有技术中,许多公司尝试使用OCR(OpticalCharacterRecognition,光学字符识别)来获取视频中的字幕,但识别结果受视频背景的复杂度影响较大,而且,若对视频文件逐帧进行OCR,会消耗大量的时间;若对视频文件跳帧进行OCR,则有可能会遗漏关键信息。
技术实现思路
本专利技术提供了一种字幕检测方法和装置,以解决现有技术中字幕检测方法无法兼顾准确性和时效性的缺陷。本专利技术提供了一种字幕检测方法,包括以下步骤:抽取视频文件中的语音,并定位出所述语音对应的时间段;根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。可选地,所述根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧,包括:确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。可选地,所述从所述目标视频帧中识别出多个字符串,包括:从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。可选地,所述根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串,包括:根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。可选地,所述通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕,包括:将所述多个字符串输入到所述语音模型;通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本专利技术还提供了一种字幕检测装置,包括:定位模块,用于抽取视频文件中的语音,并定位出所述语音对应的时间段;确定模块,用于根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;检测模块,用于从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。可选地,所述确定模块,具体用于确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。可选地,所述检测模块,具体用于从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。可选地,所述检测模块,具体用于根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。可选地,所述检测模块,具体用于将所述多个字符串输入到所述语音模型;通过所述语音模型输出所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本专利技术根据视频文件中的语音对应的时间段,确定具有字幕的目标视频帧,并从目标视频帧中识别出置信度最高的字符串作为视频文件的字幕,从而实现在图像和音频两个维度识别字幕,能够在保证时效性的前提下,提升识别结果的精确度。附图说明图1为本专利技术实施例中的一种字幕检测方法流程图;图2为本专利技术实施例中的视频文件中的语音及其对应的时间段的示意图;图3为本专利技术实施例中的目标视频帧中的字幕区域的示意图;图4为本专利技术实施例中的字符区域的分割结果的示意图;图5为本专利技术实施例中的语音模型的示意图;图6为本专利技术实施例中的一种字幕检测装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种字幕检测方法,如图1所示,包括以下步骤:步骤101,抽取视频文件中的语音,并定位出所述语音对应的时间段。具体地,在从视频文件中抽取出语音后,可以对语音进行VAD(VoiceActivityDetection,语音端点检测),从带有噪声的语音中定位出语音的开始点和结束点,即,语音对应的时间段。例如,如图2所示,可以从视频文件中抽取出语音,即,音频文件abc.wav,从该音频文件abc.wav中定位出语音对应的时间段000080-0000278以及0.80和2.78,均表示0.8秒到2.78秒有音频。步骤102,根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;具体地,可以确定所述时间段对应的视频帧;对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。例如,若视频文件的帧率为25帧/秒,则时间段0.8秒到2.78秒对应的视频帧为第20帧~第70帧,包含51帧;从上述51帧中均匀抽出若干帧,即得到的目标视频帧为第20帧、第30帧、第40帧、第50帧、第60帧和第70帧。步骤103,从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。具体地,可以从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。例如,使用CTPN(ConnectionistTextProposalNetwork,连接文本提议网络)算法做字幕区域识别,得到目标视频帧中表示字幕区域的矩形框,如图3所示。对上述矩形框进行分割,得到多个图片,如图4所示。每个图片可以对应的字符可以具有多个识别结果,即,本文档来自技高网...

【技术保护点】
1.一种字幕检测方法,其特征在于,包括以下步骤:/n抽取视频文件中的语音,并定位出所述语音对应的时间段;/n根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;/n从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。/n

【技术特征摘要】
1.一种字幕检测方法,其特征在于,包括以下步骤:
抽取视频文件中的语音,并定位出所述语音对应的时间段;
根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。


2.如权利要求1所述的方法,其特征在于,所述根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧,包括:
确定所述时间段对应的视频帧;
对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。


3.如权利要求1所述的方法,其特征在于,所述从所述目标视频帧中识别出多个字符串,包括:
从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;
分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。


4.如权利要求3所述的方法,其特征在于,所述根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串,包括:
根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。


5.如权利要求1所述的方法,其特征在于,所述通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕,包括:
将所述...

【专利技术属性】
技术研发人员:张晴晴罗磊杨金富段由马光谦汪洋
申请(专利权)人:北京爱数智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1