【技术实现步骤摘要】
一种字幕检测方法和装置
本专利技术涉及视频
,特别涉及一种字幕检测方法和装置。
技术介绍
随着视频技术的发展,从视频文件中获取字幕的需求越来越大。然而,在一些中文视频中,存在有大量的硬字幕,即无法通过爬取字幕文件获取的字幕,若想获取此类字幕,必须依靠人工标注,非常耗费资源。现有技术中,许多公司尝试使用OCR(OpticalCharacterRecognition,光学字符识别)来获取视频中的字幕,但识别结果受视频背景的复杂度影响较大,而且,若对视频文件逐帧进行OCR,会消耗大量的时间;若对视频文件跳帧进行OCR,则有可能会遗漏关键信息。
技术实现思路
本专利技术提供了一种字幕检测方法和装置,以解决现有技术中字幕检测方法无法兼顾准确性和时效性的缺陷。本专利技术提供了一种字幕检测方法,包括以下步骤:抽取视频文件中的语音,并定位出所述语音对应的时间段;根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;从所述目标视频帧中识别出多个字符串,并通过语音模型 ...
【技术保护点】
1.一种字幕检测方法,其特征在于,包括以下步骤:/n抽取视频文件中的语音,并定位出所述语音对应的时间段;/n根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;/n从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。/n
【技术特征摘要】
1.一种字幕检测方法,其特征在于,包括以下步骤:
抽取视频文件中的语音,并定位出所述语音对应的时间段;
根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧;
从所述目标视频帧中识别出多个字符串,并通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。
2.如权利要求1所述的方法,其特征在于,所述根据所述时间段,从所述视频文件中确定具有字幕的目标视频帧,包括:
确定所述时间段对应的视频帧;
对所述视频帧进行均匀抽帧,得到具有字幕的目标视频帧。
3.如权利要求1所述的方法,其特征在于,所述从所述目标视频帧中识别出多个字符串,包括:
从所述目标视频帧中识别出字幕区域,并对所述字幕区域进行分割,得到多个图片,其中,每个所述图片对应一个字符;
分别对所述多个图片进行识别,得到每个所述图片对应的字符的多个识别结果;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串。
4.如权利要求3所述的方法,其特征在于,所述根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的字符的识别结果进行排列组合,得到多个字符串,包括:
根据所述每个所述图片对应的字符的多个识别结果的置信度,从所述多个识别结果中选择置信度最高的预设数量的多个候选字符;
根据每个所述图片在所述字幕区域的位置,对所述多个图片对应的候选字符进行排列组合,得到多个字符串。
5.如权利要求1所述的方法,其特征在于,所述通过语音模型分别获取所述多个字符串的置信度,将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕,包括:
将所述...
【专利技术属性】
技术研发人员:张晴晴,罗磊,杨金富,段由,马光谦,汪洋,
申请(专利权)人:北京爱数智慧科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。