一种字幕检测方法和装置制造方法及图纸

技术编号：23344715 阅读：27 留言：0更新日期：2020-02-15 04:19

本发明专利技术公开一种字幕检测方法和装置，该方法包括以下步骤：抽取视频文件中的语音，并定位出所述语音对应的时间段；根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。本发明专利技术根在图像和音频两个维度识别字幕，能够在保证时效性的前提下，提升识别结果的精确度。

A method and device for subtitle detection

全部详细技术资料下载

【技术实现步骤摘要】
一种字幕检测方法和装置
本专利技术涉及视频
，特别涉及一种字幕检测方法和装置。
技术介绍
随着视频技术的发展，从视频文件中获取字幕的需求越来越大。然而，在一些中文视频中，存在有大量的硬字幕，即无法通过爬取字幕文件获取的字幕，若想获取此类字幕，必须依靠人工标注，非常耗费资源。现有技术中，许多公司尝试使用OCR(OpticalCharacterRecognition，光学字符识别)来获取视频中的字幕，但识别结果受视频背景的复杂度影响较大，而且，若对视频文件逐帧进行OCR，会消耗大量的时间；若对视频文件跳帧进行OCR，则有可能会遗漏关键信息。
技术实现思路
本专利技术提供了一种字幕检测方法和装置，以解决现有技术中字幕检测方法无法兼顾准确性和时效性的缺陷。本专利技术提供了一种字幕检测方法，包括以下步骤：抽取视频文件中的语音，并定位出所述语音对应的时间段；根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；从所述目标视频帧中识别出多个字符串，并通过语音模型...

【技术保护点】
1.一种字幕检测方法，其特征在于，包括以下步骤：/n抽取视频文件中的语音，并定位出所述语音对应的时间段；/n根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；/n从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。/n

【技术特征摘要】
1.一种字幕检测方法，其特征在于，包括以下步骤：
抽取视频文件中的语音，并定位出所述语音对应的时间段；
根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧；
从所述目标视频帧中识别出多个字符串，并通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕。

2.如权利要求1所述的方法，其特征在于，所述根据所述时间段，从所述视频文件中确定具有字幕的目标视频帧，包括：
确定所述时间段对应的视频帧；
对所述视频帧进行均匀抽帧，得到具有字幕的目标视频帧。

3.如权利要求1所述的方法，其特征在于，所述从所述目标视频帧中识别出多个字符串，包括：
从所述目标视频帧中识别出字幕区域，并对所述字幕区域进行分割，得到多个图片，其中，每个所述图片对应一个字符；
分别对所述多个图片进行识别，得到每个所述图片对应的字符的多个识别结果；
根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串。

4.如权利要求3所述的方法，其特征在于，所述根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的字符的识别结果进行排列组合，得到多个字符串，包括：
根据所述每个所述图片对应的字符的多个识别结果的置信度，从所述多个识别结果中选择置信度最高的预设数量的多个候选字符；
根据每个所述图片在所述字幕区域的位置，对所述多个图片对应的候选字符进行排列组合，得到多个字符串。

5.如权利要求1所述的方法，其特征在于，所述通过语音模型分别获取所述多个字符串的置信度，将所述多个字符串中置信度最高的字符串作为所述视频文件的字幕，包括：
将所述...

【专利技术属性】
技术研发人员：张晴晴，罗磊，杨金富，段由，马光谦，汪洋，
申请(专利权)人：北京爱数智慧科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人