一种视频流的字幕的确定方法、装置及可读存储介质制造方法及图纸

技术编号：28301374 阅读：25 留言：0更新日期：2021-04-30 16:30

本发明专利技术公开了一种视频流的字幕的确定方法、装置及可读存储介质，该方法包括：获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。通过实施本发明专利技术，可以确定每个候选字幕图像对应的第一文本与第二文本是否对应，根据对应最好的第一文本就可以确定为视频流的字幕，从而可以确定一个有效、准确的字幕。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频流的字幕的确定方法、装置及可读存储介质
本申请涉及语音识别
，尤其涉及一种视频流的字幕的确定方法、装置及可读存储介质。
技术介绍
互联网上有大量的带内嵌字幕的视频节目，如电视剧、综艺节目、访谈节目等很多都带有质量很高的内嵌字幕，提取其内嵌字幕及每段字幕对应的语音，可以作为语音识别模型的训练数据。在提取内嵌字幕和该段字幕段对应的语音中，一个重要的步骤是进行字幕的提取。一般的字幕提取大都利用一些字幕的经验知识，如字幕一般是在视频的底部，一般是居中或者左对齐，字幕一般为矩形等信息，对字幕进行定位，然后提取字幕。但该方法在遇到视频背景中字幕位置发生变化、字幕中出现其他文字(典型的如双语字幕、综艺节目中字幕标头有赞助商和嘉宾姓名时)等情况时，则非常容易受到干扰而导致字幕提取失败或不准确。申请内容本专利技术实施例通过提供一种视频流的字幕的确定方法、装置及可读存储介质，用以解决现有技术中利用字幕的经验知识进行字幕提取时，容易受到干扰而导致字幕提取失败或不准确的问题。为了解决上述问题，第一方面，本专利技术实施例提供了一种视频流的字幕的确定方法，包括：获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。可选地...

【技术保护点】
1.一种视频流的字幕的确定方法，其特征在于，包括：/n获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；/n对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；/n对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；/n计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；/n根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕。/n

【技术特征摘要】
1.一种视频流的字幕的确定方法，其特征在于，包括：
获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；
对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；
对每个候选字幕图像对应的语音段进行语音识别，得到每个候选字幕图像对应的第二文本；
计算每个候选字幕图像对应的第一文本与第二文本之间的相似度；
根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕。

2.根据权利要求1所述的视频流的字幕的确定方法，其特征在于，所述获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段，包括：
获取视频流中的第t帧图像，所述第t帧图像包括至少一个第一文本区域；
对于每一个第一文本区域，获取视频流中的第t+1帧图像，并从所述第t+1帧图像中确定与所述第一文本区域的位置坐标相同的区域作为第二文本区域；当所述第二文本区域与所述第一文本区域的相似度大于或等于预设阈值，以步长为1，依次获取视频流中的第t+2、第t+3…第t+n帧图像，直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值，并计算第t帧图像至第t+n-1帧图像之间的时间段；提取所述第t帧图像中的所述第一文本区域，得到一个候选字幕图像；提取所述视频流中所述时间段的语音，得到所述候选字幕图像对应的语音段。

3.根据权利要求1所述的视频流的字幕的确定方法，其特征在于，所述计算每个候选字幕图像对应的第一文本与第二文本之间的相似度，包括：
计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离；
根据所述编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。

4.根据权利要求1所述的视频流的字幕的确定方法，其特征在于，在根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕之前，还包括：
确定所述最大相似度值大于预设阈值。

5.一种视频流的字幕的确定装置，其特征在于，包括：
获取单元，用于获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段；
文本识别单元，用于对每个候选字幕图像进行文本识别，得到每个候选字幕图像对应的第一文本；
...

【专利技术属性】
技术研发人员：张彬彬，陈晓宇，曾晨晨，杨超，
申请(专利权)人：出门问问武汉信息科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人