一种视频流的字幕的确定方法、装置及可读存储介质制造方法及图纸

技术编号:28301374 阅读:25 留言:0更新日期:2021-04-30 16:30
本发明专利技术公开了一种视频流的字幕的确定方法、装置及可读存储介质,该方法包括:获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;对每个候选字幕图像对应的语音段进行语音识别,得到每个候选字幕图像对应的第二文本;计算每个候选字幕图像对应的第一文本与第二文本之间的相似度;根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。通过实施本发明专利技术,可以确定每个候选字幕图像对应的第一文本与第二文本是否对应,根据对应最好的第一文本就可以确定为视频流的字幕,从而可以确定一个有效、准确的字幕。

【技术实现步骤摘要】
一种视频流的字幕的确定方法、装置及可读存储介质
本申请涉及语音识别
,尤其涉及一种视频流的字幕的确定方法、装置及可读存储介质。
技术介绍
互联网上有大量的带内嵌字幕的视频节目,如电视剧、综艺节目、访谈节目等很多都带有质量很高的内嵌字幕,提取其内嵌字幕及每段字幕对应的语音,可以作为语音识别模型的训练数据。在提取内嵌字幕和该段字幕段对应的语音中,一个重要的步骤是进行字幕的提取。一般的字幕提取大都利用一些字幕的经验知识,如字幕一般是在视频的底部,一般是居中或者左对齐,字幕一般为矩形等信息,对字幕进行定位,然后提取字幕。但该方法在遇到视频背景中字幕位置发生变化、字幕中出现其他文字(典型的如双语字幕、综艺节目中字幕标头有赞助商和嘉宾姓名时)等情况时,则非常容易受到干扰而导致字幕提取失败或不准确。申请内容本专利技术实施例通过提供一种视频流的字幕的确定方法、装置及可读存储介质,用以解决现有技术中利用字幕的经验知识进行字幕提取时,容易受到干扰而导致字幕提取失败或不准确的问题。为了解决上述问题,第一方面,本专利技术实施例提供了一种视频流的字幕的确定方法,包括:获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;对每个候选字幕图像对应的语音段进行语音识别,得到每个候选字幕图像对应的第二文本;计算每个候选字幕图像对应的第一文本与第二文本之间的相似度;根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。可选地,获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段,包括:获取视频流中的第t帧图像,第t帧图像包括至少第一文本区域;对于每一个第一文本区域,获取视频流中的第t+1帧图像,并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域;当第二文本区域与第一文本区域的相似度大于或等于预设阈值,以步长为1,依次获取视频流中的第t+2、第t+3…第t+n帧图像,直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值,并计算第t帧图像至第t+n-1帧图像之间的时间段;提取第t帧图像中的第一文本区域,得到一个候选字幕图像;提取视频流中时间段的语音,得到候选字幕图像对应的语音段。可选地,计算每个候选字幕图像对应的第一文本与第二文本之间的相似度,包括:计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离;根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。可选地,在根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕之前,视频流的字幕的确定方法还包括:确定最大相似度值大于预设阈值。第二方面,本专利技术实施例提供了一种视频流的字幕的确定装置,包括:获取单元,用于获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;文本识别单元,用于对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;语音识别单元,用于对每个候选字幕图像对应的语音段进行语音识别,得到每个候选字幕图像对应的第二文本;计算单元,用于计算每个候选字幕图像对应的第一文本与第二文本之间的相似度;第一确定单元,用于根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕。可选地,获取单元包括:获取子单元,用于获取视频流中的第t帧图像,第t帧图像包括多个第一文本区域;提取子单元,用于对于每一个第一文本区域,获取视频流中的第t+1帧图像,并从第t+1帧图像中确定与第一文本区域的位置坐标相同的区域作为第二文本区域;当第二文本区域与第一文本区域的相似度大于或等于预设阈值,以步长为1,依次获取视频流中的第t+2、第t+3…第t+n帧图像,直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值,并计算第t帧图像至第t+n-1帧图像之间的时间段;提取第t帧图像中的第一文本区域,得到一个候选字幕图像;提取视频流中时间段的语音,得到候选字幕图像对应的语音段。可选地,计算单元包括:第一计算子单元,用于计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离;第二计算字单元,用于根据编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。可选地,在第一确定单元之前,还包括:第二确定单元,用于确定最大相似度值大于预设阈值。第三方面,本专利技术实施例提供了一种计算机,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器执行如第一方面或第一方面任意实施方式中的视频流的字幕的确定方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的视频流的字幕的确定方法。本专利技术实施例提供的视频流的字幕的确定方法、装置及可读存储介质,通过获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;对每个候选字幕图像对应的语音段进行语音识别,得到每个候选字幕图像对应的第二文本;计算每个候选字幕图像对应的第一文本与第二文本之间的相似度;根据最大相似度值对应的候选字幕图像的第一文本确定视频流的字幕,从而可以确定每个候选字幕图像对应的第一文本与第二文本是否对应,根据对应最好的第一文本就可以确定为视频流的字幕,从而可以确定一个有效、准确的字幕,可以解决现有技术中利用字幕的经验知识进行字幕提取时,容易受到干扰而导致字幕提取失败或不准确的问题。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明图1为本专利技术实施例中一种视频流的字幕的确定方法的流程示意图;图2为本专利技术实施例中一种视频流的字幕的确定方装置的结构示意图;图3为本专利技术实施例中一种计算机的硬件结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供了一种视频流的字幕的确定方法,包括:S101.获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;具体地,可以通过获取视频流中的第1、第2…第n帧图像,并识别每帧图像中每一个第一文本区域,通过图像相似度确定视频流中的每一个第一文本区域出现的时间段,提取图像中的一个第一文本区域,就可以得到一个对应本文档来自技高网...

【技术保护点】
1.一种视频流的字幕的确定方法,其特征在于,包括:/n获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;/n对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;/n对每个候选字幕图像对应的语音段进行语音识别,得到每个候选字幕图像对应的第二文本;/n计算每个候选字幕图像对应的第一文本与第二文本之间的相似度;/n根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕。/n

【技术特征摘要】
1.一种视频流的字幕的确定方法,其特征在于,包括:
获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;
对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;
对每个候选字幕图像对应的语音段进行语音识别,得到每个候选字幕图像对应的第二文本;
计算每个候选字幕图像对应的第一文本与第二文本之间的相似度;
根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕。


2.根据权利要求1所述的视频流的字幕的确定方法,其特征在于,所述获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段,包括:
获取视频流中的第t帧图像,所述第t帧图像包括至少一个第一文本区域;
对于每一个第一文本区域,获取视频流中的第t+1帧图像,并从所述第t+1帧图像中确定与所述第一文本区域的位置坐标相同的区域作为第二文本区域;当所述第二文本区域与所述第一文本区域的相似度大于或等于预设阈值,以步长为1,依次获取视频流中的第t+2、第t+3…第t+n帧图像,直到第t+n帧图像对应的第n+1文本区域与第t+n-1帧图像对应的第n文本区域的相似度小于预设阈值,并计算第t帧图像至第t+n-1帧图像之间的时间段;提取所述第t帧图像中的所述第一文本区域,得到一个候选字幕图像;提取所述视频流中所述时间段的语音,得到所述候选字幕图像对应的语音段。


3.根据权利要求1所述的视频流的字幕的确定方法,其特征在于,所述计算每个候选字幕图像对应的第一文本与第二文本之间的相似度,包括:
计算每个候选字幕图像对应的第一文本与第二文本之间的编辑距离;
根据所述编辑距离及对应的第一文本的长度计算每个候选字幕图像对应的第一文本与第二文本之间的相似度。


4.根据权利要求1所述的视频流的字幕的确定方法,其特征在于,在根据最大相似度值对应的候选字幕图像的第一文本确定所述视频流的字幕之前,还包括:
确定所述最大相似度值大于预设阈值。


5.一种视频流的字幕的确定装置,其特征在于,包括:
获取单元,用于获取视频流中的多个候选字幕图像及每个候选字幕图像对应的语音段;
文本识别单元,用于对每个候选字幕图像进行文本识别,得到每个候选字幕图像对应的第一文本;
...

【专利技术属性】
技术研发人员:张彬彬陈晓宇曾晨晨杨超
申请(专利权)人:出门问问武汉信息科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1