为视音频节目实时添加字幕的方法和装置制造方法及图纸

技术编号:25315717 阅读:25 留言:0更新日期:2020-08-18 22:32
本申请公开了一种为视音频节目实时添加字幕的方法和装置,涉及辅助字幕领域。该方法包括:获取视音频节目;使用语音识别引擎实时将所述视音频节目的语音转换成文本;采用分词算法将所述文本生成字幕;将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。该装置包括:获取模块、识别模块、字幕模块和匹配模块。本发明专利技术实现了字幕和视音频画面“一块屏”的输出,彻底解决了听障人士无法观看无字幕视音频节目或只能多屏配合收看的痛处。

【技术实现步骤摘要】
为视音频节目实时添加字幕的方法和装置
本申请涉及辅助字幕领域,特别是涉及一种为视音频节目实时添加字幕的方法和装置。
技术介绍
在数字有线电视时代,有线电视采用的是电视机+外置机顶盒的方式来实现播放的。在各种类型的视音频节目中,新闻和直播体育赛事等视音频节目均没有字幕,此种情况下聋人无法准确知晓视音频节目内容。根据第二次全国残疾人抽样调查,我国有2057万听力言语残疾人,占残疾人总数的三分之一。每年还新增聋儿3万人,这一群体对直播节目的字幕需求极为迫切。目前,聋人收看无字幕电视节目采用的手段主要是,在手机上打开如讯飞听见、音书等APP,开启语音识别后,APP上就会出现当前播放的电视节目的声音转换后的文本,从而可以进行查看。但是,上述现有技术的缺点显而易见,首先观看者需要同时观看电视屏幕和手机屏幕两块屏,在电视屏幕上观看视频画面,在手机屏幕上观看文本,无法同时顾及,体验非常差。另外,手机APP中转换出来的密密麻麻的大段文本,通常错别字较多,且毫无逻辑,理解起来相当吃力,根本无法与电视上分行显示且断句逻辑清晰的字幕相比,因此,对理解电视节目内容的效果大打折扣,无法满足听障人士获取字幕的现实需求。
技术实现思路
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。根据本申请的一个方面,提供了一种为视音频节目实时添加字幕的方法,包括:获取视音频节目;使用语音识别引擎实时将所述视音频节目的语音转换成文本;采用分词算法将所述文本生成字幕;将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。可选地,采用分词算法将所述文本生成字幕,包括:采用分词算法对所述文本进行分词、分句和分行处理后得到字幕。可选地,采用分词算法对所述文本进行分词、分句和分行处理后得到字幕,包括:采用分词算法对所述文本进行分词,替换其中的特殊标点符号,按照语气间隔进行分句,且对过短语句进行自动拼接,然后进行分行,如果超过每行上限字数则进行切割,最终得到字幕。可选地,所述方法还包括:在分行之前,过滤掉背景音乐和歌曲的识别结果,处理病句和错句,过滤重复文字。可选地,所述方法还包括:获取视音频节目之后,判断当前设置的字幕状态,如果为开启状态,则执行后续生成字幕及输出的流程,如果为关闭状态,则直接输出所述视音频节目。根据本申请的另一个方面,提供了一种为视音频节目实时添加字幕的装置,包括:获取模块,其配置成获取视音频节目;识别模块,其配置成使用语音识别引擎实时将所述视音频节目的语音转换成文本;字幕模块,其配置成采用分词算法将所述文本生成字幕;匹配模块,其配置成将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。可选地,所述字幕模块包括:分词算法单元,其配置成采用分词算法对所述文本进行分词、分句和分行处理后得到字幕。可选地,所述分词算法单元具体配置成:采用分词算法对所述文本进行分词,替换其中的特殊标点符号,按照语气间隔进行分句,且对过短语句进行自动拼接,然后进行分行,如果超过每行上限字数则进行切割,最终得到字幕。可选地,所述分词算法单元还配置成:在分行之前,过滤掉背景音乐和歌曲的识别结果,处理病句和错句,过滤重复文字。可选地,所述装置还包括:控制模块,其配置成在所述获取模块获取视音频节目之后,判断当前设置的字幕状态,如果为开启状态,则触发所述识别模块执行后续流程,如果为关闭状态,则直接输出所述视音频节目。根据本申请的又一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。根据本申请的又一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。根据本申请的又一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的方法。本申请提供的技术方案,通过获取视音频节目,使用语音识别引擎实时将所述视音频节目的语音转换成文本,采用分词算法将所述文本生成字幕,将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出,实现了字幕和视音频画面“一块屏”的输出,彻底解决了听障人士无法观看无字幕视音频节目或只能多屏配合收看的痛处。进一步地,通过设置字幕状态可以随时关闭字幕,不会影响不需要此类辅助字幕的其它家庭成员收看视音频节目,方便了听障人士和正常人士不同需求的使用,使用更灵活。根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。附图说明后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1是根据本申请一个实施例的为视音频节目实时添加字幕的方法流程图;图2是根据本申请另一个实施例的为视音频节目实时添加字幕的方法流程图;图3是根据本申请另一个实施例的为视音频节目实时添加字幕的装置结构图;图4是根据本申请另一个实施例的计算设备结构图;图5是根据本申请另一个实施例的计算机可读存储介质结构图。具体实施方式本专利技术实施例涉及为视音频节目实时添加字幕,其中的视音频节目包括但不限于电视节目或网络视音频节目等等,尤其适用于播出时间固定且无字幕的直播新闻、综艺、体育等节目。对于自带字幕的视音频节目不在本专利技术涉及的范围之内,本专利技术实施例中的视音频节目均是指不配有字幕的视音频节目,下文不再特别声明。本专利技术实施例不仅适用于听障人士,同样也适用于需要静音收视者,或者多语种字幕收视者等等,应用极为广泛。图1是根据本申请一个实施例的为视音频节目实时添加字幕的方法流程图。参见图1,该方法包括:101:获取视音频节目;102:使用语音识别引擎实时将视音频节目的语音转换成文本;103:采用分词算法将文本生成字幕;104:将生成的字幕匹配且叠加到视音频节目的画面上输出。本实施例中,可选的,采用分词算法将文本生成字幕,包括:采用分词算法对文本进行分词、分句和分行处理后得到字幕。本实施例中,可选的,采用分词算法对文本进行分词、分句和分行处理后得到字幕,包括:采用分词算法对文本进行分词,替换其中的特殊标点符号,按照语气间隔进行分句,且对过短语句进行自动拼接,然后进行分行,如果超过每行上限字数则进行切割,最终得到字幕。本实施例中,可选的,上述方法还包括:在分行之前,过滤掉背景音乐和歌曲的识别结果,处理病句和错句,过滤重复文字。本实施例中,可选的,上述方法还包括本文档来自技高网...

【技术保护点】
1.一种为视音频节目实时添加字幕的方法,包括:/n获取视音频节目;/n使用语音识别引擎实时将所述视音频节目的语音转换成文本;/n采用分词算法将所述文本生成字幕;/n将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。/n

【技术特征摘要】
1.一种为视音频节目实时添加字幕的方法,包括:
获取视音频节目;
使用语音识别引擎实时将所述视音频节目的语音转换成文本;
采用分词算法将所述文本生成字幕;
将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。


2.根据权利要求1所述的方法,其特征在于,采用分词算法将所述文本生成字幕,包括:
采用分词算法对所述文本进行分词、分句和分行处理后得到字幕。


3.根据权利要求2所述的方法,其特征在于,采用分词算法对所述文本进行分词、分句和分行处理后得到字幕,包括:
采用分词算法对所述文本进行分词,替换其中的特殊标点符号,按照语气间隔进行分句,且对过短语句进行自动拼接,然后进行分行,如果超过每行上限字数则进行切割,最终得到字幕。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在分行之前,过滤掉背景音乐和歌曲的识别结果,处理病句和错句,过滤重复文字。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
获取视音频节目之后,判断当前设置的字幕状态,如果为开启状态,则执行后续生成字幕及输出的流程,如果为关闭状态,则直接输出所述视音频节目。


6.一种为视音频节目实时添加...

【专利技术属性】
技术研发人员:宣振生
申请(专利权)人:北京甲骨今声科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1