一种字幕叠加方法及装置制造方法及图纸

技术编号:16330268 阅读:22 留言:0更新日期:2017-09-29 21:29
本发明专利技术提供一种字幕叠加方法及装置,应用于字幕叠加终端,该字幕叠加终端包括多个输入接口。所述方法包括:接收分别从多个输入接口输入的TS流信号,将TS流信号的模式转换为指定模式;对转换后的TS流信号进行解码,获得音频流和视频流;对获得的音频流进行滤波处理,获得语音信息;通过语音识别将语音信息转换为文本信息,并根据文本信息生成对应的字幕图片;将视频流和字幕图片进行叠加处理,生成包括字幕的数据流视频文件。该字幕叠加方案可直接对无字幕的电视节目进行自动语音识别,以生成文本信息,并将文本信息转换为字幕图片以与视频流进行叠加生成包含字幕的数据流视频文件,以方便听力障碍人群收看电视节目。

【技术实现步骤摘要】
一种字幕叠加方法及装置
本专利技术涉及广播电视
,具体而言,涉及一种字幕叠加方法及装置。
技术介绍
随着科学技术的发展和人们生活水平的提高,视频已经成为人们工作、学习、社交以及休闲娱乐不可替代的重要方式,并且人们对于视频的要求也越来越高。目前,在视频编辑系统中,对于数据流视频文件的字幕的设定及生成的方式各不相同。但是,目前常用的解码器显示的字幕一般都是电视台通过采编系统直接在视频上进行编辑,编辑完成以后给编码器压缩编码再进行传输。所以,接收机解出来的字幕只能是电视台预先编辑好的字幕。如此,部分无字幕的电视节目将不利于听力障碍人群收看。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种字幕叠加方法及装置,以解决上述问题。本专利技术实施例提供一种字幕叠加方法,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述方法包括:接收分别从所述多个输入接口输入的TS流信号,将所述TS流信号的模式转换为指定模式;对转换后的TS流信号进行解码,获得音频流和视频流;对获得的所述音频流进行滤波处理,获得语音信息;通过语音识别将所述语音信息转换为文本信息,并根据所述文本信息生成对应的字幕图片;将所述视频流和所述字幕图片进行叠加处理,生成包括字幕的数据流视频文件。进一步地,所述转换后的TS流信号包括多套节目的TS流信号,所述方法还包括:接收输入的叠加请求指令以及输入的节目信息;根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。进一步地,所述方法还包括:检测解码后的与所述节目信息对应的视频流中是否包含文本信息,若不包含文本信息,则执行所述对获得的所述音频流进行滤波处理的步骤。进一步地,所述通过语音识别将所述语音信息转换为文本信息的步骤,包括:对所述语音信息进行分帧处理,获得多段语音帧;将各帧语音帧进行转换,获得对应的多维向量,其中各所述多维向量分别包含各所述语音帧的内容信息;根据获得的多个所述多维向量,获得所述语音信息对应的文本信息。进一步地,所述方法还包括:设定一线性递增的参考时钟;根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳;读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳,并参考当前参考时钟上的时间来进行音频输出和视频输出,以使音视频达到同步。本专利技术另一较佳实施例提供一种字幕叠加装置,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述字幕叠加装置包括接收模块、解码模块、滤波处理模块、第一转换模块及叠加处理模块;所述接收模块用于接收分别从所述多个输入接口输入的TS流信号,将所述TS流信号的模式转换为指定模式;所述解码模块用于对转换后的TS流信号进行解码,获得音频流和视频流;所述滤波处理模块用于对获得的所述音频流进行滤波处理,获得语音信息;所述第一转换模块用于通过语音识别将所述语音信息转换为文本信息,并根据所述文本信息生成对应的字幕图片;所述叠加处理模块用于将所述视频流和所述字幕图片进行叠加处理,生成包括字幕的数据流视频文件。进一步地,所述转换后的TS流信号包括多套节目的TS流信号,所述字幕叠加装置还包括指令接收模块及第二转换模块;所述指令接收模块用于接收输入的叠加请求指令以及输入的节目信息;所述第二转换模块用于根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。进一步地,所述字幕叠加装置还包括检测模块;所述检测模块用于检测解码后的与所述节目信息对应的视频流中是否包含文本信息,若不包含文本信息,则执行所述滤波处理模块所执行的对获得的所述音频流进行滤波处理的步骤。进一步地,所述第一转换模块包括分帧单元、转换单元以及获取单元;所述分帧单元用于对所述语音信息进行分帧处理,获得多段语音帧;所述转换单元用于将各帧语音帧进行转换,获得对应的多维向量,其中各所述多维向量分别包含各所述语音帧的内容信息;所述获取单元用于根据获得的多个所述多维向量,获得所述语音信息对应的文本信息。进一步地,所述字幕叠加装置还包括设定模块、时间戳设置模块以及读取模块;所述设定模块用于设定一线性递增的参考时钟;所述时间戳设置模块用于根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳;所述读取模块用于读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳,并参考当前参考时钟上的时间来进行音频输出和视频输出,以使音视频达到同步。本专利技术实施例提供的字幕叠加方法及装置,通过对接收到的TS流信号进行解码以获得音频流和视频流,对获得的音频流进行自动语音识别以获得文本信息,再将文本信息转换为字幕图片,将生成的字幕图片与解码获得的视频流进行叠加以最终生成包含字幕的数据流视频文件。该字幕叠加方案可直接对无字幕的电视节目进行自动语音识别,以生成文本信息,并将文本信息转换为字幕图片以与视频流进行叠加生成包含字幕的数据流视频文件,以方便听力障碍人群收看电视节目。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术较佳实施例提供的一种字幕叠加终端的示意性结构框图。图2为本专利技术较佳实施例提供的一种字幕叠加方法的流程图。图3为图2中步骤S104的子步骤的流程图。图4为本专利技术较佳实施例提供的字幕叠加方法的另一流程图。图5为本专利技术较佳实施例提供的字幕叠加方法的另一流程图。图6为本专利技术较佳实施例提供的字幕叠加装置的功能模块框图。图7为本专利技术较佳实施例提供的第一转换模块的功能模块框图。图8为本专利技术较佳实施例提供的字幕叠加装置的另一功能模块框图。图标:100-字幕叠加终端;110-字幕叠加装置;111-接收模块;112-解码模块;113-滤波处理模块;114-第一转换模块;1141-分帧单元;1142-转换单元;1143-获取单元;115-叠加处理模块;116-指令接收模块;117-第二转换模块;118-检测模块;119-设定模块;1110-时间戳设置模块;1111-读取模块;120-处理器;130-存储器。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,除非另有明确的规定和限定,术语“安装”本文档来自技高网...
一种字幕叠加方法及装置

【技术保护点】
一种字幕叠加方法,其特征在于,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述方法包括:接收分别从所述多个输入接口输入的TS流信号,将所述TS流信号的模式转换为指定模式;对转换后的TS流信号进行解码,获得音频流和视频流;对获得的所述音频流进行滤波处理,获得语音信息;通过语音识别将所述语音信息转换为文本信息,并根据所述文本信息生成对应的字幕图片;将所述视频流和所述字幕图片进行叠加处理,生成包括字幕的数据流视频文件。

【技术特征摘要】
1.一种字幕叠加方法,其特征在于,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述方法包括:接收分别从所述多个输入接口输入的TS流信号,将所述TS流信号的模式转换为指定模式;对转换后的TS流信号进行解码,获得音频流和视频流;对获得的所述音频流进行滤波处理,获得语音信息;通过语音识别将所述语音信息转换为文本信息,并根据所述文本信息生成对应的字幕图片;将所述视频流和所述字幕图片进行叠加处理,生成包括字幕的数据流视频文件。2.根据权利要求1所述的字幕叠加方法,其特征在于,所述转换后的TS流信号包括多套节目的TS流信号,所述方法还包括:接收输入的叠加请求指令以及输入的节目信息;根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。3.根据权利要求2所述的字幕叠加方法,其特征在于,所述方法还包括:检测解码后的与所述节目信息对应的视频流中是否包含文本信息,若不包含文本信息,则执行所述对获得的所述音频流进行滤波处理的步骤。4.根据权利要求1所述的字幕叠加方法,其特征在于,所述通过语音识别将所述语音信息转换为文本信息的步骤,包括:对所述语音信息进行分帧处理,获得多段语音帧;将各帧语音帧进行转换,获得对应的多维向量,其中各所述多维向量分别包含各所述语音帧的内容信息;根据获得的多个所述多维向量,获得所述语音信息对应的文本信息。5.根据权利要求1所述的字幕叠加方法,其特征在于,所述方法还包括:设定一线性递增的参考时钟;根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳;读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳,并参考当前参考时钟上的时间来进行音频输出和视频输出,以使音视频达到同步。6.一种字幕叠加装置,其特征在于,应用于字幕叠加终端,所述字幕叠加终端包括多个输入接口,所述字幕叠加装置包括接收模块、解码模块、滤波处理模块、第一转换模块及叠加处理模块;所述接收模块用于接收分别从所述多个输入接口输...

【专利技术属性】
技术研发人员:牛伟李俊
申请(专利权)人:成都德芯数字科技股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1