字幕数据推送方法、字幕展示方法、装置、设备及介质制造方法及图纸

技术编号:19068874 阅读:19 留言:0更新日期:2018-09-29 15:13
本申请是关于一种直播场景中的字幕数据推送方法及装置。该方法包括:获取视频流数据和音频流数据,音频流数据是视频流数据中的音频部分对应的数据;根据音频流数据生成字幕数据,字幕数据中包含字幕文本以及时间信息;将字幕数据推送给用户终端,指示用户终端根据字幕文本对应的时间信息,将字幕文本与视频流数据中的直播画面同步展示。通过本申请所示的方案,对于视频流数据,可以根据视频流数据对应的音频流数据生成包含字幕文本以及时间信息的字幕数据,再将字幕数据推送给用户终端,由用户终端在根据时间信息将字幕文本与视频流数据中的画面同步展示,从而实现字幕与视频画面的准确同步。

【技术实现步骤摘要】
字幕数据推送方法、字幕展示方法、装置、设备及介质
本申请涉及互联网应用
,特别涉及一种字幕数据推送方法、字幕展示方法、装置、设备及介质。
技术介绍
随着移动互联网的不断发展,视频直播类的应用也越来越广泛,在直播视频中插入字幕也已经成为提高用户观看体验的重要手段。在相关技术中,直播视频中的字幕通常在直播录制端(比如录制现场/演播室)通过人工插入来实现。参考图1,其示出了一种直播流程示意图。如图1所示,在直播录制端采集视频图像并进行编码的过程中,通过现场工作人员人工插入字幕数据,直播录制端通过直播接入服务,将直播视频流上传给服务器,服务器通过直播转码服务对直播视频流进行转码,并将转码后的直播视频流通过内容分发网络发送至用户终端侧的播放器进行播放。然而,相关技术中在直播视频中插入字幕的方案,需要在直播录制端通过人工插入字幕数据,字幕数据与直播视频画面同步的准确性较低,影响直播效果。
技术实现思路
本申请实施例提供了一种字幕数据推送方法、字幕展示方法、装置、设备及介质,可以用于解决相关技术中需要在直播录制端通过人工插入字幕数据,字幕数据与直播视频画面同步的准确性较低,从而影响直播效果的问题,该技术方案如下:一方面,提供了一种字幕数据推送方法,所述方法包括:获取视频流数据和音频流数据,所述音频流数据是所述视频流数据中的音频部分对应的数据;根据所述音频流数据生成字幕数据,所述字幕数据中包含所述音频流数据中的语音对应的字幕文本,以及所述字幕文本对应的时间信息;在向用户终端推送所述视频流数据时,将所述字幕数据推送给所述用户终端,所述字幕数据用于指示所述用户终端根据所述字幕文本对应的时间信息,将所述字幕文本与所述视频流数据中的直播画面同步展示。另一方面,提供了一种字幕展示方法,所述方法包括:接收服务器推送的视频流数据;接收所述服务器推送的字幕数据,所述字幕数据是所述服务器根据音频流数据生成的数据;且所述字幕数据中包含所述音频流数据中的语音对应的字幕文本,以及所述字幕文本对应的时间信息,所述音频流数据是所述视频流数据中的音频部分对应的数据;根据所述字幕文本对应的时间信息,将所述字幕文本与所述视频流数据中的直播画面同步展示。另一方面,提供了一种字幕数据推送装置,所述装置包括:流获取模块,用于获取视频流数据和音频流数据,所述音频流数据是所述视频流数据中的音频部分对应的数据;字幕数据生成模块,用于根据所述音频流数据生成字幕数据,所述字幕数据中包含所述音频流数据中的语音对应的字幕文本,以及所述字幕文本对应的时间信息;字幕推送模块,用于在向用户终端推送所述视频流数据时,将所述字幕数据推送给所述用户终端,所述字幕数据用于指示所述用户终端根据所述字幕文本对应的时间信息,将所述字幕文本与所述视频流数据中的直播画面同步展示。另一方面,提供了一种字幕展示装置,所述装置包括:视频流接收模块,用于接收服务器推送的视频流数据;字幕接收模块,用于接收所述服务器推送的字幕数据,所述字幕数据是所述服务器根据所述视频流数据中包含的音频流数据生成的数据;且所述字幕数据中包含所述音频流数据中的语音对应的字幕文本,以及所述字幕文本对应的时间信息,所述音频流数据是所述视频流数据中的音频部分对应的数据;字幕展示模块,用于根据所述字幕文本对应的时间信息,将所述字幕文本与所述视频流数据中的直播画面同步展示。另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的字幕数据推送方法。另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的字幕展示方法。又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的字幕数据推送方法。又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的字幕展示方法。本申请提供的技术方案可以包括以下有益效果:通过本申请所示的方案,对于视频流数据,可以根据视频流数据中的音频部分对应的音频流数据生成包含字幕文本以及时间信息的字幕数据,再将字幕数据推送给用户终端,由用户终端在根据时间信息将字幕文本与视频流数据中的直播画面同步展示,从而实现字幕与视频画面的准确同步,同时,由于不需要人工插入字幕数据,能够有效降低直播延时。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1是根据相关技术提供的一种直播流程示意图;图2是是根据一示例性实施例示出的一种直播系统的结构示意图;图3是根据一示例性实施例示出的一种字幕数据推送及字幕展示方法的流程图;图4是根据一示例性实施例示出的一种字幕数据推送及字幕展示方法的流程图;图5是图4所示实施例涉及的一种视频流数据的数据结构图;图6是图4所示实施例涉及的一种转码切换示意图;图7是图4所示实施例涉及的一种识别及翻译流程示意图;图8是图4所示实施例涉及的一种字幕数据的结构示意图;图9是图4所示实施例涉及的一种播放界面示意图;图10是根据一示例性实施例示出的直播场景中的字幕推送及展示流程图;图11是图11所示实施例涉及的直播场景中的字幕推送及展示系统架构图;图12是图11所示实施例涉及的业务接入示意图;图13是图11所示实施例涉及的一种字幕数据同步示意图;图14是图11所示实施例涉及的一种三级缓存示意图;图15是根据一示例性实施例示出的字幕数据推送装置的结构方框图;图16是根据一示例性实施例示出的字幕展示装置的结构方框图;图17是根据一示例性实施例示出的一种计算机设备的结构框图;图18是根据一示例性实施例示出的一种用户终端的结构框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的几个概念进行介绍:1)字幕字幕是指以文字形式显示在网络视频、电视、电影、舞台作品中的对话或者旁白等非影像内容,也泛指影视作品后期加工的文字。2)直播直播是一种通过流媒体技术,将图像、声音、文字等丰富的元素经互联网向用户展示生动、直观的真实画面的一整套技术,其涉及编码工具、流媒体数据、服务器、网络以及播放器等一系列服务模块。3)实时翻译实时翻译是指通过人工或者计算机将一种语言的语音或者文本即时翻译为另一种语本文档来自技高网...

【技术保护点】
1.一种字幕数据推送方法,其特征在于,所述方法包括:获取视频流数据和音频流数据,所述音频流数据是所述视频流数据中的音频部分对应的数据;根据所述音频流数据生成字幕数据,所述字幕数据中包含所述音频流数据中的语音对应的字幕文本,以及所述字幕文本对应的时间信息;在向用户终端推送所述视频流数据时,将所述字幕数据推送给所述用户终端,所述字幕数据用于指示所述用户终端根据所述字幕文本对应的时间信息,将所述字幕文本与所述视频流数据中的直播画面同步展示。

【技术特征摘要】
1.一种字幕数据推送方法,其特征在于,所述方法包括:获取视频流数据和音频流数据,所述音频流数据是所述视频流数据中的音频部分对应的数据;根据所述音频流数据生成字幕数据,所述字幕数据中包含所述音频流数据中的语音对应的字幕文本,以及所述字幕文本对应的时间信息;在向用户终端推送所述视频流数据时,将所述字幕数据推送给所述用户终端,所述字幕数据用于指示所述用户终端根据所述字幕文本对应的时间信息,将所述字幕文本与所述视频流数据中的直播画面同步展示。2.根据权利要求1所述的方法,其特征在于,所述在向用户终端推送所述视频流数据时,将所述字幕数据推送给所述用户终端,包括:接收所述用户终端发送的字幕获取请求,所述字幕获取请求中携带有语言指示信息,所述语言指示信息用于指示字幕语言;当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言时,向所述用户终端推送所述字幕数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述音频流数据生成字幕数据,包括:通过目标业务,根据所述音频流数据生成所述字幕数据,所述目标业务是至少一个字幕生成业务中的任意业务;所述字幕获取请求中还携带有业务标识,所述业务标识用于指示字幕生成业务;所述当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言时,向所述用户终端推送所述字幕数据,包括:当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言,且所述业务标识指示的字幕生成业务是所述目标业务时,向所述用户终端推送所述字幕数据。4.根据权利要求2所述的方法,其特征在于,所述字幕获取请求中还包含时间标识,所述时间标识用于指示请求的字幕数据的时间信息;所述向所述用户终端推送所述字幕数据,包括:查询是否缓存有与所述时间标识指示的时间信息相对应的所述字幕数据;若查询到缓存有所述字幕数据,则将缓存的所述字幕数据推送给所述用户终端。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若查询到未缓存所述字幕数据,则从字幕数据库中提取所述字幕数据;将提取到的所述字幕数据进行缓存。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据向所述用户终端推送的所述字幕数据的时间信息确定下次请求时间;向所述用户终端发送请求指示信息,所述请求指示信息用于指示所述用户终端在下次请求时间到达时发送新的字幕获取请求。7.根据权利要求3所述的方法,其特征在于,所述方法还包括:检测所述字幕数据中的各个数据块的序号是否连续;若所述字幕数据中的各个数据块的序号不连续,则向所述目标业务请求缺失序号对应的数据块,所述缺失序号是所述字幕数据中的第一个数据块的序号和最后一个数据块的序号之间缺失的序号;通过所述缺失序号对应的数据块补齐所述字幕数据。8.根据权利要求1所述的方法,其特征在于,所述根据所述音频流数据生成字幕数据,包括:对所述音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成所述字幕数据。9.根据权利要求8所述的方法,其特征在于,所述对所述音频流数据进行语音识别,获得语音识别文本,包括:对所述音频流数据进行语音起止检测,获得所述音频流数据中的语音起始帧和语音结束帧;所述语音起始帧是语音片段开始时的音频帧,所述语音结束帧是语音片段结束时的音频帧;对所述音频流数据中的目标语音数据进行语音识别,获得所述目标语音数据对应的识别文本;所述目标语音数据包括所述音频流中任意一组语音起始帧和语音结束帧之间的音频帧。10.根据权利要求9所述的方法,其特征在于,所述对所述音频流数据中的目标语音数据进行语音识别,获得所述目标语音数据对应的识别文本,包括:按照所述目标语音数据中的各个音频帧对应的时间信息,每隔预定时间间隔进行一次语音帧提取,获得至少一段语音子数据,所述语音子数据包括所述目标语音数据的语音起始帧与目标音频帧之间的各个音频帧,所述目标音频帧是所述语音子数据的语音帧提取操作对应在所述目标语音数据中的时间信息处的音频帧;对所述至少一段语音子数据进行语音识别,获得所述至少一段语音子数据分别对应的识别子文本;将所述至少一段语音子数据分别对应的识别子文本获取为所述目标语音数据对应的识别文本。11.根据权利要求8所述的方法,其特征在于,所述根据所述语音识别文本生成所述字幕数据,包括:将所述语音识别文本翻译为目标语言对应的翻译文本;根据所述翻译文本生成所述字幕文本;所述字幕文本中包含所述翻译文本,或者,所述字幕文本中包含所述语音识别文本和所述翻译文本;根据所述字幕文本生成所述字幕数据。12.根据权利要求1所...

【专利技术属性】
技术研发人员:罗梓恒朱秀明胡小华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1