字幕数据推送方法、字幕展示方法、装置、设备及介质制造方法及图纸

技术编号：19068874 阅读：19 留言：0更新日期：2018-09-29 15:13

本申请是关于一种直播场景中的字幕数据推送方法及装置。该方法包括：获取视频流数据和音频流数据，音频流数据是视频流数据中的音频部分对应的数据；根据音频流数据生成字幕数据，字幕数据中包含字幕文本以及时间信息；将字幕数据推送给用户终端，指示用户终端根据字幕文本对应的时间信息，将字幕文本与视频流数据中的直播画面同步展示。通过本申请所示的方案，对于视频流数据，可以根据视频流数据对应的音频流数据生成包含字幕文本以及时间信息的字幕数据，再将字幕数据推送给用户终端，由用户终端在根据时间信息将字幕文本与视频流数据中的画面同步展示，从而实现字幕与视频画面的准确同步。

全部详细技术资料下载

【技术实现步骤摘要】
字幕数据推送方法、字幕展示方法、装置、设备及介质
本申请涉及互联网应用
，特别涉及一种字幕数据推送方法、字幕展示方法、装置、设备及介质。
技术介绍
随着移动互联网的不断发展，视频直播类的应用也越来越广泛，在直播视频中插入字幕也已经成为提高用户观看体验的重要手段。在相关技术中，直播视频中的字幕通常在直播录制端(比如录制现场/演播室)通过人工插入来实现。参考图1，其示出了一种直播流程示意图。如图1所示，在直播录制端采集视频图像并进行编码的过程中，通过现场工作人员人工插入字幕数据，直播录制端通过直播接入服务，将直播视频流上传给服务器，服务器通过直播转码服务对直播视频流进行转码，并将转码后的直播视频流通过内容分发网络发送至用户终端侧的播放器进行播放。然而，相关技术中在直播视频中插入字幕的方案，需要在直播录制端通过人工插入字幕数据，字幕数据与直播视频画面同步的准确性较低，影响直播效果。
技术实现思路
本申请实施例提供了一种字幕数据推送方法、字幕展示方法、装置、设备及介质，可以用于解决相关技术中需要在直播录制端通过人工插入字幕数据，字幕数据与直播视频画面同步的准确性较低，从而影响直播效果的问题，该技术方案如下：一方面，提供了一种字幕数据推送方法，所述方法包括：获取视频流数据和音频流数据，所述音频流数据是所述视频流数据中的音频部分对应的数据；根据所述音频流数据生成字幕数据，所述字幕数据中包含所述音频流数据中的语音对应的字幕文本，以及所述字幕文本对应的时间信息；在向用户终端推送所述视频流数据时，将所述字幕数据推送给所述用户终端，所述字幕数据用于指示所述用户终端根据所述字...

【技术保护点】
1.一种字幕数据推送方法，其特征在于，所述方法包括：获取视频流数据和音频流数据，所述音频流数据是所述视频流数据中的音频部分对应的数据；根据所述音频流数据生成字幕数据，所述字幕数据中包含所述音频流数据中的语音对应的字幕文本，以及所述字幕文本对应的时间信息；在向用户终端推送所述视频流数据时，将所述字幕数据推送给所述用户终端，所述字幕数据用于指示所述用户终端根据所述字幕文本对应的时间信息，将所述字幕文本与所述视频流数据中的直播画面同步展示。

【技术特征摘要】
1.一种字幕数据推送方法，其特征在于，所述方法包括：获取视频流数据和音频流数据，所述音频流数据是所述视频流数据中的音频部分对应的数据；根据所述音频流数据生成字幕数据，所述字幕数据中包含所述音频流数据中的语音对应的字幕文本，以及所述字幕文本对应的时间信息；在向用户终端推送所述视频流数据时，将所述字幕数据推送给所述用户终端，所述字幕数据用于指示所述用户终端根据所述字幕文本对应的时间信息，将所述字幕文本与所述视频流数据中的直播画面同步展示。2.根据权利要求1所述的方法，其特征在于，所述在向用户终端推送所述视频流数据时，将所述字幕数据推送给所述用户终端，包括：接收所述用户终端发送的字幕获取请求，所述字幕获取请求中携带有语言指示信息，所述语言指示信息用于指示字幕语言；当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言时，向所述用户终端推送所述字幕数据。3.根据权利要求2所述的方法，其特征在于，所述根据所述音频流数据生成字幕数据，包括：通过目标业务，根据所述音频流数据生成所述字幕数据，所述目标业务是至少一个字幕生成业务中的任意业务；所述字幕获取请求中还携带有业务标识，所述业务标识用于指示字幕生成业务；所述当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言时，向所述用户终端推送所述字幕数据，包括：当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言，且所述业务标识指示的字幕生成业务是所述目标业务时，向所述用户终端推送所述字幕数据。4.根据权利要求2所述的方法，其特征在于，所述字幕获取请求中还包含时间标识，所述时间标识用于指示请求的字幕数据的时间信息；所述向所述用户终端推送所述字幕数据，包括：查询是否缓存有与所述时间标识指示的时间信息相对应的所述字幕数据；若查询到缓存有所述字幕数据，则将缓存的所述字幕数据推送给所述用户终端。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：若查询到未缓存所述字幕数据，则从字幕数据库中提取所述字幕数据；将提取到的所述字幕数据进行缓存。6.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据向所述用户终端推送的所述字幕数据的时间信息确定下次请求时间；向所述用户终端发送请求指示信息，所述请求指示信息用于指示所述用户终端在下次请求时间到达时发送新的字幕获取请求。7.根据权利要求3所述的方法，其特征在于，所述方法还包括：检测所述字幕数据中的各个数据块的序号是否连续；若所述字幕数据中的各个数据块的序号不连续，则向所述目标业务请求缺失序号对应的数据块，所述缺失序号是所述字幕数据中的第一个数据块的序号和最后一个数据块的序号之间缺失的序号；通过所述缺失序号对应的数据块补齐所述字幕数据。8.根据权利要求1所述的方法，其特征在于，所述根据所述音频流数据生成字幕数据，包括：对所述音频流数据进行语音识别，获得语音识别文本；根据所述语音识别文本生成所述字幕数据。9.根据权利要求8所述的方法，其特征在于，所述对所述音频流数据进行语音识别，获得语音识别文本，包括：对所述音频流数据进行语音起止检测，获得所述音频流数据中的语音起始帧和语音结束帧；所述语音起始帧是语音片段开始时的音频帧，所述语音结束帧是语音片段结束时的音频帧；对所述音频流数据中的目标语音数据进行语音识别，获得所述目标语音数据对应的识别文本；所述目标语音数据包括所述音频流中任意一组语音起始帧和语音结束帧之间的音频帧。10.根据权利要求9所述的方法，其特征在于，所述对所述音频流数据中的目标语音数据进行语音识别，获得所述目标语音数据对应的识别文本，包括：按照所述目标语音数据中的各个音频帧对应的时间信息，每隔预定时间间隔进行一次语音帧提取，获得至少一段语音子数据，所述语音子数据包括所述目标语音数据的语音起始帧与目标音频帧之间的各个音频帧，所述目标音频帧是所述语音子数据的语音帧提取操作对应在所述目标语音数据中的时间信息处的音频帧；对所述至少一段语音子数据进行语音识别，获得所述至少一段语音子数据分别对应的识别子文本；将所述至少一段语音子数据分别对应的识别子文本获取为所述目标语音数据对应的识别文本。11.根据权利要求8所述的方法，其特征在于，所述根据所述语音识别文本生成所述字幕数据，包括：将所述语音识别文本翻译为目标语言对应的翻译文本；根据所述翻译文本生成所述字幕文本；所述字幕文本中包含所述翻译文本，或者，所述字幕文本中包含所述语音识别文本和所述翻译文本；根据所述字幕文本生成所述字幕数据。12.根据权利要求1所...

【专利技术属性】
技术研发人员：罗梓恒，朱秀明，胡小华，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人