一种显示直播字幕的方法、装置、服务器及介质制造方法及图纸

技术编号：23789714 阅读：47 留言：0更新日期：2020-04-15 02:04

本发明专利技术实施例提供了一种显示直播字幕的方法、装置、服务器及介质，涉及信息处理技术领域。本申请实施例的方案包括：接收直播管理系统发送的直播任务指令，基于直播任务指令接收并缓存直播管理系统发送的音频数据和视频帧数据，并对音频数据进行语音识别，得到音频数据对应的文本数据，然后根据文本数据的时间戳和视频帧数据的时间戳，将文本数据叠加至与文本数据的时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据，并输出由携带字幕信息的视频帧数据和音频数据组成的媒体流。采用该方法可以实现为直播视频显示字幕。

A method, device, server and medium for displaying live subtitles

全部详细技术资料下载

【技术实现步骤摘要】
一种显示直播字幕的方法、装置、服务器及介质
本专利技术涉及信息处理
，特别是涉及一种显示直播字幕的方法、装置、服务器及介质。
技术介绍
目前，大多数视频内容都有字幕，比如春节晚会、电视剧、电影等，都会在播放过程中同步显示字幕。这类视频中的字幕都是在离线状态由人工录入的，即视频录制完成后，先由人工录入字幕，然后才能实现在播放过程中同步显示字幕。而对于直播视频，需在录制的同时进行播放，所以无法先由人工录制字幕再播放，导致目前在直播过程中无法同步显示直播视频的字幕。
技术实现思路
本专利技术实施例的目的在于提供一种显示直播字幕的方法、装置、电子设备及介质，以解决直播视频在直播过程中无法同步显示字幕的问题。具体技术方案如下：第一方面，本申请实施例提供一种显示直播字幕的方法，所述方法应用于服务器，所述方法包括：接收直播管理系统发送的直播任务指令；基于所述直播任务指令接收并缓存所述直播管理系统发送的音频数据和视频帧数据，并对所述音频数据进行语音识别，得到所述音频数据对应的文本数据；根据所述文本数据的时间戳和所述视频帧数据的时间戳，将所述文本数据叠加至与所述文本数据的时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据；输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流。在一种可能的实现方式中，所述基于所述直播任务指令接收并缓存所述直播管理系统发送的音频数据和视频数据，并对所述音频数据进行语音识别，得到所述音频数据对应的文本数据，包括：r>解析所述直播任务指令；若所述直播任务指令中携带语音识别参数，则接收并缓存所述直播管理系统发送的音频数据和视频数据，同时对所述音频数据进行语音识别，得到所述音频数据对应的文本数据。在一种可能的实现方式中，所述对所述音频数据进行语音识别，得到所述音频数据对应的文本数据，包括：对所述音频数据进行重采样，得到指定采样率的脉冲编码调制PCM数据，并基于所述音频数据的时间戳为所述PCM数据添加时间戳；将PCM数据组合为指定大小的PCM包；每隔预设时间间隔对一个PCM包中的PCM数据进行语音识别，得到所述PCM包中的PCM数据对应的文本数据；将所述PCM包中的PCM数据对应的文本数据缓存至文本处理队列。在一种可能的实现方式中，所述根据所述文本数据的时间戳和所述视频帧数据的时间戳，将所述文本数据叠加值与所述文本数据时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据，包括：当存在视频帧数据缓存超时时，从所述文本处理队列获取与所述视频帧数据时间戳相同的文本数据，将获取到的文本数据作为字幕信息叠加至所述视频帧数据，得到携带字幕信息的视频帧数据。在一种可能的实现方式中，在所述将获取到的文本数据作为字幕信息叠加至所述视频帧数据，得到携带字幕信息的视频帧数据之后，所述方法还包括：将所述携带字幕信息的视频帧数据和与所述携带字幕信息的视频帧数据时间戳相同的音频数据进行音视频同步处理。在一种可能的实现方式中，所述将所述携带字幕信息的视频帧数据和与所述携带字幕信息的视频帧数据时间戳相同的音频数据进行音视频同步处理，包括：将所述携带字幕信息视频帧数据和与所述视频帧数据时间戳相同的音频数据输入缓存区，在所述缓存区中对所述携带字幕信息的视频帧数据和与所述携带字幕信息的视频帧数据时间戳相同的音频数据进行音视频同步处理；所述输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流，包括：在经过音视频同步处理的所述携带字幕信息的视频帧数据和所述音频数据在所述缓存区的缓存时长达到指定时长时，输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流。第二方面，本申请实施例提供一种显示直播字幕的装置，所述装置应用于服务器，所述装置包括：接收模块，用于接收直播管理系统发送的直播任务指令；以及基于所述直播任务指令接收并缓存所述直播管理系统发送的音频数据和视频帧数据；语音识别模块，用于对所述音频数据进行语音识别，得到所述音频数据对应的文本数据；叠加模块，用于根据所述文本数据的时间戳和所述视频帧数据的时间戳，将所述文本数据叠加至与所述文本数据的时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据；输出模块，用于输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流。在一种可能的实现方式中，所述接收模块，具体用于解析所述直播任务指令；以及若所述直播任务指令中携带语音识别参数，则接收并缓存所述直播管理系统发送的音频数据和视频数据；所述语音识别模块，用于在所述接收模块缓存所述音频数据和所述视频数据的同时，对所述音频数据进行语音识别，得到所述音频数据对应的文本数据。在一种可能的实现方式中，所述语音识别模块，具体用于：对所述音频数据进行重采样，得到指定采样率的脉冲编码调制PCM数据，并基于所述音频数据的时间戳为所述PCM数据添加时间戳；将PCM数据组合为指定大小的PCM包；每隔预设时间间隔对一个PCM包中的PCM数据进行语音识别，得到所述PCM包中的PCM数据对应的文本数据；将所述PCM包中的PCM数据对应的文本数据缓存至文本处理队列。在一种可能的实现方式中，所述叠加模块，具体用于当存在视频帧数据缓存超时时，从所述文本处理队列获取与所述视频帧数据时间戳相同的文本数据，将获取到的文本数据作为字幕信息叠加至所述视频帧数据，得到携带字幕信息的视频帧数据。在一种可能的实现方式中，所述装置还包括：同步模块，用于将所述携带字幕信息的视频帧数据和与所述携带字幕信息的视频帧数据时间戳相同的音频数据进行音视频同步处理。在一种可能的实现方式中，所述同步模块，具体用于将所述携带字幕信息视频帧数据和与所述视频帧数据时间戳相同的音频数据输入缓存区，在所述缓存区中对所述携带字幕信息的视频帧数据和与所述携带字幕信息的视频帧数据时间戳相同的音频数据进行音视频同步处理；所述输出模块，具体用于在经过音视频同步处理的所述携带字幕信息的视频帧数据和所述音频数据在所述缓存区的缓存时长达到指定时长时，输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流。第三方面，本申请实施例提供一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。第四方面，本申请实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。第五方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。采用本申请实施例提供的显示直播字幕的方法，在接收到直播管理系统发送的本文档来自技高网...

【技术保护点】
1.一种显示直播字幕的方法，其特征在于，所述方法应用于服务器，所述方法包括：/n接收直播管理系统发送的直播任务指令；/n基于所述直播任务指令接收并缓存所述直播管理系统发送的音频数据和视频帧数据，并对所述音频数据进行语音识别，得到所述音频数据对应的文本数据；/n根据所述文本数据的时间戳和所述视频帧数据的时间戳，将所述文本数据叠加至与所述文本数据的时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据；/n输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流。/n

【技术特征摘要】
1.一种显示直播字幕的方法，其特征在于，所述方法应用于服务器，所述方法包括：
接收直播管理系统发送的直播任务指令；
基于所述直播任务指令接收并缓存所述直播管理系统发送的音频数据和视频帧数据，并对所述音频数据进行语音识别，得到所述音频数据对应的文本数据；
根据所述文本数据的时间戳和所述视频帧数据的时间戳，将所述文本数据叠加至与所述文本数据的时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据；
输出由所述携带字幕信息的视频帧数据和所述音频数据组成的媒体流。

2.根据权利要求1所述的方法，其特征在于，所述基于所述直播任务指令接收并缓存所述直播管理系统发送的音频数据和视频数据，并对所述音频数据进行语音识别，得到所述音频数据对应的文本数据，包括：
解析所述直播任务指令；
若所述直播任务指令中携带语音识别参数，则接收并缓存所述直播管理系统发送的音频数据和视频数据，同时对所述音频数据进行语音识别，得到所述音频数据对应的文本数据。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述音频数据进行语音识别，得到所述音频数据对应的文本数据，包括：
对所述音频数据进行重采样，得到指定采样率的脉冲编码调制PCM数据，并基于所述音频数据的时间戳为所述PCM数据添加时间戳；
将PCM数据组合为指定大小的PCM包；
每隔预设时间间隔对一个PCM包中的PCM数据进行语音识别，得到所述PCM包中的PCM数据对应的文本数据；
将所述PCM包中的PCM数据对应的文本数据缓存至文本处理队列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述文本数据的时间戳和所述视频帧数据的时间戳，将所述文本数据叠加值与所述文本数据时间戳相同的视频帧数据，得到携带字幕信息的视频帧数据，包括：
当存在视频帧数据缓存超时时，从所述文本处理队列获取与所述视频帧数据时间戳相同的文本数据，将获取到的文本数据作为字幕信息叠加至所述视频帧数据，得到携带字幕信息的视频帧数据。

5.根据权利要求4所述的方法，其特征在于，在所述将获取到的文本数据作为字幕信息叠加至所述视频帧数据，得到携带字幕信息的视频帧数据之后，所述方法还包括：
将所述携带字幕信息的视频帧数据和与所述携带字幕信息的视频帧数据时间戳相同的...

【专利技术属性】
技术研发人员：孙鹏飞，张涛，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人