The application is about a video stream processing method and device. The method includes acquiring the first audio stream data in the live video stream data, recognizing the first audio stream data to obtain the speech recognition text, generating the subtitle data containing the subtitle text according to the speech recognition text, and adding the subtitle text to the corresponding screen in the live video stream data according to the time information. Frames are processed to obtain live streaming video data. Through the scheme shown in the present application, the audio stream data in the live video stream data can be acquired in the live scene, and the audio stream data can be recognized by speech, and the caption data can be generated according to the recognition result, and then the caption text in the caption data can be added into the picture frame of the corresponding caption text in the video stream according to the time information. In order to achieve the accurate synchronization of the caption and the video screen, a live video stream containing captions is obtained. At the same time, the live broadcast delay can be effectively reduced because the caption data need not be inserted manually.
【技术实现步骤摘要】
视频流处理方法、装置、计算机设备及存储介质
本申请涉及互联网应用
,特别涉及一种视频流处理方法、装置、计算机设备及存储介质。
技术介绍
随着移动互联网的不断发展,视频直播类的应用也越来越广泛,在直播视频中插入字幕也已经成为提高用户观看体验的重要手段。在相关技术中,直播视频中的字幕通常在直播录制端(比如录制现场/演播室)通过人工插入来实现。比如,请参考图1,其示出了相关技术提供的一种直播流程示意图。如图1所示,在直播录制端采集视频图像并进行编码的过程中,通过现场工作人员人工插入字幕数据,直播录制端通过直播接入服务,将直播视频流上传给服务器,服务器通过直播转码服务对直播视频流进行转码,并将转码后的直播视频流通过内容分发网络发送至用户终端侧的播放器进行播放。然而,相关技术中在直播视频中插入字幕的方案,需要在直播录制端通过人工插入字幕数据,字幕数据与直播视频画面同步的准确性较低,且通常会导致较高的直播延时,影响直播效果。
技术实现思路
本申请实施例提供了一种视频流处理方法、装置、计算机设备及存储介质,可以用于解决相关技术中需要在直播录制端通过人工插入字幕数据,字幕数据与直播视频画面同步的准确性较低,且通常会导致较高的直播延时,从而影响直播效果的问题,该技术方案如下:一方面,提供了一种视频流处理方法,所述方法包括:获取直播视频流数据中的第一音频流数据;对所述第一音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中 ...
【技术保护点】
1.一种视频流处理方法,其特征在于,所述方法包括:获取直播视频流数据中的第一音频流数据;对所述第一音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。
【技术特征摘要】
1.一种视频流处理方法,其特征在于,所述方法包括:获取直播视频流数据中的第一音频流数据;对所述第一音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据,包括:将所述直播视频流数据分解为第二音频流数据和第一画面帧流数据;确定所述第一画面帧流数据中的目标画面帧,所述目标画面帧是与所述时间信息对应的画面帧;生成包含所述字幕文本的字幕图像;将所述字幕图像叠加在所述目标画面帧的上层,获得叠加后的画面帧流数据;将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。3.根据权利要求2所述的方法,其特征在于,所述将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据,包括:将所述第二音频流数据与所述叠加后的画面帧流数据按照时间信息进行数据对齐;将对齐后的所述第二音频流数据与所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据之前,还包括:获取所述直播视频流数据中的第二画面帧流数据;所述根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据,包括:确定所述第二画面帧流数据中的目标画面帧,所述目标画面帧是与所述时间信息对应的画面帧;生成包含所述字幕文本的字幕图像;将所述字幕图像叠加在所述目标画面帧的上层,获得叠加后的画面帧流数据;将所述第一音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。5.根据权利要求1至4任一所述的方法,其特征在于,从第一时刻起延时预设时长后,根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得所述处理后的直播视频流数据;其中,所述第一时刻是获取到所述直播视频流数据的时刻。6.根据权利要求1至4任一所述的方法,其特征在于,在成功存储所述字幕数据后,根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得所述处理后的直播视频流数据。7.根据权利要求1至4任一所述的方法,其特征在于,所述对所述第一音频流数据进行语音识别,获得语音识别文本,包括:对所述第一音频流数据进行语音起止检测,获得所述第一音频流数据中的语音起始帧和语音结束帧;所述语音起始帧是一段语音开始的音频帧,所述语音结束帧是一段语音结束的音频帧;根据所述第一音频流数据中的语音起始帧和语音结束帧,从所述第一音频流数据中提取至少一段语音数据,所述语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧;对所述至少一段语音数据分别进行语音识别,获得所述至少一段语音数据分别对应的识别子文本;将所述至少一段语音数据分别对应的识别子文本获取为所述语音识别文本。8.根据权利要求1至4任一所述的方法,其...
【专利技术属性】
技术研发人员:胡小华,罗梓恒,朱秀明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。