视频流处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:18675477 阅读:42 留言:0更新日期:2018-08-14 21:40
本申请是关于一种视频流处理方法及装置。该方法包括:获取直播视频流数据中的第一音频流数据;对第一音频流数据进行语音识别,获得语音识别文本;根据语音识别文本生成包含字幕文本的字幕数据;根据时间信息将该字幕文本添加入直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。通过本申请所示的方案,在直播场景中,可以获取直播视频流数据中的音频流数据,并对音频流数据进行语音识别并根据识别结果生成字幕数据,再根据时间信息将字幕数据中的字幕文本添加入视频流中对应字幕文本的画面帧中,从而获得包含字幕的直播视频流,实现字幕与视频画面的准确同步,同时,由于不需要人工插入字幕数据,能够有效降低直播延时。

Video stream processing method, device, computer equipment and storage medium

The application is about a video stream processing method and device. The method includes acquiring the first audio stream data in the live video stream data, recognizing the first audio stream data to obtain the speech recognition text, generating the subtitle data containing the subtitle text according to the speech recognition text, and adding the subtitle text to the corresponding screen in the live video stream data according to the time information. Frames are processed to obtain live streaming video data. Through the scheme shown in the present application, the audio stream data in the live video stream data can be acquired in the live scene, and the audio stream data can be recognized by speech, and the caption data can be generated according to the recognition result, and then the caption text in the caption data can be added into the picture frame of the corresponding caption text in the video stream according to the time information. In order to achieve the accurate synchronization of the caption and the video screen, a live video stream containing captions is obtained. At the same time, the live broadcast delay can be effectively reduced because the caption data need not be inserted manually.

【技术实现步骤摘要】
视频流处理方法、装置、计算机设备及存储介质
本申请涉及互联网应用
,特别涉及一种视频流处理方法、装置、计算机设备及存储介质。
技术介绍
随着移动互联网的不断发展,视频直播类的应用也越来越广泛,在直播视频中插入字幕也已经成为提高用户观看体验的重要手段。在相关技术中,直播视频中的字幕通常在直播录制端(比如录制现场/演播室)通过人工插入来实现。比如,请参考图1,其示出了相关技术提供的一种直播流程示意图。如图1所示,在直播录制端采集视频图像并进行编码的过程中,通过现场工作人员人工插入字幕数据,直播录制端通过直播接入服务,将直播视频流上传给服务器,服务器通过直播转码服务对直播视频流进行转码,并将转码后的直播视频流通过内容分发网络发送至用户终端侧的播放器进行播放。然而,相关技术中在直播视频中插入字幕的方案,需要在直播录制端通过人工插入字幕数据,字幕数据与直播视频画面同步的准确性较低,且通常会导致较高的直播延时,影响直播效果。
技术实现思路
本申请实施例提供了一种视频流处理方法、装置、计算机设备及存储介质,可以用于解决相关技术中需要在直播录制端通过人工插入字幕数据,字幕数据与直播视频画面同步的准确性较低,且通常会导致较高的直播延时,从而影响直播效果的问题,该技术方案如下:一方面,提供了一种视频流处理方法,所述方法包括:获取直播视频流数据中的第一音频流数据;对所述第一音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。另一方面,提供了一种视频流处理装置,所述装置包括:第一获取模块,用于获取直播视频流数据中的第一音频流数据;语音识别模块,用于对所述第一音频流数据进行语音识别,获得语音识别文本;字幕生成模块,用于根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;字幕添加模块,用于根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的视频流处理方法。又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的视频流处理方法。本申请提供的技术方案可以包括以下有益效果:通过本申请所示的方案,在直播场景中,可以获取直播视频流数据中的音频流数据,并对音频流数据进行语音识别并根据识别结果生成字幕数据,再根据时间信息将字幕数据中的字幕文本添加入视频流中对应字幕文本的画面帧中,从而获得包含字幕的直播视频流,实现字幕与视频画面的准确同步,同时,由于不需要人工插入字幕数据,能够有效降低直播延时。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1是根据相关技术提供的一种直播流程示意图;图2是是根据一示例性实施例示出的一种直播系统的结构示意图;图3是根据一示例性实施例示出的一种视频流处理方法的流程图;图4是根据一示例性实施例示出的一种视频流处理方法的流程图;图5是图4所示实施例涉及的一种直播视频流数据的数据结构图;图6是图4所示实施例涉及的一种语音识别流程图;图7是图4所示实施例涉及的一种字幕数据的结构示意图;图8是图4所示实施例涉及的一种字幕叠加示意图;图9是图4所示实施例涉及的一种字幕叠加流程的示意图;图10是图4所示实施例涉及的一种直播流选择示意图;图11是图4所示实施例涉及的另一种直播流选择示意图;图12是根据一示例性实施例示出的一种直播视频流的处理流程示意图;图13是根据一示例性实施例示出的一种视频流处理方法的流程图;图14是根据一示例性实施例示出的一种直播视频流的处理流程示意图;图15是根据一示例性实施例示出的直播场景中的视频流处理装置的结构方框图;图16是根据一示例性实施例示出的一种计算机设备的结构框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在对本申请所示的各个实施例进行说明之前,首先对本申请涉及到的几个概念进行介绍:1)字幕字幕是指以文字形式显示在网络视频、电视、电影、舞台作品中的对话或者旁白等非影像内容,也泛指影视作品后期加工的文字。2)直播直播是一种通过流媒体技术,将图像、声音、文字等丰富的元素经互联网向用户展示生动、直观的真实画面的一整套技术,其涉及编码工具、流媒体数据、服务器、网络以及播放器等一系列服务模块。3)实时翻译实时翻译是指通过人工或者计算机将一种语言的语音或者文本即时翻译为另一种语言的语音或者文本。在本申请实施例中,实时翻译可以是基于人工智能的语音识别和即时翻译。图2是根据一示例性实施例示出的一种直播系统的结构示意图。该系统包括:直播录制终端220、服务器240以及若干个用户终端260。直播录制终端220可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。直播录制终端220对应有图像采集组件和音频采集组件。其中,该图像采集组件和音频采集组件可以是直播录制终端220的一部分,比如,该图像采集组件和音频采集组件可以是直播录制终端220内置的摄像头和内置的麦克风;或者,该图像采集组件和音频采集组件也可以作为直播录制终端220的外设设备与该用户终端220相连接,比如,该图像采集组件和音频采集组件可以分别是连接该直播录制终端220的摄像机和话筒;或者,该图像采集组件和音频采集组件也可以部分内置于直播录制终端220,部分作为直播录制终端220的外设设备,比如,该图像采集组件可以是直播录制终端220内置的摄像头,该音频采集组件可以是连接该直播录制终端220的耳机中的麦克风。本申请实施例对于图像采集组件和音频采集组件的实现形式不做限定。用户终端260可以是具有视频播放功能的终端设备,比如,用户终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3/MP4播放器、膝上型便携计算机和台式计算机等等。直播录制终端220和用户终端260分别与服务器240之间通过通信网络相连。可选的本文档来自技高网...

【技术保护点】
1.一种视频流处理方法,其特征在于,所述方法包括:获取直播视频流数据中的第一音频流数据;对所述第一音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。

【技术特征摘要】
1.一种视频流处理方法,其特征在于,所述方法包括:获取直播视频流数据中的第一音频流数据;对所述第一音频流数据进行语音识别,获得语音识别文本;根据所述语音识别文本生成字幕数据,所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息;根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据,包括:将所述直播视频流数据分解为第二音频流数据和第一画面帧流数据;确定所述第一画面帧流数据中的目标画面帧,所述目标画面帧是与所述时间信息对应的画面帧;生成包含所述字幕文本的字幕图像;将所述字幕图像叠加在所述目标画面帧的上层,获得叠加后的画面帧流数据;将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。3.根据权利要求2所述的方法,其特征在于,所述将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据,包括:将所述第二音频流数据与所述叠加后的画面帧流数据按照时间信息进行数据对齐;将对齐后的所述第二音频流数据与所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据之前,还包括:获取所述直播视频流数据中的第二画面帧流数据;所述根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得处理后的直播视频流数据,包括:确定所述第二画面帧流数据中的目标画面帧,所述目标画面帧是与所述时间信息对应的画面帧;生成包含所述字幕文本的字幕图像;将所述字幕图像叠加在所述目标画面帧的上层,获得叠加后的画面帧流数据;将所述第一音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。5.根据权利要求1至4任一所述的方法,其特征在于,从第一时刻起延时预设时长后,根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得所述处理后的直播视频流数据;其中,所述第一时刻是获取到所述直播视频流数据的时刻。6.根据权利要求1至4任一所述的方法,其特征在于,在成功存储所述字幕数据后,根据所述字幕文本对应的时间信息,将所述字幕文本添加入所述直播视频流数据中对应的画面帧,获得所述处理后的直播视频流数据。7.根据权利要求1至4任一所述的方法,其特征在于,所述对所述第一音频流数据进行语音识别,获得语音识别文本,包括:对所述第一音频流数据进行语音起止检测,获得所述第一音频流数据中的语音起始帧和语音结束帧;所述语音起始帧是一段语音开始的音频帧,所述语音结束帧是一段语音结束的音频帧;根据所述第一音频流数据中的语音起始帧和语音结束帧,从所述第一音频流数据中提取至少一段语音数据,所述语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧;对所述至少一段语音数据分别进行语音识别,获得所述至少一段语音数据分别对应的识别子文本;将所述至少一段语音数据分别对应的识别子文本获取为所述语音识别文本。8.根据权利要求1至4任一所述的方法,其...

【专利技术属性】
技术研发人员:胡小华罗梓恒朱秀明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1