一种处理直播流的方法和装置制造方法及图纸

技术编号:18021733 阅读:89 留言:0更新日期:2018-05-23 06:43
本发明专利技术实施例提供了一种处理直播流的方法和装置,方法包括:将原始直播流解码为原始音频数据和原始视频数据;对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放所述目标直播流。应用本发明专利技术实施例能够实现播放带字幕的视频直播。

【技术实现步骤摘要】
一种处理直播流的方法和装置
本专利技术涉及计算机
,特别是涉及一种处理直播流的方法和装置。
技术介绍
由于视频直播内容的多样性,越来越多受到用户的喜爱。通常情况下,视频直播不会显示与视频同步的字幕。在出现视频直播受到音频干扰,或者视频直播中人物的发音不准确或音速过快等导致视频直播的声音不清晰的情况下,用户仅根据声音无法完全理解视频直播的节目内容,影响了用户的观看体验。
技术实现思路
本专利技术实施例的目的在于提供一种处理直播流的方法和装置,以实现播放带字幕的视频直播。具体技术方案如下:在本专利技术实施的一方面,提供了一种处理直播流的方法,所述方法包括:将原始直播流解码为原始音频数据和原始视频数据;对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放所述目标直播流。可选的,所述将原始直播流解码为原始音频数据和原始视频数据的步骤,包括:将预设时长的原始直播流解码为原始音频数据和原始视频数据。可选的,所述将原始直播流解码为原始音频数据和原始视频数据的步骤,包括:在预设时长区间内的原始直播流中,确定语音停顿的时间点;将所述原始直播流中所述时间点之前且未解码的直播流片段,解码为原始音频数据和原始视频数据。可选的,所述根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理的步骤,包括:确定所述语音识别所耗费的第一时长;将所述原始视频数据的时间戳,延迟所述第一时长。可选的,在所述对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符的步骤之后,所述方法还包括:将所述文本字符翻译成预设的语言种类,生成第二时长,所述第二时长为将所述文本字符翻译成预设的语言种类所耗费的时长;所述将所述原始视频数据的时间戳,延迟所述第一时长的步骤,包括:将所述原始视频数据的时间戳,延迟所述第一时长和所述第二时长之和的时长;所述将所述文本字符添加到延迟后的视频数据中,生成目标视频数据的步骤,包括:将翻译后的文本字符添加到延迟后的视频数据中,生成目标视频数据。可选的,在所述将所述文本字符翻译成预设的语言种类的步骤之后,所述方法还包括:对翻译后的文本字符进行纠错处理;确定所述纠错处理所耗费的第三时长;所述将所述原始视频数据的时间戳,延迟所述第一时长和所述第二时长之和的时长的步骤,包括:将所述原始视频数据的时间戳,延迟所述第一时长、所述第二时长和所述第三时长之和的时长;所述将所述文本字符添加到延迟后的视频数据中,生成目标视频数据的步骤,包括:将翻译并纠错后的文本字符添加到延迟后的视频数据中,生成目标视频数据。可选的,所述将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流的步骤,包括:基于预设的参考时间轴,根据所述目标视频数据中视频帧的时间戳,以及所述原始音频数据中音频帧的时间戳,将所述目标视频数据与所述原始音频数据进行同步合成,生成目标直播流。在本专利技术实施的又一方面,又提供了一种处理直播流的装置,所述装置包括:解码单元,用于将原始直播流解码为原始音频数据和原始视频数据;识别单元,用于对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;延迟单元,用于根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;添加单元,用于将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;合成单元,用于将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放单元,用于播放所述目标直播流。可选的,所述解码单元,具体用于将预设时长的原始直播流解码为原始音频数据和原始视频数据。可选的,所述解码单元,包括:第一确定子单元和解码子单元;所述第一确定子单元,用于在预设时长区间内的原始直播流中,确定语音停顿的时间点;所述解码子单元,用于将所述原始直播流中所述时间点之前且未解码的直播流片段,解码为原始音频数据和原始视频数据。可选的,所述延迟单元,包括:第二确定子单元和延迟子单元;所述第二确定子单元,用于确定所述语音识别所耗费的第一时长;所述延迟子单元,用于将所述原始视频数据的时间戳,延迟所述第一时长。可选的,所述装置还包括:翻译单元,用于将所述文本字符翻译成预设的语言种类,生成第二时长,所述第二时长为将所述文本字符翻译成预设的语言种类所耗费的时长;所述延迟子单元,具体用于将所述原始视频数据的时间戳,延迟所述第一时长和所述第二时长之和的时长;所述添加单元,具体用于将翻译后的文本字符添加到延迟后的视频数据中,生成目标视频数据。可选的,所述装置还包括:纠错单元,用于对翻译后的文本字符进行纠错处理;确定单元,用于确定所述纠错处理所耗费的第三时长;所述延迟子单元,具体用于将所述原始视频数据的时间戳,延迟所述第一时长、所述第二时长和所述第三时长之和的时长;所述添加单元,具体用于将翻译并纠错后的文本字符添加到延迟后的视频数据中,生成目标视频数据。可选的,所述合成单元,具体用于基于预设的参考时间轴,根据所述目标视频数据中视频帧的时间戳,以及所述原始音频数据中音频帧的时间戳,将所述目标视频数据与所述原始音频数据进行同步合成,生成目标直播流。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的处理直播流的方法。在本专利技术实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的处理直播流的方法。本专利技术实施例提供的一种处理直播流的方法和装置,首先,将预设时长的原始直播流解码为原始音频数据和原始视频数据;然后,对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;接下来,将所述文本字符叠加到延迟后的视频数据中,生成目标视频数据;最后,将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放所述目标直播流。这样,在本专利技术实施例中,通过在视频直播中添加音频数据对应的文本字符,实现在播放视频直播的同时,播放同步的字幕,可以帮助用户理解视频直播的内容,提升用户的观看体验。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例的处理直播流的方法的一种流程图;图2为本专利技术实施例的处理直播流的方法的又一种流程图;图3为本专利技术实施例的处理直播流的方法的另一种流程图;图4为本专利技术实施例的处理直播流的系统的示意图;图5为本专利技术实施例的处理直播流的装置的结构图;图6为本专利技术实施例的电子设备的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。目前,由于视频直播内容的多样性,越来越多受到用户的喜爱。通常情况下,视频直播不会显示与视频同步的字幕。用户在使用终端设备观看视频直播的过程中,当视频直播受到音频干扰,或者视频直播中人物的发音不准确或音速过快等导致本文档来自技高网...
一种处理直播流的方法和装置

【技术保护点】
一种处理直播流的方法,其特征在于,所述方法包括:将原始直播流解码为原始音频数据和原始视频数据;对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放所述目标直播流。

【技术特征摘要】
1.一种处理直播流的方法,其特征在于,所述方法包括:将原始直播流解码为原始音频数据和原始视频数据;对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符;根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理;将所述文本字符添加到延迟后的视频数据中,生成目标视频数据;将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流;播放所述目标直播流。2.根据权利要求1所述的方法,其特征在于,所述将原始直播流解码为原始音频数据和原始视频数据的步骤,包括:将预设时长的原始直播流解码为原始音频数据和原始视频数据。3.根据权利要求1所述的方法,其特征在于,所述将原始直播流解码为原始音频数据和原始视频数据的步骤,包括:在预设时长区间内的原始直播流中,确定语音停顿的时间点;将所述原始直播流中所述时间点之前且未解码的直播流片段,解码为原始音频数据和原始视频数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述语音识别耗费的第一时长,对所述原始视频数据进行延迟处理的步骤,包括:确定所述语音识别所耗费的第一时长;将所述原始视频数据的时间戳,延迟所述第一时长。5.根据权利要求4所述的方法,其特征在于,在所述对所述原始音频数据进行语音识别,生成所述原始音频数据对应的文本字符的步骤之后,所述方法还包括:将所述文本字符翻译成预设的语言种类,生成第二时长,所述第二时长为将所述文本字符翻译成预设的语言种类所耗费的时长;所述将所述原始视频数据的时间戳,延迟所述第一时长的步骤,包括:将所述原始视频数据的时间戳,延迟所述第一时长和所述第二时长之和的时长;所述将所述文本字符添加到延迟后的视频数据中,生成目标视频数据的步骤,包括:将翻译后的文本字符添加到延迟后的视频数据中,生成目标视频数据。6.根据权利要求5所述的方法,其特征在于,在所述将所述文本字符翻译成预设的语言种类的步骤之后,所述方法还包括:对翻译后的文本字符进行纠错处理;确定所述纠错处理所耗费的第三时长;所述将所述原始视频数据的时间戳,延迟所述第一时长和所述第二时长之和的时长的步骤,包括:将所述原始视频数据的时间戳,延迟所述第一时长、所述第二时长和所述第三时长之和的时长;所述将所述文本字符添加到延迟后的视频数据中,生成目标视频数据的步骤,包括:将翻译并纠错后的文本字符添加到延迟后的视频数据中,生成目标视频数据。7.根据权利要求1所述的方法,其特征在于,所述将所述目标视频数据与所述原始音频数据同步合成,生成目标直播流的步骤,包括:基于预设的参考时间轴,根据所述目标视频数据中视频帧的时间戳,以及所述原始音频数据中音频帧的时间戳,将所述目标视频数据与所述原始音频数据进行同步合成,生成目标...

【专利技术属性】
技术研发人员:洪巨成项东涛
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1