直播字幕处理方法、处理设备及可读存储介质技术

技术编号:39441484 阅读:9 留言:0更新日期:2023-11-19 16:24
本发明专利技术提供了一种直播字幕处理方法、处理设备及可读存储介质,属于互联网技术领域,直播字幕处理方法包括:对目标直播的输入源进行处理获取第一处理结果,生成第一处理结果对应的第一字幕,并将第一字幕存入第一字幕缓冲队列;根据获取的导播切换指令将输入源切换为目标直播流,以及根据目标直播流对应的第一缓冲队列,生成目标直播流对应的第二字幕,并将第二字幕存入第二字幕缓冲队列,第一缓冲队列中存储有目标直播流对应的第一音频数据;根据第二字幕缓冲队列和第一字幕缓冲队列,为目标直播生成目标字幕。本发明专利技术实施例中,解决了现有技术中的直播字幕处理方法存在字幕准确率低、用户体验较差的问题。用户体验较差的问题。用户体验较差的问题。

【技术实现步骤摘要】
直播字幕处理方法、处理设备及可读存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种直播字幕处理方法、处理设备及可读存储介质。

技术介绍

[0002]目前,云导播在线直播智能字幕合成过程中,通常是先对输入源进行导播合流,将合并好的流拷贝一份给AI在线翻译系统进行翻译,再将AI翻译的字幕结果和直播流按时间戳进行对齐。
[0003]然而,由于只对合流后的直播流进行翻译,因此在云导播进行输入源切换,且切换前后的音频差异较大时,AI翻译难以对切换后的音频进行准确翻译。或者,在云导播对多路流进行布局合流时,多路输入源的声音进行了混音,导致难以对音频进行精确翻译,因此,现有技术中的直播字幕处理方法存在字幕准确率低、用户体验较差的问题。

技术实现思路

[0004]本专利技术提供一种直播字幕处理方法、处理设备及可读存储介质,解决了现有技术中的直播字幕处理方法存在字幕准确率低、用户体验较差的问题。
[0005]为解决上述技术问题,第一方面,本专利技术提供一种直播字幕处理方法,所述方法包括:
[0006]对目标直播的输入源进行处理获取第一处理结果,生成所述第一处理结果对应的第一字幕,并将所述第一字幕存入第一字幕缓冲队列;
[0007]根据获取的导播切换指令将所述输入源切换为目标直播流,以及根据所述目标直播流对应的第一缓冲队列,生成所述目标直播流对应的第二字幕,并将所述第二字幕存入第二字幕缓冲队列,所述第一缓冲队列中存储有所述目标直播流对应的第一音频数据;
[0008]根据所述第一字幕缓冲队列和所述第二字幕缓冲队列,为所述目标直播生成目标字幕。
[0009]可选地,所述根据所述第一字幕缓冲队列和所述第二字幕缓冲队列,为所述目标直播生成目标字幕,包括:
[0010]从所述第二字幕缓冲队列的队列头开始,依次从所述第二字幕缓冲队列中获取所述第二字幕;
[0011]根据所述第二字幕在所述第二字幕缓冲队列中的存储位置,为所述目标直播生成所述目标字幕。
[0012]可选地,所述根据所述第二字幕在所述第二字幕缓冲队列中的存储位置,为所述目标直播生成所述目标字幕,包括以下至少一项:
[0013]在所述第二字幕非存储于所述第二字幕缓冲队列中的最后一个存储位置的情况下,判断所述第二字幕是否满足预设条件,若不满足,则丢弃所述第二字幕,若满足,则将所述第二字幕作为所述目标字幕,其中,所述预设条件包括:所述导播切换指令的第一时间戳
位于所述第二字幕的时间范围内;
[0014]在所述第二字幕存储于所述第二字幕缓冲队列中的最后一个存储位置的情况下,将所述第二字幕丢弃,并根据所述第一字幕缓冲队列,为所述目标直播生成所述目标字幕。
[0015]可选地,所述根据所述第一字幕缓冲队列,为所述目标直播生成目标字幕,包括:
[0016]从所述第一字幕缓冲队列的队列头开始,依次从所述第一字幕缓冲队列中获取所述第一字幕;
[0017]判断所述第一字幕的第一开始时间是否早于所述第一字幕缓冲队列中最后一条所述第二字幕的第二开始时间;
[0018]若所述第一开始时间早于所述第二开始时间,则将所述第一字幕丢弃,若所述第一开始时间不早于所述第二开始时间,则将所述第一字幕作为所述目标字幕。
[0019]可选地,在所述输入源中的直播流的总数为1的情况下,所述方法还包括:
[0020]根据所述第一处理结果中的音频数据,生成所述第一处理结果对应的第三字幕,并将所述第三字幕存入所述目标直播对应的目标消息队列,所述第三字幕包括至少一种语言类型对应的字幕;
[0021]从第一地址拉取所述第一处理结果,并将所述第一处理结果存入第二缓冲队列,以及,从所述目标消息队列中获取所述第三字幕,并将所述第三字幕存入第三字幕缓冲队列;
[0022]根据所述第二缓冲队列和所述第三字幕缓冲队列,为所述目标直播生成所述目标字幕。
[0023]可选地,所述根据所述第二缓冲队列和所述第三字幕缓冲队列,为所述目标直播生成所述目标字幕,包括以下至少一项:
[0024]在所述第二缓冲队列已满且所述第三字幕缓冲队列为空的情况下,将所述第三字幕缓冲队列中队列头中的第三字幕弹出;
[0025]在所述第二缓冲队列已满且所述第三字幕缓冲队列不为空的情况下,获取所述第三字幕缓冲队列中队列头中的所述第三字幕,以及所述第二缓冲队列中队列头中的所述第一处理结果,并根据所述第三字幕的时间范围与所述第一处理结果的第二时间戳,为所述目标直播生成所述目标字幕。
[0026]可选地,所述根据所述第三字幕的时间范围与所述第一处理结果的第二时间戳,为所述目标直播生成所述目标字幕,包括以下至少一项:
[0027]若所述第三字幕的结束时间早于所述第二时间戳,将所述第三字幕缓冲队列中队列头中的第三字幕弹出并丢弃;
[0028]若所述第三字幕的开始时间不晚于所述第二时间戳,且所述第三字幕的结束时间不早于所述第二时间戳,将所述第三字幕缓冲队列中队列头中的第三字幕弹出;
[0029]若所述第二时间戳与所述第三字幕的开始时间之间的间隔时长大于预设阈值,则根据所述第二时间戳,对所述第三字幕的展示时间进行裁剪。
[0030]可选地,在所述输入源中的直播流的总数大于1的情况下,所述方法还包括:
[0031]对所述输入源中每一所述直播流进行翻译,获得每一所述直播流对应的字幕;
[0032]判断各个所述字幕之间的时间范围是否存在重叠;
[0033]在各个所述字幕之间的时间范围不存在重叠的情况下,将各个所述字幕分别作为
所述目标字幕,以及,
[0034]在各个所述字幕之间的时间范围存在重叠的情况下,根据所述时间范围存在重叠的至少一个所述字幕所对应的所述直播流的权重,为所述目标直播生成所述目标字幕。
[0035]第二方面,本专利技术还提供一种本专利技术实施例还提供了一种直播字幕处理装置,包括:
[0036]第一处理模块,用于对目标直播的输入源进行处理获取第一处理结果,生成所述第一处理结果对应的第一字幕,并将所述第一字幕存入第一字幕缓冲队列;
[0037]第二处理模块,用于根据获取的导播切换指令将所述输入源切换为目标直播流,以及根据所述目标直播流对应的第一缓冲队列,生成所述目标直播流对应的第二字幕,并将所述第二字幕存入第二字幕缓冲队列,所述第一缓冲队列中存储有所述目标直播流对应的第一音频数据;
[0038]第三处理模块,用于根据所述第一字幕缓冲队列和所述第二字幕缓冲队列,为所述目标直播生成目标字幕。
[0039]可选地,所述第三处理模块包括:
[0040]第一获取子模块,用于从所述第二字幕缓冲队列的队列头开始,依次从所述第二字幕缓冲队列中获取所述第二字幕;
[0041]第一处理子模块,用于根据所述第二字幕在所述第二字幕缓冲队列中的存储位置,为所述目标直播生成所述目标字幕。
[0042]可选地,所述第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种直播字幕处理方法,其特征在于,包括:对目标直播的输入源进行处理获取第一处理结果,生成所述第一处理结果对应的第一字幕,并将所述第一字幕存入第一字幕缓冲队列;根据获取的导播切换指令将所述输入源切换为目标直播流,以及根据所述目标直播流对应的第一缓冲队列,生成所述目标直播流对应的第二字幕,并将所述第二字幕存入第二字幕缓冲队列,所述第一缓冲队列中存储有所述目标直播流对应的第一音频数据;根据所述第一字幕缓冲队列和所述第二字幕缓冲队列,为所述目标直播生成目标字幕。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字幕缓冲队列和所述第二字幕缓冲队列,为所述目标直播生成目标字幕,包括:从所述第二字幕缓冲队列的队列头开始,依次从所述第二字幕缓冲队列中获取所述第二字幕;根据所述第二字幕在所述第二字幕缓冲队列中的存储位置,为所述目标直播生成所述目标字幕。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二字幕在所述第二字幕缓冲队列中的存储位置,为所述目标直播生成所述目标字幕,包括以下至少一项:在所述第二字幕非存储于所述第二字幕缓冲队列中的最后一个存储位置的情况下,判断所述第二字幕是否满足预设条件,若不满足,则丢弃所述第二字幕,若满足,则将所述第二字幕作为所述目标字幕,其中,所述预设条件包括:所述导播切换指令的第一时间戳位于所述第二字幕的时间范围内;在所述第二字幕存储于所述第二字幕缓冲队列中的最后一个存储位置的情况下,将所述第二字幕丢弃,并根据所述第一字幕缓冲队列,为所述目标直播生成所述目标字幕。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一字幕缓冲队列,为所述目标直播生成所述目标字幕,包括:从所述第一字幕缓冲队列的队列头开始,依次从所述第一字幕缓冲队列中获取所述第一字幕;判断所述第一字幕的第一开始时间是否早于所述第一字幕缓冲队列中最后一条所述第二字幕的第二开始时间;若所述第一开始时间早于所述第二开始时间,则将所述第一字幕丢弃,若所述第一开始时间不早于所述第二开始时间,则将所述第一字幕作为所述目标字幕。5.根据权利要求1所述的方法,其特征在于,在所述输入源中的直播流的总数为1的情况下,所述方法还包括:根据所述第一处理结果中的音频数据,生成所述第一处理结果对应的第三字幕,并将所述第三字幕存入所述目标直播对应的目标消息队列,所述第三字幕包括至少一种语言类型对应的字幕;从第一地址拉取所述第一处理结果,并将...

【专利技术属性】
技术研发人员:柳建龙邢刚朱奇
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1