直播字幕添加方法、装置及设备制造方法及图纸

技术编号:37842824 阅读:23 留言:0更新日期:2023-06-14 09:47
本发明专利技术实施例涉及音视频技术领域,公开了一种体育直播字幕方法、装置及设备,该方法包括:将从直播流中提取的待转写音频实时进行文本转写,得到第一文本;所述第一文本中包括字幕时间戳;对所述第一文本进行纠错,得到第二文本;所述对所述第一文本进行纠错,包括根据预设的图谱热词对所述第一文本进行纠错;所述预设的图谱热词为根据预设的知识图谱及所述直播流对应的直播信息确定;据所述第二文本生成带有字幕时间戳的第一字幕;根据所述字幕时间戳将所述第一字幕添加至所述直播流中。通过上述方式,本发明专利技术实施例通过预设的图谱热词,使最后得到的直播字幕在垂直场景下准确率有效提高,提高用户的观看体验。提高用户的观看体验。提高用户的观看体验。

【技术实现步骤摘要】
直播字幕添加方法、装置及设备


[0001]本专利技术实施例涉及音视频
,具体涉及一种直播字幕添加方法、装置及设备。

技术介绍

[0002]目前实现字幕添加主要是针对离线文件字幕及会议字幕,尚没有在视频直播的成熟应用,本申请的专利技术人发现,现有方案在垂直场景例如赛事直播场景下准确率较低,存在同音字识别不准、无法准确识别人名及专业术语以及时间轴不对齐等一系列问题。

技术实现思路

[0003]鉴于上述问题,本专利技术实施例提供了一种直播字幕添加方法、装置及设备,用于解决现有技术中存在的字幕添加方案在垂直场景下准确率较低的问题。
[0004]根据本专利技术实施例的一个方面,提供了一种直播字幕添加方法,所述方法包括:
[0005]将从直播流中提取的待转写音频实时进行文本转写,得到第一文本;所述第一文本中包括字幕时间戳;
[0006]对所述第一文本进行纠错,得到第二文本;所述对所述第一文本进行纠错,包括根据预设的图谱热词对所述第一文本进行纠错;所述预设的图谱热词为根据预设的知识图谱及所述直播流对应的直播信息确定;
[0007]据所述第二文本生成带有字幕时间戳的第一字幕;
[0008]根据所述字幕时间戳将所述第一字幕添加至所述直播流中。
[0009]在一种可选的方式中,所述根据所述字幕时间戳将所述第一字幕添加至所述直播流中,包括:
[0010]根据所述字幕时间戳与所述直播流时间戳,对所述第一字幕及所述直播流进行对齐处理,得到对齐信息;
[0011]根据所述对齐信息,将所述第一字幕添加至所述直播流中。
[0012]在一种可选的方式中,所述根据所述字幕时间戳与所述直播流时间戳,对所述第一字幕及所述直播流进行对齐处理,得到对齐信息,还包括:
[0013]确定所述直播流是否发生网络抖动;
[0014]当发生网络抖动时,获取新的直播流时间戳;
[0015]根据所述字幕时间戳与所述新的直播流时间戳,对所述第一字幕及所述直播流进行对齐处理,得到对齐信息。
[0016]在一种可选的方式中,所述对所述第一字幕及所述直播流进行对齐处理,得到对齐信息之后,所述方法还包括:
[0017]根据所述对齐信息,将所述第一字幕插入到TS流中的SEI,得到TS流字幕;
[0018]将所述TS流字幕添加至所述直播流中。
[0019]在一种可选的方式中,所述将所述TS流字幕添加至所述直播流中之后,所述方法
还包括:
[0020]将添加了TS流字幕的直播流推送至CDN;
[0021]从CDN获取并分离所述添加了TS流字幕的直播流,得到视频信息与所述TS流字幕,解析所述TS流字幕,以在所述直播流播放时同步显示字幕。
[0022]在一种可选的方式中,所述SEI包括字幕位置信息;所述方法还包括:根据所述SEI对视频区域的字幕位置信息进行动态调整。
[0023]在一种可选的方式中,所述据所述第二文本生成带有字幕时间戳的第一字幕之前,所述方法还包括:
[0024]将所述第二文本翻译成至少两种语言,得到翻译后的第二文本。
[0025]在一种可选的方式中,所述对所述第一文本进行纠错,得到第二文本,还包括:
[0026]对所述第一文本进行敏感词屏蔽,得到敏感词屏蔽的所述第二文本。
[0027]根据本专利技术实施例的另一方面,提供了一种直播字幕添加装置,包括:
[0028]转写模块,用于将从直播流中提取的待转写音频实时进行文本转写,得到第一文本;所述第一文本中包括字幕时间戳;
[0029]纠错模块,用于对所述第一文本进行纠错,得到第二文本;所述对所述第一文本进行纠错,包括根据预设的图谱热词对所述第一文本进行纠错;所述预设的图谱热词为根据预设的知识图谱及所述直播流对应的直播信息确定;
[0030]字幕生成模块,用于根据所述第二文本生成带有字幕时间戳的第一字幕;
[0031]字幕添加模块,用于根据所述字幕时间戳将所述第一字幕添加至所述直播流中。
[0032]根据本专利技术实施例的另一方面,提供了一种直播字幕添加设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0033]所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述一种直播字幕添加方法的操作。
[0034]本专利技术实施例提供了一种直播字幕添加方法,通过预设的图谱热词,使最后得到的直播字幕在垂直场景下准确率有效提高,提高用户的观看体验。
[0035]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0036]附图仅用于示出实施方式,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0037]图1示出了本专利技术实施例提供的直播字幕添加方法的流程示意图;
[0038]图2示出了本专利技术实施例提供的直播字幕添加装置的结构示意图;
[0039]图3示出了本专利技术实施例提供的直播字幕添加设备的结构示意图。
具体实施方式
[0040]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术
的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。
[0041]图1示出了本专利技术实施例提供的直播字幕添加方法的流程图,该方法由计算设备执行,如个人计算机,平板电脑、服务器、智能终端等设备,在不同的应用场合所述方法可以是以所述智能终端搭载的APP或网页来实现,本专利技术实施例中具体还可以是视频播放设备,本专利技术实施例不做具体限制。如图1所示,该方法包括以下步骤:
[0042]步骤110:将从直播流中提取的待转写音频实时进行文本转写,得到第一文本;所述第一文本中包括字幕时间戳。
[0043]本专利技术实施例中,所述第一文本中包括字幕时间戳,该字幕时间戳为直播流中音频对应的时间戳,包括音频出现和结束的时间点。
[0044]具体地,本专利技术实施例对从直播流中提取的待转写音频进行解码处理,得到音频流,将得到的音频流进行前置降噪,检测并消除音频流中带噪音音段,得到降噪处理后的音频流,再通过语音转写引擎将降噪处理后的音频流转写,得到带有字幕时间戳的第一文本。其中,该语音转写引擎包括预先设置的语音文本转换模型,也可以是现有的语音文本转换模型。
[0045]其中,所述语音转写引擎还用于解析并切分文字所在时间轴,完成对所述第一文本的断句。
[0046]步骤120:对所述第一文本进行纠错,得到第二文本;所述对所述第一文本进行纠错,包括根据预设的图谱热词对所述第一文本进行纠错;所述预设的图谱热词为根据预设的知识图谱及所述直本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种直播字幕添加方法,其特征在于,所述方法包括:将从直播流中提取的待转写音频实时进行文本转写,得到第一文本;所述第一文本中包括字幕时间戳;对所述第一文本进行纠错,得到第二文本;所述对所述第一文本进行纠错,包括根据预设的图谱热词对所述第一文本进行纠错;所述预设的图谱热词为根据预设的知识图谱及所述直播流对应的直播信息确定;据所述第二文本生成带有字幕时间戳的第一字幕;根据所述字幕时间戳将所述第一字幕添加至所述直播流中。2.根据权利要求1所述的方法,其特征在于,所述根据所述字幕时间戳将所述第一字幕添加至所述直播流中,包括:根据所述字幕时间戳与所述直播流时间戳,对所述第一字幕及所述直播流进行对齐处理,得到对齐信息;根据所述对齐信息,将所述第一字幕添加至所述直播流中。3.根据权利要求2所述的方法,其特征在于,所述根据所述字幕时间戳与所述直播流时间戳,对所述第一字幕及所述直播流进行对齐处理,得到对齐信息,还包括:确定所述直播流是否发生网络抖动;当发生网络抖动时,获取新的直播流时间戳;根据所述字幕时间戳与所述新的直播流时间戳,对所述第一字幕及所述直播流进行对齐处理,得到对齐信息。4.根据权利要求3所述的方法,其特征在于,所述对所述第一字幕及所述直播流进行对齐处理,得到对齐信息之后,所述方法还包括:根据所述对齐信息,将所述第一字幕插入到TS流中的SEI,得到TS流字幕;将所述TS流字幕添加至所述直播流中。5.根据权利要求4所述的方法,其特征在于,所述将所述TS流字幕添加至所述直播流中之后,所述方法还包括:将添加了TS流字幕的直播流推送至CDN;从CDN获取并分离所述添...

【专利技术属性】
技术研发人员:周效军相迎迎陆彦良宋国栋
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1