一种用于直播流实时生成字幕的方法及系统技术方案

技术编号:26976485 阅读:49 留言:0更新日期:2021-01-06 00:13
本发明专利技术涉及音视频直播技术领域,提供了一种用于直播流实时生成字幕的方法及系统,其方法包括:对直播信源解码得到视频帧和音频帧;建立AI语音翻译引擎与转码引擎之间的通信;AI语音翻译引擎向转码引擎获取音频帧,并对音频帧实时翻译,输出翻译内容;转码引擎实时向AI语音翻译引擎获取翻译内容,通过将翻译内容使用通过包括将翻译内容烧入视频帧中、将翻译内容填充打包成字幕帧在内的任意一种方式与原始的视频帧与音频帧共同封装输出直播流。在直播时对音频流进行实时翻译生成字幕,实现真正的字幕与音视频同步,并同时输出多国语言的字幕,同时满足不同直播流推送协议的带字幕直播流,并且满足播放器自由选择不同语言的字幕显示。

【技术实现步骤摘要】
一种用于直播流实时生成字幕的方法及系统
本专利技术涉及音视频直播的
,尤其涉及一种用于直播流实时生成字幕的方法及系统。
技术介绍
随着时代的发展,直播行业有了质的飞跃,对高清画质、低延时、声画同步等问题已经优化到了极致,然而用户的需求并不满足于此。在某些场景例如各大体育赛事、大型会议报告、在线教育培训等,字幕一般都是通过对直播录像进行后期制作,将语言人工翻译之后烧录到视频中,就是重播才可以看到字幕,然而在直播这个环节就失去了字幕带给用户的良好体验。字幕可以帮助听力较弱的观众理解界面内容,由于很多字词同音,只有通过字幕文字和音频结合来观看,才能更加清楚节目内容。另外,字幕也能用于翻译外语节目,让不理解该外语的观众,既能听见原作的声音,同时理解节目内容。直播实时生成字幕的功能还不成熟,特别是直播时声音字幕画面的同步问题,也就是字幕与声音画面不同步,时而超前时而延后,给用户的体验不佳。在现有的推流协议中,比如rtmp并不支持外挂字幕,携带字幕需将字幕烧入到视频中。有些用户在播放的时候要求自由选择不同语言的字幕,字本文档来自技高网...

【技术保护点】
1.一种用于直播流实时生成字幕的方法,其特征在于,包括以下步骤:/nS1:获取直播信源,通过转码引擎开启解封装解码线程,对所述直播信源解码得到视频帧和音频帧;/nS2:建立AI语音翻译引擎,并建立所述AI语音翻译引擎与所述转码引擎之间的通信;/nS3:所述AI语音翻译引擎向所述转码引擎获取所述音频帧,并对所述音频帧实时翻译,输出翻译内容;/nS4:所述转码引擎实时向所述AI语音翻译引擎获取所述翻译内容,通过将所述翻译内容使用通过包括将所述翻译内容烧入所述视频帧中、将所述翻译内容填充打包成字幕帧在内的任意一种方式与原始的所述视频帧与所述音频帧共同封装输出直播流。/n

【技术特征摘要】
1.一种用于直播流实时生成字幕的方法,其特征在于,包括以下步骤:
S1:获取直播信源,通过转码引擎开启解封装解码线程,对所述直播信源解码得到视频帧和音频帧;
S2:建立AI语音翻译引擎,并建立所述AI语音翻译引擎与所述转码引擎之间的通信;
S3:所述AI语音翻译引擎向所述转码引擎获取所述音频帧,并对所述音频帧实时翻译,输出翻译内容;
S4:所述转码引擎实时向所述AI语音翻译引擎获取所述翻译内容,通过将所述翻译内容使用通过包括将所述翻译内容烧入所述视频帧中、将所述翻译内容填充打包成字幕帧在内的任意一种方式与原始的所述视频帧与所述音频帧共同封装输出直播流。


2.根据权利要求1所述的用于直播流实时生成字幕的方法,其特征在于,还包括:
通过websocket建立所述AI语音翻译引擎与所述转码引擎之间的通信,具体为:
在所述转码引擎上建立websocket服务端A和websocket客户端B;
在所述AI语音翻译引擎上建立websocket客户端C和websocket服务端D;
所述websocket客户端C向所述websocket服务端A发起鉴权请求,鉴权成功建立连接,所述AI语音翻译引擎通过websocket通信实时向所述转码引擎获取所述音频帧;
所述websocket客户端B向所述websocket服务端D发起鉴权请求,鉴权成功建立连接,所述转码引擎通过websocket通信实时向所述AI语音翻译引擎获取所述翻译内容。


3.根据权利要求2所述的用于直播流实时生成字幕的方法,其特征在于,包括所述websocket客户端B和所述websocket客户端C在内的websocket客户端向包括所述websocket服务端A和所述websocket服务端D在内的websocket服务端发起的鉴权请求,具体包括如下步骤:
所述websocket客户端预设一约定密钥,通过MD5算法对所述约定密钥进行加密,得到第一MD5加密密钥;
所述websocket客户端将所述第一MD5加密密钥以参数的形式,附加到URL请求中;
所述websocket服务端接收到所述websocket客户端的请求后,解析出不带参数的URL以及所述第一MD5加密密钥;
所述websocket服务端再次通过MD5算法对所述约定密钥进行加密,得到第二MD5加密密钥;
所述websocket服务端比对所述第一MD5加密密钥与...

【专利技术属性】
技术研发人员:唐杰王遥远李庆瑜戴立言
申请(专利权)人:上海网达软件股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1