一种基于云边协同的直播会议智能字幕显示方法和系统技术方案

技术编号:38392145 阅读:43 留言:0更新日期:2023-08-05 17:45
本发明专利技术公开了一种基于云边协同的直播会议智能字幕显示方法和系统,若干视频会议终端用户将用户侧的声音、视频和图像发送至云端处理服务器,根据在线会议的不同场景分别在近用户的边缘侧和云端(具体)进行音视频处理,识别语音并转化为文本,然后切换为字幕再合并回视频,并推送带有字幕的视频流给在线会议的参与方;从而实现实时的字幕显示,让不同与会者在任何环境中都可以实时了解会议的内容,提高会议沟通效率。议沟通效率。议沟通效率。

【技术实现步骤摘要】
一种基于云边协同的直播会议智能字幕显示方法和系统


[0001]本专利技术属于线上会议通讯
,具体涉及一种基于云边协同的直播会议智能字幕显示方法和系统。

技术介绍

[0002]近年来,传统的线下办公方式离我们渐行渐远,全球经济正迅速向“移动办公”转变;某些特殊事件的持续发展及其反复带来的是工作场景和工作模式的变化,而办公离散化需要依靠移动办公能力的技术支持,随着办公能力互动性和沟通效率的持续改善,用户远程线上办公习惯已养成。
[0003]移动办公场景应用最多的是多人在线视频会议,其能够实现多人同时在网络上进行面对面的会议,通过传输线路及手机或PC设备,将声音、影像及文件资料互传,实现即时且互动的沟通。与传统线下面对面开会最大的区别,是远程线上会议拉近了不同时空的人的距离。现有技术方案可以保障移动办公的音视频的同步和高质量播放,但是不能提供实时字幕;对于不便外放视频声音的公共场景,诸如公交、地铁、仪式现场等嘈杂环境中,或者使用对象为听障群体时,在缺乏字幕的情况下,依靠声音获得信息,是一个巨大的挑战。
[0004]传统字幕制作需本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于云边协同的直播会议智能字幕显示系统,其特征在于:包括有云端处理服务器、边缘处理器和若干个视频会议终端用户;所述云端处理服务器用于接收用户侧的声音、视频和图像,并实时响应生成对应的直播互动音视频画面;所述边缘处理器用于利用AI技术对直播互动音视频画面进行处理形成智能字幕,并回传至每个所述视频会议终端用户;每个所述视频会议终端用户用于向云端处理服务器发送用户侧的声音、视频和图像;并接收边缘处理器回传的智能字幕后,进行解码展示。2.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统,其特征在于:所述边缘处理器设置有编解码处理模块、语音识别处理模块和字幕处理模块;编解码处理模块分为编码处理模块和解码处理模块;所述编码处理模块用于对处理好的字幕重新加入到视频中;所述解码处理模块用于针对流媒体进行音视频分离;所述语音识别处理模块用于针对解码后的音频数据调用ASR技术进行语音转文本处理;所述字幕处理模块用于调用NLP对文本内容进行人工智能的内容微调,并形成字幕内容后推送给编码模块。3.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统,其特征在于:所述云端处理服务器还设置有云备份模块,所述云备份模块用于记录保存用户侧的原始声音、视频和图像信息;以及边缘处理器形成智能的字幕信息。4.根据权利要求1所述基于云边协同的直播会议智能字幕显示系统,其特征在于:所述边缘处理器对直播互动音视频画面通过识别视频类型、画面内容,对直播互动音视频画面进行智能识别语音分区,去除噪音,根据图谱热词、智能纠错、语义分析、音纹处理,实现语音听写、翻译、切分时间轴,从而对直播互动音视频画面进行编码压缩生成音视频流数据。5.根据权利要求4所述基于云边协同的直播会议智能字幕显示系统,其特征在于:所述边缘处理器对直播互动音视频画面进行智能字幕处理包括以下内容:音频降噪和识别人声。6.根据权利要求5所述基于云边协同的直播会议智能字幕显示系统,其特征在于:所述边缘处理器通过音频降噪去除会议场景的会议背景音、杂音和会议室空调音;所...

【专利技术属性】
技术研发人员:郑伟平李海平
申请(专利权)人:卓望数码技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1