一种远场语音增强的视频通话方法与系统技术方案

技术编号:15550800 阅读:248 留言:0更新日期:2017-06-07 16:02
本发明专利技术提供一种远场语音增强的视频通话系统,所述系统包括:至少两个视频通话终端,多噪音过滤处理引擎、以及多噪音过滤API管理服务器;所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接;一端的视频通话终端进行远场视频通话时,通话者远场声音和多种噪音源会同时被视频通话终端接收和录制;多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理;多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音,另一端的视频通话终端再接收经过处理后的通话者主体的声音。本发明专利技术提高了远程视频通话的语音数据的通话质量。

Video communication method and system for far field speech enhancement

The invention provides an enhanced far-field speech video communication systems, the system includes at least two video communication terminal, multi noise filtering and noise filtering processing engine, API management server; the processing engine, noise filtering noise filtering API management server through the communication network and two video communication terminal the connection of the far field; one end of the video communication terminal and video calls, call the far field sound and a variety of noise sources will also be the terminal for receiving and recording video call; noise filtering processing engine to filter the far field sound and a variety of noise sources; noise filtering API management server restrain many kinds of noise source to enhance the main call sound, the other end of the video communication terminal to receive the processed voice call subject. The invention improves the call quality of the voice data of the remote video call.

【技术实现步骤摘要】
一种远场语音增强的视频通话方法与系统
本专利技术涉及机顶盒
,尤其涉及一种远场语音增强的视频通话方法和系统。
技术介绍
远场语音通话,即远距离语音通话,尤其是通话人距离麦克风3至5米的距离,由于噪声和/或混响等干扰因素的影响,视频通话过程中,语音的效果非常差。实际的远场语音通信包含以下一些噪音源:(1)混响噪音:声波在室内传播时,要被障碍物反射和吸收,最后消失,我们就感觉到声源停止发声后还有若干个声波混合持续一段时间,即混响时间(reverberation)。混响时间的长短是音乐厅、剧院、礼堂等建筑物的重要声学特性。(2)背景噪音:背景噪声是指除研究对象以外所有噪声的总称。(3)人声干扰:环境人声,非研究对象的声音。(4)回声噪音:声波在传播过程中,碰到大的反射面(如建筑物的墙壁、大山里面等)在界面将发生反射,人们把能够与原声区分开的反射声波叫做回声。综上所述,远场视频通话时,远场的语音需要过滤到多种噪声,才能得到纯净的通话参与者的清晰的声音信号。现有技术中公开有申请号为:201310066421.X,专利名称为《语音增强处理方法和装置》的中国专利,该专利技术实施例提供一种语音增强处理方法和装置,该方法,包括:解码比特流,获取当前待处理语音子帧的编码参数,编码参数包括第一代数码书增益和第一自适应码书增益;调整第一代数码书增益,得到第二代数码书增益;根据第一自适应码书增益和第二代数码书增益,确定第二自适应码书增益;采用第二代数码书增益和第二自适应码书增益的量化索引替换比特流中第一代数码书增益和第一自适应码书增益对应的比特。该专利技术的技术方案,可以有效改善消除噪音的效果,提高语音通话质量。但是该对比专利与本专利申请采取的技术路径完全不同。现有技术中还公开了《一种基于无线定位麦克风阵列语音增强的通话系统及方法》,见申请号:201310513373.4的中国专利,该专利技术公开了一种基于无线定位麦克风阵列语音增强的通话系统及方法,系统包括无线定位发射模块、无线定位接收模块、麦克风阵列语音接收模块、语音增强模块、远端语音播放模块和通信模块,其中无线定位发射模块与无线定位接收模块采用无线的方式连接,无线定位接收模块和麦克风阵列语音接收模块分别与语音增强模块连接,语音增强模块与通信模块连接,远端语音播放模块与通信模块连接。通话方法首先采用无线定位技术来对目标声源进行定位,再对目标说话人的语音采用麦克风阵列进行语音增强处理及通信。该专利技术具有定位快速准确、增强效果好、鲁棒性高等优点,能有效提高现有通话系统的语音质量。对比专利主要关注麦克风阵列的声源定位和定向人声增强。本专利申请关注远场视频通话时,通话主体的声音增强和多噪音源的抑制。
技术实现思路
本专利技术要解决的技术问题之一,在于提供一种远场语音增强的视频通话系统,使用多噪音过滤引擎,抑制多种噪音源增强通话主体的声音,进而提高远场视频通话的通话质量。本专利技术问题之一是这样实现的:一种远场语音增强的视频通话系统,所述系统包括:至少两个视频通话终端,多噪音过滤处理引擎、以及多噪音过滤API管理服务器;所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接;一端的视频通话终端进行远场视频通话时,通话者远场声音和多种噪音源会同时被视频通话终端接收和录制;多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理;多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音,另一端的视频通话终端再接收经过处理后的通话者主体的声音。进一步地,所述视频通话终端中设置有硬件驱动、操作系统模块、视频通话中间件模块、麦克风阵列录音模块、原始声音增强模块、通话主声音和噪音源分离模块、多噪音过滤引擎API、通话主声音和噪音源合并模块、视频通话音视频打包模块、视频通话传输模块;所述硬件驱动:设备包括内部或外部硬件模块,硬件驱动是硬件模块的驱动软件,一般在操作系统初始化阶段完成初始化;所述操作系统是设备硬件和硬件接口的统一接口抽象,操作系统是软件运行的基础环境;所述视频通话中间件模块:具有视频通话功能基础功能的软件包;所述麦克风阵列录音模块:调用操作系统的麦克风阵列接口,录制声音的模块;所述原始声音增强模块:调用音频算法,将录制的原始声音增强,即声音信号的放大处理;所述通话主声音和噪音源分离模块:调用多噪音过滤引擎API,将增强原始声音作为输入,输出主声音和噪音源;所述多噪音过滤引擎API:作用是将增强原始声音作为输入,输出主声音人声和噪音源;多噪音过滤引擎API能部署在本地设备或服务器上;所述通话主声音和噪音源合并模块:增强主声音,并抑制噪音源后,再将增强后的主声音和减弱后的噪音源,合成一个声音;所述视频通话音视频打包模块:视频流按照H264/H265编码方式编码,再封装成PES流;音频按照AAC,AC3编码方式编码,再封装PES流;音视频的PES流再打包成适合网络传输的TS流;所述视频通话传输模块:TS流按照视频通话业务逻辑在通信网络中传输。进一步地,所述视频通话中间件模块包括:输入设备管理模块、音视频预处理模块、音视频编码模块、音视频打包模块、以及网络传输模块。进一步地,所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出;远场声音输入,包括:通话语音、环境噪音、回声噪音、混响噪音和多人声噪音;麦克风阵列录音模块接收和录制上述远场声音,并输出数字信号的声音;数字化的远场声音输入到多噪音过滤处理引擎;多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API;多噪音过滤API管理服务器管理外部多噪音过滤引擎API;多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音,处理后得到增强远场人声抑制多噪音源的声音数据。进一步地,所述多噪音过滤API管理服务器主要有以下功能:维护多噪音过滤引擎API,管理外部多噪音过滤引擎API,维护外部多噪音过滤引擎API适配内部多噪音过滤引擎API;维护多噪音过滤引擎API的更新策略,维护外部多噪音过滤引擎API的管理策略,负责审计多噪音过滤引擎API的服务质量。进一步地,所述远场语音增强的视频通话操作具体为:一端的视频通话终端的麦克风阵列录音模块接收远场视频通话参与者的声音以及相关联的多种噪音源,视频通话终端将原始的声音数据通过原始声音增强模块做信号放大处理,然后交由本地或在线多噪音过滤处理引擎处理;本地或在线多噪音过滤处理引擎处理首先:通过通话主声音和噪音源分离模块分离出通话主体的声音和多种噪音源;进而通过所述多噪音过滤引擎API增强通话主体的声音并抑制多种噪音源;进而通过所述通话主声音和噪音源合并模块将增强后的通话主体声音和抑制后的多种噪音源合并,并回传给视频通话终端;视频通话终端将视频数据和处理后的音频数据通过所述视频通话音视频打包模块打包成适合网络传输的网络包,经过视频通话中间件模块的视频通话传输模块将音视频数据传输给另一端的视频通话终端。进一步地,所述视频通话终端包含一个或多个处理器,一个内存,一个或多个存储器,一个电源,一个或多个连接器,一个网络接口以及一个麦克风阵列;所述视频通话终端也包含一个操作系统,操作系统包含若干能够在一个或多个处理器上运行的模块或应用;视频通话终端能包含待机唤醒模块,所述本文档来自技高网
...
一种远场语音增强的视频通话方法与系统

【技术保护点】
一种远场语音增强的视频通话系统,其特征在于:所述系统包括:至少两个视频通话终端,多噪音过滤处理引擎、以及多噪音过滤API管理服务器;所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接;一端的视频通话终端进行远场视频通话时,通话者远场声音和多种噪音源会同时被视频通话终端接收和录制;多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理;多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音,另一端的视频通话终端再接收经过处理后的通话者主体的声音。

【技术特征摘要】
1.一种远场语音增强的视频通话系统,其特征在于:所述系统包括:至少两个视频通话终端,多噪音过滤处理引擎、以及多噪音过滤API管理服务器;所述多噪音过滤处理引擎、多噪音过滤API管理服务器通过通信网与两个视频通话终端连接;一端的视频通话终端进行远场视频通话时,通话者远场声音和多种噪音源会同时被视频通话终端接收和录制;多噪音过滤处理引擎对远场声音和多种噪音源进行过滤处理;多噪音过滤API管理服务器抑制多种噪音源增强通话主体的声音,另一端的视频通话终端再接收经过处理后的通话者主体的声音。2.根据权利要求1所述的一种远场语音增强的视频通话系统,其特征在于:所述视频通话终端中设置有硬件驱动、操作系统模块、视频通话中间件模块、麦克风阵列录音模块、原始声音增强模块、通话主声音和噪音源分离模块、多噪音过滤引擎API、通话主声音和噪音源合并模块、视频通话音视频打包模块、视频通话传输模块;所述硬件驱动:设备包括内部或外部硬件模块,硬件驱动是硬件模块的驱动软件,一般在操作系统初始化阶段完成初始化;所述操作系统是设备硬件和硬件接口的统一接口抽象,操作系统是软件运行的基础环境;所述视频通话中间件模块:具有视频通话功能基础功能的软件包;所述麦克风阵列录音模块:调用操作系统的麦克风阵列接口,录制声音的模块;所述原始声音增强模块:调用音频算法,将录制的原始声音增强,即声音信号的放大处理;所述通话主声音和噪音源分离模块:调用多噪音过滤引擎API,将增强原始声音作为输入,输出主声音和噪音源;所述多噪音过滤引擎API:作用是将增强原始声音作为输入,输出主声音人声和噪音源;多噪音过滤引擎API能部署在本地设备或服务器上;所述通话主声音和噪音源合并模块:增强主声音,并抑制噪音源后,再将增强后的主声音和减弱后的噪音源,合成一个声音;所述视频通话音视频打包模块:视频流按照H264/H265编码方式编码,再封装成PES流;音频按照AAC,AC3编码方式编码,再封装PES流;音视频的PES流再打包成适合网络传输的TS流;所述视频通话传输模块:TS流按照视频通话业务逻辑在通信网络中传输。3.根据权利要求2所述的一种远场语音增强的视频通话系统,其特征在于:所述视频通话中间件模块包括:输入设备管理模块、音视频预处理模块、音视频编码模块、音视频打包模块、以及网络传输模块。4.根据权利要求2所述的一种远场语音增强的视频通话系统,其特征在于:所述远场语音增强的视频通话中要关注数据的在各个模块的输入和输出;远场声音输入,包括:通话语音、环境噪音、回声噪音、混响噪音和多人声噪音;麦克风阵列录音模块接收和录制上述远场声音,并输出数字信号的声音;数字化的远场声音输入到多噪音过滤处理引擎;多噪音过滤处理引擎访问多噪音过滤API管理服务器获取多噪音过滤引擎API;多噪音过滤API管理服务器管理外部多噪音过滤引擎API;多噪音过滤处理引擎调用多噪音过滤引擎API处理数字化的远场声音,处理后得到增强远场人声抑制多噪音源的声音数据。5.根据权利要求2所述的一种远场语音增强的视频通话系统,其特征在于:所述多噪音过滤API管理服务器主要有以下功能:维护多噪音过滤引擎API,管理外部多噪音过滤引擎API,维护外部多噪音过滤引擎API适配内部多噪音过滤引擎API;维护多噪音过滤引擎API的更新策略,维护外部多噪音过滤引擎API的管理策略,负责审计多噪音过滤引擎API的服务质量。6.根据权利要求1所述的一种远场语音增强的视频通话系统,其特征在于:所述远场语音增强的视频通话操作具体为:一端的视频通话终端的麦克风阵列录音模块接收远场视频通话参与者的声音以及相关联的多种噪音源,视频通话终端将原始的声音数据通过原始声音增强模块做信号放大处理,然后交由本地或在线多噪音过滤处理引擎处理;本地或在线多噪音过滤处理引擎处理首先:通过通话主声音和噪音源分离模块分离出通话主体的声音和多种噪音源;进而通过所述多噪音过滤引擎API增强通话主体的声音并抑制多种噪音源;进而通过所述通话主声音和噪音源合并模块将增强后的通话主体声音和抑制后的多种噪音源合并,并回传给视频通话终端;视频通话终端将视频数据和处理后的音频数据通过所述视频通话音视频打包模块打包成适合网络传输的网络包,经过视频通话中间件模块的视频通话传输模块将音视频数据传...

【专利技术属性】
技术研发人员:洪涛孙铭俊
申请(专利权)人:福州瑞芯微电子股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1