多路音频处理方法和系统技术方案

技术编号:29025158 阅读:17 留言:0更新日期:2021-06-26 05:26
本公开提出一种多路音频处理方法和系统,涉及多路音频处理。本公开通过由多点会议单元MCU对接收的多路音频进行对齐和降噪处理,并传输给终端,由终端对多路音频进行混音等语音处理,缓解了MCU的工作压力,降低了对MCU运算能力的要求,提高了MCU的承载能力。提高了MCU的承载能力。提高了MCU的承载能力。

【技术实现步骤摘要】
多路音频处理方法和系统


[0001]本公开涉及多路音频处理,特别涉及一种多路音频处理方法和系统。

技术介绍

[0002]目前视频会议采用的其中一种组网方案为MCU(Multipoint Conferencing Unit,多点会议单元)方案,该方案由一个MCU和多个终端组成一个星形结构。各终端将自己的音频发送给MCU,MCU会将所有终端的音频进行汇集,对齐,降噪,回声消除,后处理,混音等,最终生成一个混合后的音频再发给各个终端,这样各终端就可以听到其他终端的音频。这种方案MCU的工作压力会非常大,需要有非常强的运算能力。

技术实现思路

[0003]为了缓解MCU的工作压力,降低对MCU运算能力的要求,本公开通过由MCU对接收的多路音频进行对齐和降噪处理,并传输给终端,由终端对多路音频进行混音等语音处理,缓解了MCU的工作压力,降低了对MCU运算能力的要求,提高了MCU的承载能力。
[0004]本公开的一些实施例提出一种多路音频处理方法,包括:
[0005]多点会议单元对接收的多路音频进行对齐和降噪处理,并传输给终端;
[0006]终端对多路音频进行混音,并输出。
[0007]在一些实施例中,还包括:多点会议单元对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。
[0008]在一些实施例中,还包括:终端对多路音频进行混音包括:终端进行本地的语音活动检测,并基于不同的检测结果对多路音频进行相应的混音处理。
[0009]在一些实施例中,还包括:终端基于不同的检测结果对多路音频进行相应的混音处理包括:
[0010]如果检测到本地的语音活动,终端对接收的多路音频依次进行回声消除处理和混音处理;
[0011]或者,如果未检测到本地的语音活动,终端对接收的多路音频依次进行混音处理和增强处理。
[0012]在一些实施例中,还包括:所述增强处理为非线性增强处理。
[0013]在一些实施例中,还包括:多点会议单元接收的多路音频为视频会议中的多路音频。
[0014]本公开的一些实施例提出一种一种多路音频处理系统,包括:
[0015]多点会议单元,被配置为对接收的多路音频进行对齐和降噪处理,并传输给多个终端;
[0016]每个终端,被配置为对多路音频进行混音,并输出。
[0017]在一些实施例中,还包括:所述多点会议单元,还被配置为对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。
[0018]在一些实施例中,还包括:所述终端在对多路音频进行混音时,被配置为:
[0019]进行本地的语音活动检测;
[0020]如果检测到本地的语音活动,对接收的多路音频依次进行回声消除处理和混音处理;
[0021]或者,如果未检测到本地的语音活动,对接收的多路音频依次进行混音处理和增强处理。
[0022]在一些实施例中,多点会议单元接收的多路音频为视频会议中的多路音频。
[0023]本公开的一些实施例提出一种一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的多路音频处理方法的步骤。
附图说明
[0024]下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
[0025]显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本公开多路音频处理方法一些实施例的流程示意图。
[0027]图2为本公开多路音频处理系统一些实施例的示意图。
具体实施方式
[0028]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0029]图1为本公开多路音频处理方法一些实施例的流程示意图。如图1所示,该实施例的多路音频处理方法包括:步骤11-19。
[0030]在步骤11,多点会议单元对接收的多路音频进行对齐处理。
[0031]当本公开应用于视频会议系统音频处理领域时,多点会议单元接收的多路音频为视频会议中的多路音频。
[0032]多路音频来自多个终端,每路音频来自一个终端,每路音频可以缓存在声音池(sound pool)中。由于终端向多点会议单元传输音频过程中可能会发生丢包,因此,需要对多路音频进行对齐处理。例如,某路音频的第1个包丢失,该路音频的第2个包需要与其他音频的第2个包对齐。
[0033]在步骤12,然后,多点会议单元对接收的多路音频分别进行降噪处理。
[0034]例如,采用滤波技术等进行降低噪音等处理。
[0035]在步骤13,然后,多点会议单元对接收的多路音频进行编码处理。
[0036]例如,多点会议单元对处理后的多路音频进行AAC(Advanced Audio Coding,高级音频编码)处理。AAC是一种高压缩比的音频压缩算法,可以有效降低下行带宽,并且其质量可以与未压缩的CD音质相当。
[0037]在步骤14,然后,多点会议单元将处理后的多路音频传输给终端。
[0038]多点会议单元将处理后的多路音频传输给相关的多个终端。例如,参加视频会议的有终端A、B、C,则多点会议单元从终端A、B、C接收到三路音频,进行前述相关处理后,传输
给终端A、B、C。后续的步骤15-19,每个终端都需要执行。
[0039]在步骤15,终端对接收的多路音频进行解码,然后执行后续的对多路音频进行混音并输出的步骤。
[0040]根据多点会议单元采用的编码方式,终端对接收的多路音频按照相应的解码方式进行解码。编解码技术可以参考现有技术。
[0041]在步骤16,终端进行本地的语音活动检测,然后执行后续的基于不同的检测结果对多路音频进行相应的混音处理的步骤。
[0042]语音活动检测(Voice Activity Detection,VAD)又称语音端点检测或语音边界检测,目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用。例如,将检测到的本地信号输入分类器,以确定该信号是或者不是语音信号。分类器中例如设置一个信号阈值,将检测到的本地信号与信号阈值进行比较,如果超过该信号阈值,则判定该信号是语音信号,否则,判定该信号不是语音信号。
[0043]在步骤17,如果检测到本地的语音活动,终端对接收的多路音频依次进行回声消除处理(步骤171)和混音处理(步骤172)。然后,执行步骤19。
[0044]如果终端A检测到本地的语音活动,则将终端A的语音采样作为回声消除参考,从接收到的多路音频中消除终端A的语音,以免使终端A的用户A听到自己的回声。
[0045]混音处理可以参考现有的混音算法,例如,对各路音频进行叠加,还可以对叠加后的音频进行均值处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多路音频处理方法,其特征在于,包括:多点会议单元对接收的多路音频进行对齐和降噪处理,并传输给终端;终端对多路音频进行混音,并输出。2.根据权利要求1所述的方法,其特征在于,还包括:多点会议单元对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。3.根据权利要求1所述的方法,其特征在于,终端对多路音频进行混音包括:终端进行本地的语音活动检测,并基于不同的检测结果对多路音频进行相应的混音处理。4.根据权利要求3所述的方法,其特征在于,终端基于不同的检测结果对多路音频进行相应的混音处理包括:如果检测到本地的语音活动,终端对接收的多路音频依次进行回声消除处理和混音处理;或者,如果未检测到本地的语音活动,终端对接收的多路音频依次进行混音处理和增强处理。5.根据权利要求4所述的方法,其特征在于,所述增强处理为非线性增强处理。6.根据权利要求1-5任一项所述的方法,其特征在于,多点会议单元接收的多路音频为视频会议中的多路音频。7.一种多路音频处理系...

【专利技术属性】
技术研发人员:施隆海
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1