一种语音晚期混响抑制方法及系统技术方案

技术编号:24211719 阅读:39 留言:0更新日期:2020-05-20 17:10
本发明专利技术公开了一种语音晚期混响抑制方法及系统,属于语音处理技术领域。本发明专利技术的方法为先采集室内的混响语音信号,提取混响衰减参数;再根据混响衰减参数计算混响频谱特征a;之后根据混响频谱特征a及朴素谱减法计算混响抑制后的语音频谱特征b;然后对语音频谱特征b进行插值计算,利用混响语音信号的相位特征对语音频谱特征b进行还原得到波形语音,并输出该波形语音。本发明专利技术的系统包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接;本发明专利技术的目的在于克服现有技术中,语音晚期混响抑制方法不能适应时变的混响环境的不足,本发明专利技术可以适应时变的混响环境,稳定抑制晚期混响。

A method and system of speech late reverberation suppression

【技术实现步骤摘要】
一种语音晚期混响抑制方法及系统
本专利技术涉及语音处理
,更具体地说,涉及一种语音晚期混响抑制方法及系统。
技术介绍
混响是声波在室内传播时,在墙壁、天花板、家具等障碍物之间进行漫反射,每反射一次声波的能量被障碍物减弱,当声源停止发声后,声波在室内经过多次反射和吸收,最后消失的过程。在声学中使用T60来估计房间的混响时长,通常情况下中小会议室的混响时长不超过1s。在实时会议通讯设备中,声源发出声音,直接被麦克风拾音的音源叫做直达声(不经过任何反射,声源直接指向麦克风,经过反射再被麦克风拾音为混响),直达声到达之后,80ms内到达的混响称为前期混响,80ms之后到达的混响称为晚期混响。前期混响能够增强语音的饱和度,使人声听上去更加饱满。晚期混响则会减低语音的可懂度,影响人耳主观体验和降低语音识别模型的识别率。现有技术中主要采用传统方法对混响进行抑制,按照所用技术可以分为以下三种:基于波束形成、基于逆滤波、基于神经网络的混响抑制方法。其中,波束形成的混响抑制方法易实现,但难以适应时变的混响环境;基于逆滤波技术的混响抑制方法同样由于时变的混响环境无法实时更新准确参数;近年来,基于神经网络的混响抑制方法得到应用,但是由于混响种类的多样性以及训练数据、模型等本身所带来的局限性导致其准确性较低以及难以应用部署与实时会议通讯设备中。现有技术中公开了一些相关技术,例如专利技术创造名称为:混响抑制的处理方法和装置(申请日:2019年1月30日;申请号:201910090031.3),该方案公开了一种混响抑制的处理方法和装置。该方法包括:获取待处理的声音数据,其中,待处理的声音数据为包含混响的第一声音数据;依据相似度矩阵对所述第一声音数据进行处理,得到初步混响抑制的第二声音数据,其中,相似度矩阵为预先训练得到;依据Wavenet网络模型对第二声音数据进行处理,其中,Wavenet网络模型为预先训练得到;从Wavenet网络模型中获取输出的第三声音数据。该方案解决了相关技术中混响抑制算法的准确性较低、应用场景局限的问题。但是,该方案的不足之处在于:该方案中使用20h的训练数据完全无法满足多样丰富的混响环境,且对于混响数据对于相似度矩阵的处理依赖性高,一旦出现相似度矩阵不兼容的混响场景,则容易出现异常状况。综上所述,如何使得语音晚期混响抑制方法适应时变的混响环境,是现有技术亟需解决的问题。
技术实现思路
1.要解决的问题本专利技术的目的在于克服现有技术中,语音晚期混响抑制方法不能适应时变的混响环境的不足,提出一种语音晚期混响抑制方法及系统,可以适应时变的混响环境,稳定抑制晚期混响,进而可以增强晚期混响抑制的效果。2.技术方案为了解决上述问题,本专利技术所采用的技术方案如下:本专利技术的一种语音晚期混响抑制方法,包括采集室内的混响语音信号,提取混响衰减参数;再根据混响衰减参数计算混响频谱特征a;之后根据混响频谱特征a及朴素谱减法计算混响抑制后的语音频谱特征b;然后对语音频谱特征b进行插值计算,利用混响语音信号的相位特征对语音频谱特征b进行还原得到波形语音,并输出该波形语音。进一步地,提取混响衰减参数的具体过程包括:对混响语音信号进行加窗分帧处理并进行短时傅里叶变换;再计算每帧的幅度谱并将幅度谱均匀分为H个频带;之后计算每个频带的均值和最大值得到H维子频带特征和H个最大值;然后利用H个最大值对H维子频带特征进行归一化处理得到H个混响衰减参数。进一步地,通过以下公式计算混响频谱特征a:(0<j≤c且d+c≤i)或(j+d-1<i<d+c),i,j∈N+其中表示当前帧估计的混响频谱特征a,X表示输入信号频谱特征,i表示当前混响频谱特征帧索引,j表示混响衰减参数帧索引,c表示声源发出声音到到达麦克风的时间,d表示混响衰减参数的长度。进一步地,利用线性插值方法对语音频谱特征b进行插值。进一步地,通过下列公式进行归一化处理:D=Xsubband/M其中D表示归一化后的衰减参数,Xsubband表示H维子频带特征,M表示H维子频带对应的最大值。进一步地,利用以下公式计算混响抑制后的语音频谱特征b:其中表示混响抑制后的语音频谱特征b。进一步地,对语音频谱特征b的H维子频带特征进行插值得到若干个频点,利用以下公式对语音频谱特征b进行插值:begin<f<end其中,f表示表示频点编号,begin表示当前子频带的第一个频点,end表示当前子频带的最后一个频点,y表示各频点的数值。进一步地,利用混响语音信号的相位特征进行逆傅里叶变换将语音频谱特征b还原得到波形语音。本专利技术的一种语音晚期混响抑制系统,包括采集单元、计算单元、传输单元和终端,采集单元与计算单元电连接,计算单元和终端分别与传输单元连接,其中,所述计算单元包括存储器和处理器,存储器与处理器连接,且存储器内存储有程序,该程序用于实现上述的一种语音晚期混响抑制方法,处理器用于执行程序输出波形语音。进一步地,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。3.有益效果相比于现有技术,本专利技术的有益效果为:本专利技术的一种语音晚期混响抑制方法,结合语音衰减参数即可实现对语音晚期混响的抑制,并且可以适应时变的混响环境,进而可以增强晚期混响抑制的效果;此外,本专利技术对于语音衰减参数的提取源于带混响语音数据本身,能够根据混响语音数据的变化做出相应的参数估计,有效避免过减或者抑制不充分的情况;本专利技术的方法易于实现且鲁棒性高,进一步可以提高语音的识别率。本专利技术的语音晚期混响抑制系统可以对语音晚期混响进行抑制,能够适应时变的混响环境,进而可以为实时会议提供良好的语音环境。附图说明图1为本专利技术的一种语音晚期混响抑制方法流程示意图;图2为本专利技术的语音晚期混响抑制系统结构示意图。示意图中的标号说明:100、采集单元;200、计算单元;300、传输单元;400、终端。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为进一步了解本专利技术的内容,结合附图和实施例对本专利技术作详细描述。实施例1结合图1所示,本专利技术的一种语音晚期混响抑制方法,包括以下步骤:采集室内的混响语音信号,提取混响衰减参数;其中,提取混响本文档来自技高网
...

【技术保护点】
1.一种语音晚期混响抑制方法,其特征在于:包括/n采集室内的混响语音信号,提取混响衰减参数;/n根据混响衰减参数计算混响频谱特征a;/n根据混响频谱特征a及朴素谱减法计算混响抑制后的语音频谱特征b;/n对语音频谱特征b进行插值计算,利用混响语音信号的相位特征对语音频谱特征b进行还原得到波形语音,并输出该波形语音。/n

【技术特征摘要】
1.一种语音晚期混响抑制方法,其特征在于:包括
采集室内的混响语音信号,提取混响衰减参数;
根据混响衰减参数计算混响频谱特征a;
根据混响频谱特征a及朴素谱减法计算混响抑制后的语音频谱特征b;
对语音频谱特征b进行插值计算,利用混响语音信号的相位特征对语音频谱特征b进行还原得到波形语音,并输出该波形语音。


2.根据权利要求1所述的一种语音晚期混响抑制方法,其特征在于:提取混响衰减参数的具体过程包括:
对混响语音信号进行加窗分帧处理并进行短时傅里叶变换;
计算每帧的幅度谱并将幅度谱均匀分为H个频带;
计算每个频带的均值和最大值得到H维子频带特征和H个最大值;
利用H个最大值对H维子频带特征进行归一化处理得到H个混响衰减参数。


3.根据权利要求1所述的一种语音晚期混响抑制方法,其特征在于:通过以下公式计算混响频谱特征a:

(0<j≤c且d+c≤i)或(j+d-1<i<d+c),i,j∈N+
其中表示当前帧估计的混响频谱特征a,X表示输入信号频谱特征,i表示当前混响频谱特征帧索引,j表示混响衰减参数帧索引,c表示声源发出声音到到达麦克风的时间,d表示混响衰减参数的长度。


4.根据权利要求1所述的一种语音晚期混响抑制方法,其特征在于:利用线性插值方法对语音频谱特征b进行插值。


5.根据权利要求2所述的语音晚期混响抑制方法,其特征在于:通过下列公式进行归一化处理:
D=Xsub...

【专利技术属性】
技术研发人员:方泽煌康元勋
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1