一种生成混响衰减参数模型的方法及计算系统技术方案

技术编号:24414309 阅读:59 留言:0更新日期:2020-06-06 10:43
本发明专利技术公开了一种生成混响衰减参数模型的方法及计算系统,属于音频信号处理技术领域。本发明专利技术方法为:先采集语音数据和RIR数据,再将语音数据和RIR数据合成得到混响语音数据;之后对混响语音数据进行处理得到J帧,每帧提取H维特征;再利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。本发明专利技术的系统包括采集单元、计算单元和存储单元,采集单元和计算单元电连接;计算单元通过传输单元与存储单元连接;本发明专利技术的目的在于克服现有技术中,不能准确计算实时的混响衰减参数的不足,本发明专利技术可以实时计算室内的混响衰减参数,对于室内环境变化的适应能力较强,进而可以提高混响消除的效果。

A method and calculation system for generating reverberation attenuation parameter model

【技术实现步骤摘要】
一种生成混响衰减参数模型的方法及计算系统
本专利技术涉及音频信号处理
,更具体地说,涉及一种生成混响衰减参数模型的方法及计算系统。
技术介绍
波在室内传播时,要被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些。这样,当声源停止发声后,声波在室内要经过多次反射和吸收,最后才消失,我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响,这段时间叫做混响时间。在声学中使用T60来估计房间混响时长,一般来讲,混响时长在80~100ms以内,在房间中的说话声会显得更加饱满,但是混响时长超过100ms甚至更长时,混响会逐渐降低语音的可懂度。在实时会议通讯系统中,这十分影响听感。同时混响时长的大小也会影响到语音识别的准确率。近年来,混响的解决方案通常是使用自适应滤波器来估计房间中的RIR,从而对混响语音进行逆滤波等一系列操作,以到达去混响的目的。但是RIR作为声学中较为特殊的一种信号,其时变性往往使滤波器无法很好很快的收敛,这就导致混响消除效果较差。针对上述问题,现有技术也提出一些解决方案,例如专利技术创造名称为:一种基于倒谱滤波的混响参数估计方法(申请日:2018年9月5日,申请号:201811031342.4),该方案公开了一种基于倒谱滤波的混响参数估计方法,首先用内置的扬声器发出1000Hz的激励信号;其次,对麦克风接收的音频信号做快速傅里叶变换、对数运算和离散余弦变换,得到混响信号的倒谱参数;然后,对倒谱参数进行滤波,从混响信号的倒谱参数中分离出房间滤波器的倒谱参数;最后,通过逆离散余弦变换、指数变换和快速傅里叶逆变换,得到房间的混响参数。该方案可以快速测量房间的混响参数,构建逆滤波器,减小室内混响对语音处理系统的影响。但是,该方案的不足之处在于:采用的方法需要通过激励获取混响参数,但在实际应用时在房间中不断发出1000Hz的信号明显不能满足实际应用需要。综上所述,如何准确计算实时的混响衰减参数,是现有技术亟需解决的问题。
技术实现思路
1.要解决的问题本专利技术的目的在于克服现有技术中,不能准确计算实时的混响衰减参数的不足,提出一种生成混响衰减参数模型的方法及计算系统,可以实时计算室内的混响衰减参数,对于室内环境变化的适应能力较强,进而可以提高混响消除的效果。2.技术方案为了解决上述问题,本专利技术所采用的技术方案如下:本专利技术的一种生成混响衰减参数模型的方法,包括以下步骤:(1)合成混响语音先采集语音数据和RIR数据,再将语音数据和RIR数据合成得到混响语音数据;(2)特征提取对混响语音数据进行处理得到J帧,每帧提取H维特征;(3)生成混响衰减参数模型利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。更进一步地,利用以下公式合成混响语音数据:其中xrev表示混响语音数据,hj表示RIR数据,xi-j表示语音数据,N表示语音数据的样本点总数,M表示RIR信号的样本点总数。更进一步地,对混响语音数据进行处理的具体过程包括:先对混响语音数据进行加窗分帧处理并进行短时傅里叶变换得到J帧;再计算每帧的幅度谱并将幅度谱均匀分为H个频带;之后计算每个频带的均值并作为特征,共得到H维特征。更进一步地,RNN模型对J帧及每帧提取的H维特征进行训练的具体过程为:采用Adam训练策略和改进的Loss函数进行训练,改进的Loss函数公式为:BDGMSE(true,pred)=|DG(true,pred)|*p100+mean((true(1:k)-pred(1:k))2)*p10+mean((true(k:end)-pred(k:end))2)*p1其中,BDGMSE(true,pred)表示Loss函数,DG(true,pred)表示衰减梯度差,其中true表示真实标签,pred表示预测标签,k、t1,t2,t3表示关键帧的下标,t为常数,p100,p10,p1表示惩罚系数。更进一步地,Adam训练策略公式为:mt=μ×mt-1+(1-μ)×gt其中,gt表示梯度,mt表示梯度的一阶动量,mt-1表示在t-1时刻梯度的一阶动量,nt表示梯度的二阶动量,nt-1表示在t-1时刻梯度的二阶动量,表示对mt的校正,表示对nt的校正,θ表示学习率,μ和ρ表示衰减系数,0≤μ<1,0≤ρ<1;∈是常数,∈=10-8。更进一步地,RNN模型包括编码器和解码器,输入层将J帧及每帧的H维特征传输至编码器进行编码,而后将编码后的数据传输至Repeat层进行处理,之后将处理后的数据传输至解码器进行解码,再由输出层将解码后的J帧及每帧的H维特征的混响衰减参数进行输出。更进一步地,对混响语音数据进行处理得到100帧,每帧提取40维特征。本专利技术的一种混响衰减参数计算系统,包括计算单元,该计算单元包括存储器和处理器,存储器和处理器与处理器连接,存储器内存储有程序,该程序用于实现上述的一种生成混响衰减参数模型的方法,处理器用于执行程序得到响衰减参数模型并用于混响衰减参数的计算。更进一步地,还包括采集单元、和存储单元,采集单元和计算单元电连接;计算单元通过传输单元与存储单元连接。更进一步地,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。3.有益效果相比于现有技术,本专利技术的有益效果为:本专利技术的一种生成混响衰减参数模型的方法,通过RNN模型生成混响衰减参数模型,从而可以实时计算室内的混响衰减参数,即可以了解室内混响的实时状态,进而可以提高混响消除的效果,进一步可以达到实时通讯会议的要求。此外,本专利技术的一种混响衰减参数计算系统,可以生成混响衰减参数模型并进行混响衰减参数的计算,从而可以实时的计算室内的混响衰减参数,对于室内环境变化的适应能力较强,从而可以提高信号处理系统的去混响效果,进一步可以实现实时通讯会议。附图说明图1为本专利技术的生成混响衰减参数模型方法的流程示意图;图2为本专利技术的RNN模型结构示意图;图3为本专利技术的混响衰减参数计算系统结构示意图。示意图中的标号说明:100、采集单元;200、计算单元;300、传输单元;400、存储单元。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没本文档来自技高网
...

【技术保护点】
1.一种生成混响衰减参数模型的方法,其特征在于,包括以下步骤:/n(1)合成混响语音/n先采集语音数据和RIR数据,再将语音数据和RIR数据合成得到混响语音数据;/n(2)特征提取/n对混响语音数据进行处理得到J帧,每帧提取H维特征;/n(3)生成混响衰减参数模型/n利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。/n

【技术特征摘要】
1.一种生成混响衰减参数模型的方法,其特征在于,包括以下步骤:
(1)合成混响语音
先采集语音数据和RIR数据,再将语音数据和RIR数据合成得到混响语音数据;
(2)特征提取
对混响语音数据进行处理得到J帧,每帧提取H维特征;
(3)生成混响衰减参数模型
利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。


2.根据权利要求1所述的一种生成混响衰减参数模型的方法,其特征在于,利用以下公式合成混响语音数据:



其中xrev表示混响语音数据,hj表示RIR数据,xi-j表示语音数据,N表示语音数据的样本点总数,M表示RIR信号的样本点总数。


3.根据权利要求1所述的一种生成混响衰减参数模型的方法,其特征在于,对混响语音数据进行处理的具体过程包括:
对混响语音数据进行加窗分帧处理并进行短时傅里叶变换得到J帧;
计算每帧的幅度谱并将幅度谱均匀分为H个频带;
计算每个频带的均值并作为特征,共得到H维特征。


4.根据权利要求1所述的一种生成混响衰减参数模型的方法,其特征在于,RNN模型对J帧及每帧提取的H维特征进行训练的具体过程为:采用Adam训练策略和改进的Loss函数进行训练,改进的Loss函数公式为:
BDGMSE(true,pred)
=|DG(true,pred)|*p100+mean((true(1:k)-pred(1:k))2)*p10+mean((true(k:end)-pred(k:end))2)*p1



其中,BDGMSE(true,pred)表示Loss函数,DG(true,pred)表示衰减梯度差,其中true表示真实标签,pred表示预测标签,k、t1,t2,t3表示关键帧的下标,t为常数,p100,p10,p1表示惩罚系数。<...

【专利技术属性】
技术研发人员:方泽煌康元勋
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1