一种生成混响衰减参数模型的方法及计算系统技术方案

技术编号：24414309 阅读：59 留言：0更新日期：2020-06-06 10:43

本发明专利技术公开了一种生成混响衰减参数模型的方法及计算系统，属于音频信号处理技术领域。本发明专利技术方法为：先采集语音数据和RIR数据，再将语音数据和RIR数据合成得到混响语音数据；之后对混响语音数据进行处理得到J帧，每帧提取H维特征；再利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。本发明专利技术的系统包括采集单元、计算单元和存储单元，采集单元和计算单元电连接；计算单元通过传输单元与存储单元连接；本发明专利技术的目的在于克服现有技术中，不能准确计算实时的混响衰减参数的不足，本发明专利技术可以实时计算室内的混响衰减参数，对于室内环境变化的适应能力较强，进而可以提高混响消除的效果。

A method and calculation system for generating reverberation attenuation parameter model

全部详细技术资料下载

【技术实现步骤摘要】
一种生成混响衰减参数模型的方法及计算系统
本专利技术涉及音频信号处理
，更具体地说，涉及一种生成混响衰减参数模型的方法及计算系统。
技术介绍
波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响，这段时间叫做混响时间。在声学中使用T60来估计房间混响时长，一般来讲，混响时长在80～100ms以内，在房间中的说话声会显得更加饱满，但是混响时长超过100ms甚至更长时，混响会逐渐降低语音的可懂度。在实时会议通讯系统中，这十分影响听感。同时混响时长的大小也会影响到语音识别的准确率。近年来，混响的解决方案通常是使用自适应滤波器来估计房间中的RIR，从而对混响语音进行逆滤波等一系列操作，以到达去混响的目的。但是RIR作为声学中较为特殊的一种信号，其时变性往往使滤波器无法很好很快的收敛，这就导致混响消除效果较差。针对上述问题，现有技术也提出一些解决方案，例如专利技术创造名称为：一种基于倒谱滤波的混响参数估计方法(申请日：2018年9月5日，申请号：201811031342.4)，该方案公开了一种基于倒谱滤波的混响参数估计方法，首先用内置的扬声器发出1000Hz的激励信号；其次，对麦克风接收的音频信号做快速傅里叶变换、对数运算和离散余弦变换，得到混响信号的倒谱参数；然后，对倒谱参数进行滤波，从混响...

【技术保护点】
1.一种生成混响衰减参数模型的方法，其特征在于，包括以下步骤：/n(1)合成混响语音/n先采集语音数据和RIR数据，再将语音数据和RIR数据合成得到混响语音数据；/n(2)特征提取/n对混响语音数据进行处理得到J帧，每帧提取H维特征；/n(3)生成混响衰减参数模型/n利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。/n

【技术特征摘要】
1.一种生成混响衰减参数模型的方法，其特征在于，包括以下步骤：
(1)合成混响语音
先采集语音数据和RIR数据，再将语音数据和RIR数据合成得到混响语音数据；
(2)特征提取
对混响语音数据进行处理得到J帧，每帧提取H维特征；
(3)生成混响衰减参数模型
利用RNN模型对J帧及每帧提取的H维特征进行训练得到混响衰减参数模型。

2.根据权利要求1所述的一种生成混响衰减参数模型的方法，其特征在于，利用以下公式合成混响语音数据：

其中xrev表示混响语音数据，hj表示RIR数据，xi-j表示语音数据，N表示语音数据的样本点总数，M表示RIR信号的样本点总数。

3.根据权利要求1所述的一种生成混响衰减参数模型的方法，其特征在于，对混响语音数据进行处理的具体过程包括：
对混响语音数据进行加窗分帧处理并进行短时傅里叶变换得到J帧；
计算每帧的幅度谱并将幅度谱均匀分为H个频带；
计算每个频带的均值并作为特征，共得到H维特征。

4.根据权利要求1所述的一种生成混响衰减参数模型的方法，其特征在于，RNN模型对J帧及每帧提取的H维特征进行训练的具体过程为：采用Adam训练策略和改进的Loss函数进行训练，改进的Loss函数公式为：
BDGMSE(true，pred)
＝|DG(true，pred)|*p100+mean((true(1：k)-pred(1：k))2)*p10+mean((true(k：end)-pred(k：end))2)*p1

其中，BDGMSE(true，pred)表示Loss函数，DG(true，pred)表示衰减梯度差，其中true表示真实标签，pred表示预测标签，k、t1，t2，t3表示关键帧的下标，t为常数，p100，p10，p1表示惩罚系数。<...

【专利技术属性】
技术研发人员：方泽煌，康元勋，
申请(专利权)人：厦门亿联网络技术股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人