一种声学特征处理方法和装置制造方法及图纸

技术编号：26175240 阅读：20 留言：0更新日期：2020-10-31 14:07

本发明专利技术提供了一种声学特征处理方法和装置，涉及语音识别技术领域。本发明专利技术提供的声学特征处理方法和装置，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。本发明专利技术能够抑制所述声学特征中的噪声特征，从而提高声纹识别的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种声学特征处理方法和装置
本专利技术涉及计算机
，特别是涉及一种声学特征处理方法和装置。
技术介绍
随着社会的发展以及电子设备的普及，人们对语音质量的要求越来越高。其中，声纹识别技术作为人工智能领域的重要组成部分，在信息安全、防伪鉴别、公安司法等领域具有越来越重要的地位。所述声纹识别也称说话人识别，是利用计算机，根据语音自动判断说话人身份的生物特征识别技术。具体的，通常基于GMM-UBM(Gaussianmixturemodel-UniversalBackgroundModel，混合高斯模型-通用背景模型)或者GMM-IVECTOR模型或者深度神经网络模型来实现所述声纹识别技术，其具体步骤包括：1、采集原始语音；2、对所述原始语音进行VAD(VoiceActivityDetection，语音活动检测)检测，以检出所述原始语音对应的音频；3、从所述音频中提取声学特征，如MFCC(Mel-scaleFrequencyCepstralCoefficients，梅尔倒谱系数)、PLP(PerceptualLinearPredictive，感知线性预测系数)、FBANK(Filterbank，滤波器组)特征等；4、从所述声学特征中提取深层次的声纹特征，如ivector特征、xvector特征；5、最后利用所述声纹特征实现声纹识别。在实际应用中，所述声学特征极易受到环境中的噪声干扰，从而导致提取的所述声纹特征中包含噪声特征，影响后续声纹识别的准确率和效率，导致声纹识别技术的性能严重下降。
技术实现思路
>鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种声学特征处理方法和装置。依据本专利技术的第一方面，提供了一种声学特征处理方法，该方法包括：从待识别的语音中提取声学特征；根据所述声学特征，绘制二维语谱图；确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；根据所述目标语谱图，确定所述语音对应的目标声学特征。依据本专利技术的第二方面，提供了一种声学特征处理装置，该装置包括：提取模块，用于从待识别的语音中提取声学特征；绘制模块，用于根据所述声学特征，绘制二维语谱图；确定梯度信息模块，用于确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；加权计算模块，用于对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；乘积计算模块，用于利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；确定目标声学特征模块，用于根据所述目标语谱图，确定所述语音对应的目标声学特征。本专利技术实施例提供的一种声学特征处理方法和装置，通过根据待识别的语音中提取的声学特征，绘制二维语谱图，并通过对所述二维语谱图对应的梯度信息进行加权计算，得到目标掩模函数，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图，最后根据所述目标语谱图确定所述语音对应的目标声学特征。因此，本专利技术能够利用语音特征和噪声特征在时间方向和频率方向变化率不同的特性，通过对所述声学特征对应的梯度信息进行时间方向和梯度方向上的加权计算，增强所述声学特征中的语音特征，抑制所述声学特征中的噪声特征，提高声纹识别的准确率和效率。上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本专利技术的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：图1是本专利技术实施例提供的一种声学特征处理方法的步骤流程图；图2是本专利技术实施例提供的一种声学特征处理装置的结构框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例，然而应当理解，可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本专利技术，并且能够将本专利技术的范围完整的传达给本领域的技术人员。方法实施例现有技术中通常从待识别的语音中提取声学特征，再从所述声学特征中提取声纹特征，以进行声纹识别。在实际应用中，所述声学特征极易受到环境中的噪声干扰，从而导致提取的所述声纹特征中包含噪声特征，影响后续声纹识别的准确率和效率，导致声纹识别技术的性能严重下降。本专利技术通过增强所述声学特征中的语音特征并抑制所述声学特征中的噪声特征，从而提高后续声纹识别的准确率和效率。图1是本专利技术实施例提供的一种声学特征处理方法的步骤流程图，如图1所示，该方法可以包括：步骤101，从待识别的语音中提取声学特征；步骤102，根据所述声学特征，绘制二维语谱图；步骤103，确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；步骤104，对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；步骤105，利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；步骤106，根据所述目标语谱图，确定所述语音对应的目标声学特征。所述语音是人的发音器官发出的具有一定社会意义的声音。通常情况下，可以将语音信号当成一种短时平稳信号来处理，即，语音信号的相关特征参数的分布规律在短时间内是一致的，所述短时间一般范围在10到30毫秒内。因此，在对所述语音信号进行特征提取的过程中，会有一个20ms左右的时间窗，以这个窗为单位在语音信号上进行滑动，每一个时间窗都可以提取出一个能够表征这个时间窗内语音信号的特征，该过程称为声学特征提取。所述声学特征能够准确表征出这个时间窗内的语音信号的相关信息。本专利技术实施例中，从待识别的语音中提取声学特征的步骤可以包括：通过对所述待识别语音进行VAD检测，得到所述待识别语音对应的音频，再从所述音频中提取声学特征。可以理解，本专利技术对提取所述声学特征的方式不作限制。所述声学特征能够包括音质、音强、音高、音长四个物理量的所有声学表现。需要说明的是，因为所述声学特征极易受到环境中的噪声干扰，因此所述声学特征中包含语音特征还包括噪声特征，所述语音特征指语音信号的相关信息。所述声学特征能够作为声纹特征矢量，因此能够基于所述声学特征进行声纹识别任务。根据所述声学特征，绘制二维语谱图，通常所述二维语谱图的横坐标是时间，纵坐标是频率，表示为(t，f)。所述语谱图，即，语音频谱图，所述二维语谱图能够反映所述待识别的语音信号的频谱随时间改变本文档来自技高网...

【技术保护点】
1.一种声学特征处理方法，其特征在于，所述方法包括：/n从待识别的语音中提取声学特征；/n根据所述声学特征，绘制二维语谱图；/n确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；/n对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；/n利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；/n根据所述目标语谱图，确定所述语音对应的目标声学特征。/n

【技术特征摘要】
1.一种声学特征处理方法，其特征在于，所述方法包括：
从待识别的语音中提取声学特征；
根据所述声学特征，绘制二维语谱图；
确定所述二维语谱图对应的梯度信息，所述梯度信息包括时间方向梯度信息和频率方向梯度信息；
对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数；
利用所述目标掩模函数与所述二维语谱图进行乘积计算，得到目标语谱图；
根据所述目标语谱图，确定所述语音对应的目标声学特征。

2.根据权利要求1所述的方法，其特征在于，所述确定所述二维语谱图对应的梯度信息，包括：
利用梯度算子中的时间方向矩阵和频率方向矩阵分别与所述二维语谱图进行卷积计算，得到所述二维语谱图对应的时间方向梯度信息和频率方向梯度信息。

3.根据权利要求1所述的方法，其特征在于，所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算之前，所述方法还包括：
确定所述时间方向梯度信息对应的时间方向加权系数，以及频率方向梯度信息对应的频率方向加权系数；
所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权计算，得到目标掩模函数，包括：
通过所述时间方向加权系数和所述频率方向加权系数，对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标掩模函数。

4.根据权利要求3所述的方法，其特征在于，所述频率方向加权系数大于所述时间方向加权系数。

5.根据权利要求3所述的方法，其特征在于，所述对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标掩模函数，包括：
对所述时间方向梯度信息和所述频率方向梯度信息进行加权融合，得到目标梯度函数；
根据预设阈值拟合所述目标梯度函数，得到目标掩模函数。

...

【专利技术属性】
技术研发人员：汪法兵，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人