音频信号的动态特征提取的方法及系统技术方案

技术编号:37099107 阅读:15 留言:0更新日期:2023-04-01 05:00
本申请涉及音频信号的动态特征提取的方法和系统。公开了一种处理音频信号的方法,包括:对输入的一时间段内的音频序列信号进行预处理,包括将该时间段内的音频序列信号划分为多个音频信号帧;至少基于一个或多个音频信号帧的显着性值,将所述多个音频信号帧中的每帧至少分类为重要帧或非重要帧;使用高级别特征提取过程对每个重要帧中第一比例的音频信号执行特征提取;使用低级别特征提取过程对每个非重要帧中第二比例的音频信号执行特征提取,其中第二比例小于第一比例且第二比例大于零;至少将从重要帧提取的特征和从非重要帧提取的特征进行匹配整合以为该时间段内的音频序列信号生成特征向量。列信号生成特征向量。列信号生成特征向量。

【技术实现步骤摘要】
音频信号的动态特征提取的方法及系统


[0001]本公开一般涉及语音识别领域,具体来说,本公开涉及音频信号的动态特征提取的方法及系统。

技术介绍

[0002]典型的自动语音识别系统包括特征提取和识别引擎两个主要部分。特征提取是进行语音识别的第一步,其主要目的是把音频信号中具有辨识性的成分提取出来,把例如背景噪声情绪等其他部分去除掉,以供识别引擎进行训练和语音识别。
[0003]人工智能物联网(Artificial Intelligence of Things (AIoT))的应用市场正在持续增长,预计在2024年将达到16.2B。边缘人工智能(Edge AI)成为AIoT未来的发展重点,而高效能、低功耗、高云端整合成为发展趋势。低硬件资源二进制神经网络(BNN)架构对于物联网应用至关重要。对于语音活动检测voice

activity

detection(VAD)和关键词检测keyword spotting(KWS)等AIoT应用,已经在识别引擎中使用低复杂度的神经网络。因此相较而言,特征提取部分占用了整个系统计算资源的很大一部分。
[0004]由于通过使用低复杂度的神经网络处理已经使得自动语音识别系统中的识别引擎部分的计算得到简化,因此本公开旨在降低特征提取部分的计算复杂度以实现进一步降低自动语音识别系统对计算资源和功耗的需求。
[0005]本公开着重于时频的特征提取,包括短时傅立叶变换(包括 Gabor 变换)、离散余弦变换 (DCT)、小波变换、双线性时频分布函数(Wigner 分布函数,或 WDF)、修正的 Wigner 分布函数、Gabor

Wigner 分布函数等(参见 Gabor

Wigner 变换)、希尔伯特

黄变换、沃尔什

哈达玛变换 (WHT)、调制复重叠变换 (MCLT)等多种方法。
[0006]Mel频率倒谱系数Mel Frequency Cepstral Coefficents)MFCCs是迄今为止广泛用于自动语音识别的特征提取方法。图10示出了常规MFCC的功能模块。常规的MFCC特征提取过程包括预处理模块1001,对输入的语音信号进行预处理,包括预加重、分帧和加窗等;FFT模块1002对每一个短时分析窗,通过快速傅立叶变换FFT得到对应的频谱;Mel滤波器1003将得到的频谱通过Mel滤波器组得到Mel频谱;Log模块1004,在Mel频谱取对数,DCT 1005,做离散余弦变换DCT以实现逆变换进行倒谱分析,由此获得Mel频率倒谱系数MFCC。该得到Mel频率倒谱系数MFCC即为该帧语音的特征向量。输入的语音信号可以通过一系列的倒谱向量来描述。每个向量就是每帧的MFCC特征向量。在获得特征向量之后可以使用识别引擎对这些特征向量进行训练和语音识别。
[0007]如图10所示的MFCC特征提取过程用到的FFT、Mel滤波器和 DCT功能模块需要占用很大的计算量。对于语音识别而言,MFCC 的计算复杂度几乎与卷积神经网络(Convolutional Neural Networks,CNN)的计算复杂度相当。
[0008]针对相对简单的语音识别应用,已经有很多研究来简化例如MFCC提取特征过程以降低计算复杂度。例如,通过简化如图10所示的MFCC语音特征提取中的某些功能模块,或去除特征提取路径上的一个或多个功能模块来简化MFCC特征提取降低计算复杂度。
[0009]CN102332262B公开了一种基于音频特征的歌曲智能识别方法,其公开了针对输入语音信号的所有帧使用简化MFCC特征提取以减少计算复杂度。具体而言,CN102332262B在对音频数据流进行采样分帧,对每一帧的采样点进行快速傅立叶变换FFT后的N个频域幅值,按照所在频带平均分成y+1等份,计算每等份频带内各个频域值的绝对值的和S,并提取每个音频信号帧的y个特征值。与常规的MFCC提取特征向量的过程相比,该专利CN102332262B省略了预处理模块中的加窗,Mel滤波器和 DCT模块,而仅对每一帧的采样点FFT后求频域幅值的和值(绝对值)作为音频信号的特征向量。
[0010]CN107742524A公开了一种有利于节省时间的信号分析系统。CN107742524A同时对同一帧用两条路径进行处理。对初始音频信号进行预处理,以生成两个与预处理后的初始音频信号相同的音频信号的生成模块:两个与预处理后的初始音频信号相同的音频信号包括第一音频信号和第二音频信号;用于将第一音频信号进行频率初选的初选模块;用于对第二音频信号提取特征的特征模块;用于对特征模块提取的特征进行标准化的标准化模块;用于将标准化的特征和初选的频率进行加权得出初始音频信号的基频估算值基频模块。通过设置上述模块,将频率初选和提取特征分开同时进行,并通过加权的方式得到音频信号得到基频估算值。
[0011]US20110029306A1公开了一种音频信号识别装置及方法。使用多个可选阶段来处理一帧。通过使用至少一个特征参数将输入的音频信号识别为语音信号或非语音信号,并根据音频识别器的识别结果确定是否驱动与相应音频鉴别器相邻的音频鉴别器。该专利申请提出一些方案来提高识别器的准确度,或者节省时间或节省功耗。首先使用简单的特征确定器。如果特征确定器的结果是肯定的,则使用更复杂的特征确定器。如果简单的特征确定器肯定的结果概率很低,则该方案很有用。
[0012]US20180108345A1公开了一种用于音频信号帧处理的设备和方法。该专利申请对所有帧使用通用处理,而在需要的情况下对一些帧进行额外处理。针对一阶散射特征计算一阶散射特征是否包含用于精确音频信号识别的足够信息的估计。仅在一阶散射特征不包含用于准确音频信号识别的足够信息的情况下,才根据一阶散射特征计算二阶散射特征。US20180108345A1的方案与US20110029306A1是类似的。
[0013]然而还没有现有技术考虑到基于输入的音频信号对语音识别结果的精确度的影响程度来区分音频信号的重要性。如果能够根据音频信号对识别结果的重要性来对音频信号进行区分,并进而针对重要的音频信号进行更加全面和复杂的处理,而对不太重要的音频信号进行简化处理,这种方式可能在降低特征提取处理的计算量的情况下同时保证基于所提取的特征得到的识别结果的精确度。

技术实现思路

[0014]为了实现上述目的,除了在现有技术中简化特征提取路径的方式之外,本公开的实施例提出基于估计的时间序列中的音频信号帧的显着性值来区分音频信号的重要性,接着根据音频信号的不同的重要性来动态的选择不同的特征提取过程来区别处理相应的音频信号以获得特征向量供识别引擎进行训练和语音识别。
[0015]根据本公开的第一方面,提供了一种处理音频信号的方法,包括:对输入的一时间段内的音频序列信号进行预处理,包括将该时间段内的音频序列信号划分为多个音频信号
帧;至少基于多个音频信号帧的显着性值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理音频信号的方法,包括:对输入的一时间段内的音频序列信号进行预处理,包括将该时间段内的音频序列信号划分为多个音频信号帧;至少基于一个或多个音频信号帧的显着性值,将所述多个音频信号帧中的每帧至少分类为重要帧或非重要帧;使用高级别特征提取过程对每个重要帧中第一比例的音频信号执行特征提取;使用低级别特征提取过程对每个非重要帧中第二比例的音频信号执行特征提取, 其中第二比例小于第一比例且第二比例大于零;至少将从重要帧提取的特征和从非重要帧提取的特征进行匹配整合以为该时间段内的音频序列信号生成特征向量。2.如权利要求1所述的方法,还包括基于时域或频域中的每个音频信号帧的采样音频信号的幅度、能量、过零率、信噪比中的至少一项来估计该音频信号帧的显着性值。3.如权利要求2所述的方法,其中,将多个音频信号帧分类的步骤还包括将多个音频信号帧分类为中等重要帧,使用中级别特征提取过程对每个中等重要帧中第三比例的音频信号执行特征提取, 其中第三比例小于第一比例且大于第二比例。4.如权利要求2所述的方法,其中,第一比例的范围为帧音频信号的1/2的特征至全部特征,第二比例的范围为1/8

1/4,第三比例范围为1/4

1/2。5.如权利要求4所述的方法,其中,使用低级别特征提取过程对每个非重要帧中连续的第二比例的采样音频信号执行特征提取,并丢弃非重要帧中其余的采样音频信号。6.如权利要求2所述的方法,其中,将当前音频信号帧分类为重要帧或非重要帧基于以下比较结果的其中之一:当前音频信号帧的显着性值与至少一个阈值的比较;先前一个或多个音频信号帧的显着性值与至少一个阈值的比较;或者后续一个或多个音频信号帧的显着性值与至少一个阈值的比较。7.如权利要求6所述的方法,其中,基于先前音频信号帧在频域中的显着性值与至少一个阈值的比较来将当前音频信号帧至少分类为重要帧或非重要帧,其中基于先前音频信号帧的频域的低频部分的能量来确定该音频信号帧的显着性值,以及其中,将所述多个音频帧的第一帧默认为非重要帧,使用低级别特征提取过程来计算第一帧低频部分的能量并确定第一帧的显着性值。8.如权利要求6所述的方法,还包括确定至少一个优化阈值的步骤,包括:将多个显着性的预设阈值施加到语音模型进行训练以估计使用每个预设阈值来提取特征的计算复杂度值,以及估计基于所提取的特征通过识别引擎的处理分析得到的识别结果的精确度;选取所述识别结果的精确度的峰值所对应的预设阈值作为优化阈值,其中所述识别结果的精确度与显着性阈值为非正相关关系,而所述计算复杂度与显着性阈值基本呈正相关关系,所述计算复杂度随显着性阈值增加而增加。9.如权利要求8所述的方法,其中,使用每个预设阈值获得的所述识别结果的精确度基于指示辨识能力的指标来估计,所述指示辨识能力的指标包括错误拒绝率FRR和错误接受率FAR,以及使用每个预设阈值来提取特征的计算复杂度至少基于用FFT中的蝶形单元的数
量来估计。10.如权利要求2所述的方法,其中,高级别特征提取过程包括对每个重要帧中第一比例的采样音频信号执行快速傅立叶变换FFT,计算经FFT后的频域的音频信号能量谱,以及将频带滤波器应用于能量谱的每个频带。11.如权利要求10所述的方法,其中,低级别特征提取过程包括对每个非重要帧中第二比例的采样音频信号执行快速傅立叶变换FFT,计算经FFT后的频域的音频信号能量谱。12.如权利要求11所述的方法,还包括对得到的重要帧和非重要帧的频域的音频信号能量谱取对数LOG得到每帧的频域特征信息,将每个帧的频域特征信息合并起来以构成特征向量图,并且针对特征向量图进行一次或多次差分处理,并将该特征向量图以及差分处理的结果一并作为识别引擎的输入以进行后续处理。13.如权利要求1所述的方法,其中,划分的多个音频信号帧之间可以包括重叠的部分。14.如权利要求3所述的方法,其中,所述高级别特征提取过程、所述中级别特征提取过程以及所述低级别特征包括时频转换(T

F)特征提取。15. 如权利要求1所述的方法, 其中,对音频序列信号进行预处理还包括对重要帧和非重要帧采用不同的窗函数进行加窗处理,其中,对非重要帧采用窗函数比对重要帧采用的窗函数短。16.一种音频信号处理系统,包括:预处理单元,被配置为将输入的一时间段内的音频序列信号划分为多个音频信号帧;重要性分类单元,被配置为至少基于一个或多个音频信号帧的显着性值,将多个音频信号帧中的每帧至少分类为重要帧或非重要...

【专利技术属性】
技术研发人员:焦玉中陈炽康
申请(专利权)人:联合微电子中心有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1