【技术实现步骤摘要】
音频信号的动态特征提取的方法及系统
[0001]本公开一般涉及语音识别领域,具体来说,本公开涉及音频信号的动态特征提取的方法及系统。
技术介绍
[0002]典型的自动语音识别系统包括特征提取和识别引擎两个主要部分。特征提取是进行语音识别的第一步,其主要目的是把音频信号中具有辨识性的成分提取出来,把例如背景噪声情绪等其他部分去除掉,以供识别引擎进行训练和语音识别。
[0003]人工智能物联网(Artificial Intelligence of Things (AIoT))的应用市场正在持续增长,预计在2024年将达到16.2B。边缘人工智能(Edge AI)成为AIoT未来的发展重点,而高效能、低功耗、高云端整合成为发展趋势。低硬件资源二进制神经网络(BNN)架构对于物联网应用至关重要。对于语音活动检测voice
‑
activity
‑
detection(VAD)和关键词检测keyword spotting(KWS)等AIoT应用,已经在识别引擎中使用低复杂度的神经网络。因此相较而言,特征提取部分占用了整个系统计算资源的很大一部分。
[0004]由于通过使用低复杂度的神经网络处理已经使得自动语音识别系统中的识别引擎部分的计算得到简化,因此本公开旨在降低特征提取部分的计算复杂度以实现进一步降低自动语音识别系统对计算资源和功耗的需求。
[0005]本公开着重于时频的特征提取,包括短时傅立叶变换(包括 Gabor 变换)、离散余弦变换 (DCT)、小波变换、双线性 ...
【技术保护点】
【技术特征摘要】
1.一种处理音频信号的方法,包括:对输入的一时间段内的音频序列信号进行预处理,包括将该时间段内的音频序列信号划分为多个音频信号帧;至少基于一个或多个音频信号帧的显着性值,将所述多个音频信号帧中的每帧至少分类为重要帧或非重要帧;使用高级别特征提取过程对每个重要帧中第一比例的音频信号执行特征提取;使用低级别特征提取过程对每个非重要帧中第二比例的音频信号执行特征提取, 其中第二比例小于第一比例且第二比例大于零;至少将从重要帧提取的特征和从非重要帧提取的特征进行匹配整合以为该时间段内的音频序列信号生成特征向量。2.如权利要求1所述的方法,还包括基于时域或频域中的每个音频信号帧的采样音频信号的幅度、能量、过零率、信噪比中的至少一项来估计该音频信号帧的显着性值。3.如权利要求2所述的方法,其中,将多个音频信号帧分类的步骤还包括将多个音频信号帧分类为中等重要帧,使用中级别特征提取过程对每个中等重要帧中第三比例的音频信号执行特征提取, 其中第三比例小于第一比例且大于第二比例。4.如权利要求2所述的方法,其中,第一比例的范围为帧音频信号的1/2的特征至全部特征,第二比例的范围为1/8
‑
1/4,第三比例范围为1/4
‑
1/2。5.如权利要求4所述的方法,其中,使用低级别特征提取过程对每个非重要帧中连续的第二比例的采样音频信号执行特征提取,并丢弃非重要帧中其余的采样音频信号。6.如权利要求2所述的方法,其中,将当前音频信号帧分类为重要帧或非重要帧基于以下比较结果的其中之一:当前音频信号帧的显着性值与至少一个阈值的比较;先前一个或多个音频信号帧的显着性值与至少一个阈值的比较;或者后续一个或多个音频信号帧的显着性值与至少一个阈值的比较。7.如权利要求6所述的方法,其中,基于先前音频信号帧在频域中的显着性值与至少一个阈值的比较来将当前音频信号帧至少分类为重要帧或非重要帧,其中基于先前音频信号帧的频域的低频部分的能量来确定该音频信号帧的显着性值,以及其中,将所述多个音频帧的第一帧默认为非重要帧,使用低级别特征提取过程来计算第一帧低频部分的能量并确定第一帧的显着性值。8.如权利要求6所述的方法,还包括确定至少一个优化阈值的步骤,包括:将多个显着性的预设阈值施加到语音模型进行训练以估计使用每个预设阈值来提取特征的计算复杂度值,以及估计基于所提取的特征通过识别引擎的处理分析得到的识别结果的精确度;选取所述识别结果的精确度的峰值所对应的预设阈值作为优化阈值,其中所述识别结果的精确度与显着性阈值为非正相关关系,而所述计算复杂度与显着性阈值基本呈正相关关系,所述计算复杂度随显着性阈值增加而增加。9.如权利要求8所述的方法,其中,使用每个预设阈值获得的所述识别结果的精确度基于指示辨识能力的指标来估计,所述指示辨识能力的指标包括错误拒绝率FRR和错误接受率FAR,以及使用每个预设阈值来提取特征的计算复杂度至少基于用FFT中的蝶形单元的数
量来估计。10.如权利要求2所述的方法,其中,高级别特征提取过程包括对每个重要帧中第一比例的采样音频信号执行快速傅立叶变换FFT,计算经FFT后的频域的音频信号能量谱,以及将频带滤波器应用于能量谱的每个频带。11.如权利要求10所述的方法,其中,低级别特征提取过程包括对每个非重要帧中第二比例的采样音频信号执行快速傅立叶变换FFT,计算经FFT后的频域的音频信号能量谱。12.如权利要求11所述的方法,还包括对得到的重要帧和非重要帧的频域的音频信号能量谱取对数LOG得到每帧的频域特征信息,将每个帧的频域特征信息合并起来以构成特征向量图,并且针对特征向量图进行一次或多次差分处理,并将该特征向量图以及差分处理的结果一并作为识别引擎的输入以进行后续处理。13.如权利要求1所述的方法,其中,划分的多个音频信号帧之间可以包括重叠的部分。14.如权利要求3所述的方法,其中,所述高级别特征提取过程、所述中级别特征提取过程以及所述低级别特征包括时频转换(T
‑
F)特征提取。15. 如权利要求1所述的方法, 其中,对音频序列信号进行预处理还包括对重要帧和非重要帧采用不同的窗函数进行加窗处理,其中,对非重要帧采用窗函数比对重要帧采用的窗函数短。16.一种音频信号处理系统,包括:预处理单元,被配置为将输入的一时间段内的音频序列信号划分为多个音频信号帧;重要性分类单元,被配置为至少基于一个或多个音频信号帧的显着性值,将多个音频信号帧中的每帧至少分类为重要帧或非重要...
【专利技术属性】
技术研发人员:焦玉中,陈炽康,
申请(专利权)人:联合微电子中心有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。