当前位置: 首页 > 专利查询>清华大学专利>正文

一种用于声纹识别的低功耗模拟域特征向量提取方法技术

技术编号:25640036 阅读:67 留言:0更新日期:2020-09-15 21:31
本发明专利技术涉及一种低功耗的基于模拟域的语音特征提取方法,采用模拟域特征提取和数字域识别模型相结合的混合域架构来完成声纹识别。由于经典数字域MFCC特征提取包含FFT、DCT等操作会消耗大量功耗,不满足处于连续工作状态的语音设备唤醒电路对低功耗和低计算量的要求。本发明专利技术提出的低维度低硬件开销的模拟域语音特征提取方法可以具体延伸为全模拟滤波特征提取和混合特征提取2种模式,分别适用于对识别准确率要求较高和对超低功耗限制要求严格的应用场景。

【技术实现步骤摘要】
一种用于声纹识别的低功耗模拟域特征向量提取方法
本专利技术属于声纹识别
,特别涉及一种用于声纹识别的低功耗模拟域特征向量提取方法。
技术介绍
随着电子信息技术的发展,物联网逐渐成为人们关注的焦点。在物联网时代,信息技术正改变着人们与电子设备的交互方式。因为人的声音是一种最自然和最具信息量的人机交互方式,类似语音自动控制的人机交互在智能家居等应用场景中被广泛采用,而其中智能声纹识别或关键词检测唤醒电路具有重要的应用前景。通过语音来唤醒设备能有效提高能量效率,且无需接触,使用方便。智能声纹识别电路以低功耗的工作模式实时采集环境中的音频信号,并检测其中是否存在特定个体的语音信号,当侦测到特定说话人的有效语音信号时,启动唤醒更高层次的系统。此外,相比于语音活动检测唤醒,声纹识别唤醒能够针对特定说话人发生响应,关键词检测唤醒能够针对特定语音控制命令发生响应。其中一个应用场景是家庭中电视的语音唤醒,如果希望电视只对家长的语音唤醒而不唤醒小孩的语音,就需要对不同说话人进行声纹识别从而判断出具有唤醒权限的用户。同时,声纹识别与其他生物特征识别技术相比还具有方便直接,语音传感采集设备成本低廉等优点。由于不同说话人的发音器官在形态、大小和尺寸等物理结构方面有差异,加之受年龄、性别、读音习惯等因素的影响,因此不同说话人的发音频率和共振峰不会完全相同。可以说不同说话人的声纹图谱都略有差异,所以通过声纹来识别不同说话人进而判断说话人身份的方式是可行的。声纹识别的传统做法是将语音信号调理放大之后直接经过模-数转换器(ADC)转换成数字信号,在数字域完成特征提取和识别的任务。数字域梅尔频率倒谱系数特征(MFCC)提取的过程包括对输入的语音信号进行预加重、分帧和加窗这些预处理操作,然后做FFT变换,取模平方,经过Mel三角滤波器组并将输出取对数,最后做DCT变换。因为其拥有良好的可分辨性,包含语音信息充分,成为语音识别、声纹识别、关键词检测等语音信号处理任务中的经典特征。但是由于MFCC特征提取需要FFT、DCT等操作会消耗大量功耗,且计算复杂度较高,不利于低功耗的硬件实现。此外,经典MFCC特征通常包含13维静态特征,13维一阶差分系数和13维二阶差分系数共39维特征。较高的特征维度使得输入后续识别模型例如神经网络的特征比特率也很高,从而神经网络识别模型的参数量和乘累加运算量较大,导致神经网络的功耗较大。这限制了声纹识别从服务器端向边缘端扩展,难以满足电池容量较小且需要连续工作的智能声纹识别设备唤醒应用的需求。
技术实现思路
为了克服上述现有技术中经典数字域MFCC特征提取存在的主要缺点,本专利技术的目的在于提供一种用于声纹识别的低功耗模拟域特征向量提取方法,可降低特征输入后续识别模型的比特率,进一步减小识别模型的功耗和计算量,具有低功耗,低维度,低计算复杂度等特点。并可将特征进一步输入数字域神经网络等模型进行声纹识别,对智能声纹识别唤醒等语音信号处理任务的边缘端实现和性能优化产生重要意义。为了实现上述目的,本专利技术采用的技术方案是:一种用于声纹识别的低功耗模拟域特征向量提取方法,输入为麦克风输出的语音信号,从时域和模拟域提取特征,通过构造一组带通滤波器逼近MFCC特征提取中的Mel三角滤波器组,使得构造的带通滤波器组的中心频率与Mel三角滤波器组相同,满足非线性对数频率特性,再将模拟滤波输出的时域信号通过ADC后取模平方得到对应特征值。本专利技术包括对应于全模拟滤波特征提取的高性能模式和对应于混合特征提取的超低功耗模式两种模式,其中:所述高性能模式使用16个带通滤波器进行全模拟滤波特征提取,首先将麦克风输出的语音信号通过低噪声前置放大器调理放大,然后分别输入16个通道进行带通滤波,每个带通滤波器的中心频率模拟MFCC特征提取中Mel三角滤波器的中心频率设计;然后将提取到的模拟滤波特征通过12位逐次逼近型ADC转换到数字域,在数字域完成求取模平方的操作得到对应特征向量;所述超低功耗模式通过压缩相似的冗余特征以进一步降低特征维度,采用5个带通滤波器,1个比较器和数字逻辑电路实现混合特征提取,通过比较器和计数器提取语音信号的过零率,即统计信号幅值为0的次数,过零率反映了语音信号的变化快慢,是一种从时域进行提取而反映频域信息的特征,输入信号经比较器与0电平比较后输出一系列含高低电平的脉冲,其中高电平的上升沿和下降沿对应语音信号的负过零和正过零,对高电平脉冲计数,再乘以2得到语音信号的过零率,该模式提取的混合特征的维度是8维,包括5维模拟滤波特征及其均值和方差,再加上1维过零率特征。所述每个带通滤波器的中心频率模拟MFCC特征提取中Mel三角滤波器的中心频率设计的具体实现方式是将语音信号的常用采样频率按照该公式Mel(f)=2595*log10(1+f/700)转换到梅尔频率域,然后在梅尔频率域按照滤波器个数进行等间隔划分,再将划分的结果按上式转换为对应的自然频率作为带通滤波器的中心频率,其中Mel(f)是梅尔频率,f是自然频率。本专利技术中,所述带通滤波器可为非理想物理可实现的带通滤波器,其阶数为2阶。本专利技术中,所述带通滤波器可采用Gm-C结构,通过调整跨导器偏置电流的大小从而改变跨导器的Gm值,来达到改变滤波器中心频率的目的。本专利技术中,可通过调整所述带通滤波器的个数以得到不同维度的特征,从而满足不同应用场景下识别精度和功耗的折中。本专利技术中,所述麦克风输出的语音信号可先进行分帧和加窗的预处理。本专利技术的方法除用于声纹识别外,还用于关键词检测等相近领域。本专利技术提取的特征向量可进一步输入数字域神经网络进行识别,所述神经网络可为CNN、LSTM或GRU等。与现有技术相比,本专利技术的有益效果是:1.在功耗方面,本专利技术提出的基于模拟滤波的特征提取方法相比于经典数字域MFCC特征提取硬件开销较小,省去了FFT、DCT等操作,功耗有所降低,可以达到亚μW级的功耗指标。2.在特征数据量方面,经典数字域MFCC特征一般包括39维,而本专利技术提出的全模拟滤波特征的维度是16维,混合特征的维度是8维。这可以使得后续识别模型的参数量和计算量降低,从而进一步减小识别模型的功耗。3.在计算复杂度方面,本专利技术提出的模拟域特征提取方法基于时域滤波。因为时域滤波相当于卷积,而对于某帧语音,卷积和求模平方的计算复杂度对帧长均呈线性关系,因此模拟滤波特征提取的计算复杂度是O(n)。而MFCC特征包含FFT和DCT操作,计算复杂度是O(nlogn),基于模拟滤波的特征提取方法计算复杂度有所降低。4.本专利技术的抗噪性能良好,在加入高斯白噪声的语音信号中,当信噪比(SNR)大于等于0dB时本专利技术基于模拟滤波提取的特征在维度较低的同时仍有良好的抗噪能力。附图说明图1是基于模拟滤波特征提取方法原理图。图2是本专利技术提出的基于模拟域的语音特征提取方法的结构示意图。图3是全模拟滤波特征提取结构框图。图4是梅尔频率与自然频率对应关系。本文档来自技高网
...

【技术保护点】
1.一种用于声纹识别的低功耗模拟域特征向量提取方法,输入为麦克风输出的语音信号,其特征在于,从时域和模拟域提取特征,通过构造一组带通滤波器逼近MFCC特征提取中的Mel三角滤波器组,使得构造的带通滤波器组的中心频率与Mel三角滤波器组相同,满足非线性对数频率特性,再将模拟滤波输出的时域信号通过ADC后取模平方得到对应特征值。/n

【技术特征摘要】
1.一种用于声纹识别的低功耗模拟域特征向量提取方法,输入为麦克风输出的语音信号,其特征在于,从时域和模拟域提取特征,通过构造一组带通滤波器逼近MFCC特征提取中的Mel三角滤波器组,使得构造的带通滤波器组的中心频率与Mel三角滤波器组相同,满足非线性对数频率特性,再将模拟滤波输出的时域信号通过ADC后取模平方得到对应特征值。


2.根据权利要求1所述用于声纹识别的低功耗模拟域特征向量提取方法,其特征在于,包括对应于全模拟滤波特征提取的高性能模式和对应于混合特征提取的超低功耗模式两种模式,其中:
所述高性能模式使用16个带通滤波器进行全模拟滤波特征提取,首先将麦克风输出的语音信号通过低噪声前置放大器调理放大,然后分别输入16个通道进行带通滤波,每个带通滤波器的中心频率模拟MFCC特征提取中Mel三角滤波器的中心频率设计;然后将提取到的模拟滤波特征通过12位逐次逼近型ADC转换到数字域,在数字域完成求取模平方的操作得到对应特征向量;
所述超低功耗模式通过压缩相似的冗余特征以进一步降低特征维度,采用5个带通滤波器,1个比较器和数字逻辑电路实现混合特征提取,通过比较器和计数器提取语音信号的过零率,即统计信号幅值为0的次数,过零率反映了语音信号的变化快慢,是一种从时域进行提取而反映频域信息的特征,输入信号经比较器与0电平比较后输出一系列含高低电平的脉冲,其中高电平的上升沿和下降沿对应语音信号的负过零和正过零,对高电平脉冲计数,再乘以2得到语音信号的过零率,该模式提取的混合特征的维度是8维,包括5维模拟滤波特征及其均值和方差,再加上1维过零率特征。


3.根据权利要求2所述用于声纹识别的低功耗模拟域特征向量提取方法,其特征在于,所述...

【专利技术属性】
技术研发人员:浦宁姜汉钧张春王志华
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1