一种用于声纹识别的低功耗模拟域特征向量提取方法技术

技术编号：25640036 阅读：67 留言：0更新日期：2020-09-15 21:31

本发明专利技术涉及一种低功耗的基于模拟域的语音特征提取方法，采用模拟域特征提取和数字域识别模型相结合的混合域架构来完成声纹识别。由于经典数字域MFCC特征提取包含FFT、DCT等操作会消耗大量功耗，不满足处于连续工作状态的语音设备唤醒电路对低功耗和低计算量的要求。本发明专利技术提出的低维度低硬件开销的模拟域语音特征提取方法可以具体延伸为全模拟滤波特征提取和混合特征提取2种模式，分别适用于对识别准确率要求较高和对超低功耗限制要求严格的应用场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于声纹识别的低功耗模拟域特征向量提取方法
本专利技术属于声纹识别
，特别涉及一种用于声纹识别的低功耗模拟域特征向量提取方法。
技术介绍
随着电子信息技术的发展，物联网逐渐成为人们关注的焦点。在物联网时代，信息技术正改变着人们与电子设备的交互方式。因为人的声音是一种最自然和最具信息量的人机交互方式，类似语音自动控制的人机交互在智能家居等应用场景中被广泛采用，而其中智能声纹识别或关键词检测唤醒电路具有重要的应用前景。通过语音来唤醒设备能有效提高能量效率，且无需接触，使用方便。智能声纹识别电路以低功耗的工作模式实时采集环境中的音频信号，并检测其中是否存在特定个体的语音信号，当侦测到特定说话人的有效语音信号时，启动唤醒更高层次的系统。此外，相比于语音活动检测唤醒，声纹识别唤醒能够针对特定说话人发生响应，关键词检测唤醒能够针对特定语音控制命令发生响应。其中一个应用场景是家庭中电视的语音唤醒，如果希望电视只对家长的语音唤醒而不唤醒小孩的语音，就需要对不同说话人进行声纹识别从而判断出具有唤醒权限的用户。同时，声纹识别与其他生物特征识别技术相比还具有方便直接，语音传感采集设备成本低廉等优点。由于不同说话人的发音器官在形态、大小和尺寸等物理结构方面有差异，加之受年龄、性别、读音习惯等因素的影响，因此不同说话人的发音频率和共振峰不会完全相同。可以说不同说话人的声纹图谱都略有差异，所以通过声纹来识别不同说话人进而判断说话人身份的方式是可行的。声纹识别的传统做法是将语音信号调理放大之后直接经过模-数转换器(ADC...

【技术保护点】
1.一种用于声纹识别的低功耗模拟域特征向量提取方法，输入为麦克风输出的语音信号，其特征在于，从时域和模拟域提取特征，通过构造一组带通滤波器逼近MFCC特征提取中的Mel三角滤波器组，使得构造的带通滤波器组的中心频率与Mel三角滤波器组相同，满足非线性对数频率特性，再将模拟滤波输出的时域信号通过ADC后取模平方得到对应特征值。/n

【技术特征摘要】
1.一种用于声纹识别的低功耗模拟域特征向量提取方法，输入为麦克风输出的语音信号，其特征在于，从时域和模拟域提取特征，通过构造一组带通滤波器逼近MFCC特征提取中的Mel三角滤波器组，使得构造的带通滤波器组的中心频率与Mel三角滤波器组相同，满足非线性对数频率特性，再将模拟滤波输出的时域信号通过ADC后取模平方得到对应特征值。

2.根据权利要求1所述用于声纹识别的低功耗模拟域特征向量提取方法，其特征在于，包括对应于全模拟滤波特征提取的高性能模式和对应于混合特征提取的超低功耗模式两种模式，其中：
所述高性能模式使用16个带通滤波器进行全模拟滤波特征提取，首先将麦克风输出的语音信号通过低噪声前置放大器调理放大，然后分别输入16个通道进行带通滤波，每个带通滤波器的中心频率模拟MFCC特征提取中Mel三角滤波器的中心频率设计；然后将提取到的模拟滤波特征通过12位逐次逼近型ADC转换到数字域，在数字域完成求取模平方的操作得到对应特征向量；
所述超低功耗模式通过压缩相似的冗余特征以进一步降低特征维度，采用5个带通滤波器，1个比较器和数字逻辑电路实现混合特征提取，通过比较器和计数器提取语音信号的过零率，即统计信号幅值为0的次数，过零率反映了语音信号的变化快慢，是一种从时域进行提取而反映频域信息的特征，输入信号经比较器与0电平比较后输出一系列含高低电平的脉冲，其中高电平的上升沿和下降沿对应语音信号的负过零和正过零，对高电平脉冲计数，再乘以2得到语音信号的过零率，该模式提取的混合特征的维度是8维，包括5维模拟滤波特征及其均值和方差，再加上1维过零率特征。

3.根据权利要求2所述用于声纹识别的低功耗模拟域特征向量提取方法，其特征在于，所述...

【专利技术属性】
技术研发人员：浦宁，姜汉钧，张春，王志华，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人