包括集成语音分析的麦克风单元制造技术

技术编号:16389953 阅读:53 留言:0更新日期:2017-10-16 12:22
一种麦克风单元,具有:一个换能器,用于从所接收的声学信号生成电气音频信号;一个语音编码器,用于从所述音频信号获得压缩语音数据;以及,一个数字输出,用于供应表示所述压缩语音数据的数字信号。所述语音编码器可以是有损语音编码器,且可以包含一个滤波器组,所述滤波器组具有非均匀间隔的中心频率(例如,梅尔频率)。

【技术实现步骤摘要】
【国外来华专利技术】包括集成语音分析的麦克风单元
本公开内容涉及降低数字麦克风的接口上的数据比特率,例如以使永远开启(Always-On)话音模式下的功率消耗最小化,但是仍然传递足够的信息以允许下游的关键字检测或语音识别功能。
技术介绍
音频功能在便携式设备中正变得越来越普遍。这样的功能不仅存在于诸如依赖音频技术的电话的设备中,而且存在于可以由话音控制的其他可穿戴装备或设备(例如,话音响应玩具,诸如听-说泰迪熊)中。这样的设备,包括电话,将几乎不占用它们实际传输语音的时间,但是一个或可能地多个麦克风可能被持久地启用,以接听某个话音命令。甚至一个可穿戴附件可以是连续开启的,等待话音命令,并且将具有很小的用于电池的空间,或可能依赖于一些太阳能采集或机械能采集,因此在连续待机模式下以及在低占空比操作模式下具有苛刻的功率消耗要求。麦克风换能器和放大器技术已经改进,但是通常麦克风封装件需要将其输出信号驱动一些距离。数字传输提供了包括噪声抗扰的优点,但是用于从麦克风传输数字数据的常规格式在一些方面不是特别有效率,所述一些方面为信号线路活动和随之而来的在每一逻辑电平转变时通过供电电压对寄生电容充电时所消耗的功率。在包含一个或多个数字麦克风的便携式设备(诸如,电话或平板电脑)中,数字麦克风信号沿着带状线缆或电线(flex)或甚至横跨密集填入的印刷电路板、从麦克风到集中化智能编解码器芯片等具有一些距离。更糟糕的这样的应用是,其中麦克风可以在头戴式受话器或耳塞内或在用户的衣服上某个声学期望的位置中,远离分布式设备的手持设备或主模块。然而,即使当原本在很大程度上不活动时,也可能存在复杂的信号处理要被执行,例如在话音触发的唤醒期间的说话人识别,所以诸如极大地降低其中的ADC的分辨率这样的解决方案可能导致不可接受的下游处理结果。因此,要求降低横跨有线数字传输链路来发送数字麦克风数据时所消耗的功率,同时仍然在所传输的信号中传达足够的有用信息,以允许下游的功能(诸如,语音识别)。图1例示了与主机设备20(例如,电话)中的智能编解码器22通信的常规数字麦克风10,且图2例示了常规数字麦克风接口中的操作波形。主机设备20通常以诸如3MHz的频率将时钟CLK传输到麦克风10,该麦克风10使用此时钟对ADC12计时,且从数字缓冲器接口Dout14时钟输出1-比特过采样Δ-Σ流DAT,所述1-比特过采样Δ-Σ流DAT表示麦克风换能器16的声学信号输入Px,提供ADC输入。在该系统中,主机20传输此时钟信号CLK消耗功率,特别是麦克风以平均1.5MHz的转变速率发送数据流DAT消耗功率。可以通过以较低的时钟速率(例如,768kHz)操作来降低功率,但是这大大增加了带内量化噪声,且相反地限制了特定噪声水平的可用带宽。即使这样,仅仅将功率降低到了1/4,所以功率消耗仍然是显著的,特别是在较大形状因素(formfactor)设备中或长线缆走线时。相比于传输串行多比特脉码调制流,传输Δ-Σ流在数据比特率和转变速率方面显著更低效,但是串行多比特脉码调制流通常要求一个附加的时钟线来传输时钟,以标记每个多比特字的开始。其次,我们注意到,降低Δ-Σ采样时钟速率的令人遗憾的副作用会是将可用带宽在背景量化噪声方面限制到例如8kHz而非例如20kHz。这会增加用于话音关键字检测(VKD)的字差错率(WER)。这转而会导致误报(falsepositive)的发生率较高,并且系统可能在其唤醒模式下花费更多的时间,从而显著影响了平均完整系统功率消耗。此外,还存在对需要甚至更精确的输入音频数据流的功能(诸如,说话人辨识)作为话音触发唤醒功能的一部分的普遍要求。已知的是,使用较宽带宽用于说话人辨识会捕获较多语音信号分量,从而放宽对高信噪比(SNR)的需求(例如,放宽对低声学背景噪声的需求,或认真优化麦克风位置的需求),从而得到足够高的精确度用于生物识别目的。即使在高SNR环境中,相对宽的信号带宽可以提高说话人的验证精确度。这与降低数字麦克风时钟的频率以降低功率消耗的概念不一致。
技术实现思路
根据本专利技术的第一方面,提供了一个麦克风单元,包括:一个换能器,用于由所接收到的声学信号生成电气音频信号;一个语音编码器,用于从所述音频信号获得压缩语音数据;以及一个数字输出,用于供应表示所述压缩语音数据的数字信号。在本专利技术的一个实施方案中,所述麦克风单元包括一个经封装的麦克风,例如MEMS麦克风,具有片上或共同封装的集成语音编码器电路系统。此电路系统经由PCB迹线或可能地经由头戴式受话器线缆将数据传输离开此封装件,且传输至下游的可以执行更复杂的功能(诸如,语音识别)的电路系统,所传输的数据表示以低比特率且以语音压缩格式所编码的语音信息,以降低物理传输数据时所消耗的功率。在此公开内容中,未压缩数据可以被视为均匀采样系统中样本的数值表示,其中带内信号是音频输入波形在音频带内的近似,而压缩数据通常由未压缩数据导出以使得数字流不再直接表示未压缩数据,且具有较低的比特率。语音编码是包含语音的数字音频信号的数据压缩的应用。语音编码使用语音专用参数估计来将语音信号建模,且可以与通用数据压缩算法结合来表示紧凑比特流中的所得到的建模参数,所述语音专用参数使用音频信号处理技术。因此,压缩语音数据可以是表示音频信号的数据(通常是数字数据),该音频信号的语音专用参数从该信号计算。例如,这可以是一组非均匀间隔的频率区段(frequencybin)中的信号能量,或可以经由例如每个子带的ADPCM来使用子带编码。数据压缩技术之后可以被应用至这些时变参数,例如根据某个码本(codebook)重新编码标量或向量。作为示例,本专利技术的实施方案可以使用任何语音压缩标准,例如使用MDCT、MDCT-混合子带、CELP、ACELP、两级噪声反馈编码(TSNFC)、VSELP、RPE-LTP、LPC、变换编码或MLT的语音压缩标准,其中合适的实施例是AAC、AC-3、ALAC、ALS、AMBE、AMr、AMR-WB、AMR-WB+、apt-X、ATRAC、BroadVoice、CELT、Codec2、EnhancedAC-3、FLAC、G.7xx标准组中的任何一个标准、GSM-FR、iLBC、iSAC、Monkey’sAudio、MP2、MP3、Musepack、NellymoserAsao、Opus、Shorten、SILK、Siren7、Speex、SVOPC、TTA、TwinVQ、Vorbis、WavPack或WindowsMediaAudio。附图说明图1例示了一个音频处理系统。图2例示了图1的音频处理系统中的信号。图3例示了一个包括主机设备和附件的系统。图4例示了一个音频处理系统。图5例示了一个麦克风单元的一个部分。图6例示了一个麦克风单元的一个部分。图7例示了一个麦克风单元的一个部分。图8例示了一个压缩语音编码器。图9例示了一个音频处理系统。图10例示了一个音频处理系统。图11例示了图10的音频处理系统中的麦克风单元的一个部分。具体实施方式图3示出了一个音频系统,仅作为使用本文所描述的方法的系统的一个实施例。具体地,图3示出了设备30,该设备30在此实施例中采取智能电话或平板计算机的形式。本文所描述的方法可以与任何设备一起使用,本文档来自技高网
...
包括集成语音分析的麦克风单元

【技术保护点】
一种麦克风单元,包括:一个换能器,用于从所接收的声学信号生成电气音频信号;一个语音编码器,用于从所述音频信号获得压缩语音数据;以及一个数字输出,用于供应表示所述压缩语音数据的数字信号。

【技术特征摘要】
【国外来华专利技术】2014.12.23 US 62/096,4241.一种麦克风单元,包括:一个换能器,用于从所接收的声学信号生成电气音频信号;一个语音编码器,用于从所述音频信号获得压缩语音数据;以及一个数字输出,用于供应表示所述压缩语音数据的数字信号。2.根据权利要求1所述的麦克风单元,其中所述语音编码器包含一个具有非均匀间隔的中心频率的滤波器组。3.根据权利要求2所述的麦克风单元,其中所述中心频率是梅尔频率。4.根据权利要求2或3所述的麦克风单元,其中所述滤波器组的输出被耦合至对数加权块和离散余弦变换块,以提供倒谱系数。5.根据权利要求1到4中的一项所述的麦克风单元,所述麦克风单元能够以数字输出供应未压缩语音数据的模式操作。6.根据权利要求1所述的麦克风单元,包括一个压缩采样编码器,所述压缩采样编码器包括一个采样电路,该采样电路以小于输入信号带宽的采样速率对输入信号采样,其中导致采样时刻在时间上随机分布。7.根据权利要求1到6中的一项所述的麦克风单元,其中所述语音编码器是有损语音编码器。8.根据权利要求7所述的麦克风单元,其中所述有损语音编码器使用选自以下编码技术中的至少一个编码技术:ADPCM、MDCT、MDCT-混合子带、CELP、ACELP、两级噪声反馈编码(TSNFC)、VSELP、RPE-LTP、LPC、变换编码和MLT。9.根据权利要求1到8中的一项所述的麦克风单元,其中所述语音编码器和所述数字输出被设置在单个集成电路上。10.根据权利要求9所述的麦克风单元,其中所述换能器被设置在所述集成电路上。11.根据权利要求10所述的麦克风单元,其中所述换能器包括一个MEMS麦克风。12.根据权利要求1到11中的一项所述的麦克风单元,其中所述换能器用于生成模拟音频信号,还包括一个模拟-数字转换器,用于从所述模拟音频信号生成数字音频信号,其中所述语音编码器被连接至所述模拟-数字转换器,用于从数字音频输出信号获得语音特征值。13.根据权利要求1到12中的一项所述的麦克风单元,还包括数据压缩电路系统,用于从倒谱特征提取块接收所述倒谱特征值,且用于生成降低的比特率信号以供应至所述数字输出。14.根据权利要求13所述的麦克风单元,其中所述降低的比特率信号包含20k比特/秒或更低的数据。15.根据权利要求1到14中的一项所述的麦克风单元,其中所述数字输出能够配置成在第一模式下,用于供应表示所述压缩语音数据的所述数字信号,且能够配置成在该第二模式下,用于供应表示所述音频信号的时间采样的数字信号。16.根据权利要求15所述的麦克风单元,其中与表示所述压缩语音数据的数字信号相比,以更高的数据速率供应表示所述音频信号的时间采样的数字信号。17.根据权利要求16所述的麦克风单元,其中表示所述音频信号的时间采样的数字信号是以16kHz或更高的采样速率所供应的PCM信号。18.根据权利要求16所述的麦克风单元,其中表示所述音频信号的时间采样的数字信号是以0.5MHz或更高的采样速率的PDM信号。19.根据权利要求15到18中的一项所述的麦克风单元,其中基于从一个分立设备所接收的命令,所述数字输出能够在所述第一模式和所述第二模式之间配置,所述数字输出连接至所述分立设备。20.根据权利要求15到18中的一项所述的麦克风单元,其中基于在所述麦克风单元中所生成的命令,所述数字输出能够在所述第一模式和所述第二模式之间配置。21.根据权利要求20所述的麦克风单元,包括一个话音活动检测器,用于生成所述命令。22.根据权利要求21所述的麦克风单元,其中响应于检测到所述音频信号中的话音活动,所述命令导致所述数字输出进入所述第一模式。23.根据权利要求1到22中的一项所述的麦克风单元,还包括噪声消除电路系统,用于降低输出数字信号中的环境噪声的作用。24.根据权利要求23所述的麦克风单元,其中所述噪声消除电路系统包括一个维纳滤波器。25.根据权利要求23所述的麦克风单元,其中所述噪声消除电路系统包括一个自适应维纳滤波器。26.一种麦克风单元,包括:一个换能器,用于生成音频信号;一个比特率压缩块,用于从所述音频信号获得比特率压缩数据;以及一个数字输出,用于供应表示所述比特率压缩数据的数字信号。27.根据权利要求26所述的麦克风单元,其中所述换能器包括一个MEMS麦克风。28.一种麦克风单元,包括:一个换能器,用于生成音频信号;一个语音特征提取块,用于从所述音频信号获得语音特征值;以及一个数字输出,用于供应表示所述语音特征值的数字信号。29.根据权利要求27所述的麦克风单元,其中所述语音特征提取块包括用于通过一个滤波器组的装置从所述音频信号获得语音特征值的装置,用于提供对一组非等间隔的频带的每个频带中的信号能量的估计。30.根据权利要求29所述的麦克风单元,其中所述非等间隔的频带是梅尔频率。31.根据权利要求28到30中的一项所述的麦克风单元,其中所述语音特征提取块包括用于获得倒谱特征的装置。32.根据权利要求28到31中的一项所述的麦克风单元,其中所述语音特征提取块和所述数字输出被设置在单个集成电路上。33.根据权利要求32所述的麦克风单元,其中所述换能器被设置在所述集成电路上。34.根据权利要求33所述的麦克风单元,其中所述换能器包括一个MEMS麦克风。35.根据权利要求28到34中的一项所述的麦克风单元,其中所述换能器用于生成模拟音频信号,还包括一个模拟-数字转换器,用于从所述模拟音频信号生成数字音频信号,其中所述语音特征提取块被连接到所述模拟-数字转换器,用于从数字音频输出信号获得语音特征值。36.根据权利要求35所述的麦克风单元,当权利要求35从属于权利要求32到34中的一项时,其中所述模拟-数字转换器被设置在所述集成电路上。37.根据权利要求28到36中的一项所述的麦克风单元,还包括数据压缩电路系统,用于从所述语音特征提取块接收所述语音特征值,并且用于生成降低的比特率信号,以供应到所述数字输出。38.根据权利要求37所述的麦克风单元,其中所述数据压缩电路系统使用一个预定码本操作。39.根据权利要求37所述的麦克风单元,其中所述数据压缩电路系统执行多向量编码。40.根据权利要求28到39中的一项所述的麦克风单元,其中所述数字...

【专利技术属性】
技术研发人员:J·P·莱索J·L·梅兰森
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1