带有语音识别的麦克风电路总成和系统技术方案

技术编号:10428515 阅读:141 留言:0更新日期:2014-09-12 19:12
本发明专利技术涉及带有语音识别的麦克风电路总成和系统。所述麦克风电路总成包括麦克风前置放大器和模拟-数字转换器以以第一预定采样速率生成麦克风信号样本。语音特征提取器被配置为接收和处理麦克风信号样本预定块以提取表示所述麦克风信号样本的语音特征的语音特征向量。所述麦克风电路总成还包括语音词汇表,其包括被编码为目标特征向量集的人类语音的目标词或目标短语,以及判定电路,其被配置为将所述语音特征提取器生成的所述语音特征向量与所述目标特征向量进行比较以检测目标语音词或短语。控制器被配置为在所述麦克风电路总成的外部可接入输出端上生成识别信号以响应所述麦克风信号样本中被识别的目标词或短语。

【技术实现步骤摘要】
带有语音识别的麦克风电路总成和系统本专利技术一方面涉及用于连接至外部应用程序处理器(比如,可编程数字信号处理器)的麦克风电路总成。麦克风电路总成包括麦克风前置放大器和模拟-数字转换器以以第一预定采样速率生成麦克风信号样本。语音特征提取器被配置为接收和处理麦克风信号样本预定块以提取表示麦克风信号样本的语音特征的语音特征向量。麦克风电路总成还包括语音词汇表,其包括被编码为目标特征向量集的人类语音的目标词或目标短语,以及判定电路,其被配置为将语音特征提取器生成的语音特征向量与目标特征向量进行比较以检测目标语音词或短语。控制器被配置为在麦克风电路总成的外部可接入输出端子上生成识别信号以响应麦克风信号样本中被识别的目标词或短语。本专利技术的其它方面涉及包括麦克风电路总成的数字信号处理系统。专利技术背景在语音识别系统中,应用于进入的通常由安装在便携式通信设备(如,电话、玩具、电视机或PC等)内的麦克风生成的语音信号的第一滤波器组通常是梅尔倒频谱系数(MFCC)滤波器组的变体,无论底层语音识别系统是否基于神经网络(NN)、隐马尔可夫模型(HMM)或因子图(FG)。整个语音识别系统的目的是提供对装置功能(比如,从睡眠模式变为唤醒或开机)的语音激活控制。然而,已知的语音识别装置和系统的MFCC滤波器组在计算上很复杂,并因此常常在可编程应用程序处理器(比如,可编程定点或浮点DSP内核或引擎)上执行。这些类型的DSP内核常常使用24位或32位字长来表示进入的语音/音频信号样本,致使具有对应字长的数据路径电路、数据寄存器和逻辑来适应进入的音频样本的字格式。该特征导致在处理进入的语音或音频信号期间,MFCC滤波器组中产生高功率消耗,这是在便携式/电池供电设备中应用基于MFCC的语音识别的一个重大问题或障碍。此外,由于语音识别应用程序或程序通常在可编程外部应用程序处理器(例如,DSP内核)上执行,因此其不得不持续保持激活操作模式以检测进入的麦克风信号中是否存在目标词、短语或命令。由于不断操作的可编程应用程序处理器的高功率消耗,要求可编程外部应用程序处理器连续操作便给提供语音激活的系统的上电造成了障碍。就电池寿命和世界范围内的不断努力以减少整个工业化世界的电气设备的能量耗损而言,高功率消耗对于语音识别在电池供电的移动式设备和连接电源的电气设备中的应用是一个重大问题。因此,提供包括低功率消耗且能够独立于外部应用程序处理器操作的语音识别单元的单独的麦克风电路总成大有裨益。麦克风电路总成可包括能够识别出一个或多个预定目标词或短语并通过传输合适的识别信号将这种目标词或短语的识别指示给外部应用程序处理器的语音识别单元。因此,通过将识别进入的麦克风信号中的目标词或目标的任务委派给麦克风电路总成,这种麦克风电路总成将允许外部应用程序处理器处于睡眠模式,而无需处理麦克风信号。麦克风电路总成可通过合适的允许应用程序处理器从睡眠模式切换至激活模式并采取适当行动的识别信号将目标词或短语的识别指示给外部应用程序处理器。欧洲专利0871157A2公开了一种语音识别方法和设备。语音识别装置从麦克风接收其输入语音信号。语音信号通过使用采样频率为8kHz的和分辨率为每样本12位的A/D转换器被转换成数字形式。语音识别装置包括在此处对语音信号进行分析并对特征向量进行建模的前端。可通过限定梅尔倒频谱系数(MFCC)对特征向量进行建模。美国专利2003/110033A1公开了一种用于实时语音识别的方法和系统。语音识别基于MFCC算法和隐马尔可夫模型(HMM)。语音识别系统可在适合低资源环境的DSP上实施。WOLA滤波器组作为DSP内核的协同处理器工作将256点FFT应用于数字化输入语音信号的连续或运行片段。ECTI 的 Wada 等人 2005 年 11 月发表的文章‘A Real Time Noise-Robust SpeechRecognit1n System’公开了一种基于定制硬件,比如全定制ASIC设计或FPGA设计的方法和设备。语音识别装置基于FPGA板。输入FPGA电路板上的语音识别装置的语音信号是通过利用A/D转换器以11.025kHz的采样速率将语音样本量化成12位字长对麦克风信号进行采样生成的。
技术实现思路
本专利技术的第一方面涉及用于外部应用程序处理器的麦克风电路总成,包括:麦克风前置放大器,其包括用于接收麦克风信号的输入端子,模拟-数字转换器,其被配置为接收麦克风前置放大器的输出信号,并以第一预定采样速率生成对应的具有第一预定位数的麦克风信号样本,语音特征提取器,其被配置为接收和处理麦克风信号样本预定块以提取表示麦克风信号样本的语音特征的语音特征向量,语音词汇表,其包括被编码为目标特征向量集的人类语音的目标词或目标短语,控制器,其包括被配置为将语音特征提取器生成的语音特征向量与目标特征向量进行比较以检测目标语音词或短语的判定电路,控制器被配置为在外部可接入输出端子上生成识别信号以响应麦克风信号样本中被识别出的目标词或短语。本麦克风电路总成对于通过麦克风音频输入(通过输入端子可获得)对电子设备进行语音控制具有很多应用。电子设备可包括便携式端子和设备、玩具、电视机等。麦克风电路总成的尺寸和形状优选被设置成可容纳于微型ECM的外壳内或与MEMS电容式麦克风的封装集成。在后一实施方案中,微型ECM或MEMS麦克风的传统声音捕捉能力增加了语音识别特征,开发了新的声控应用范围。在本专利技术的一些特别有利的应用中,在麦克风电路总成的外部可接入输出端子提供的识别信号用于外部应用程序处理器,比如数字信号处理系统的可编程或硬连线数字信号处理器(DSP)或微处理器的激活或上电,如下文中详细描述的那样。该特征允许外部应用程序处理器处于省电模式,比如不需处理进入的麦克风信号的断电或睡眠模式,直至接收到识别信号。外部应用程序处理器的睡眠模式优选为至外部应用程序处理器的内核的时钟信号中断和/或至外部应用程序处理器的内核的DC电源电压被除去或中断的模式。至外部应用程序处理器的内核的时钟信号的中断可由时钟选通电路控制,并且降低了内核的动态功率消耗。可通过合适的逻辑除去或中断至外部应用程序处理器的内核的直流电源电压以降低内核的静态功率消耗。数字信号处理系统可并入之前讨论的便携式端子和设备、玩具、电视机等。在本专利技术的其它应用中,本麦克风电路总成的语音识别能力对于在外部应用程序处理器上运行的语音识别应用程序而言起到预滤波器的作用,使得两个独立的语音识别机构在系统中同时运行。外部应用程序处理器的语音识别应用程序可被配置为通过包括目标词和/或短语的识别信号独自处理由麦克风电路总成的语音识别功能标记或指示的语音片段。如此,在外部应用程序处理器上执行的语音识别应用程序可舍弃对麦克风电路总成提供的大量进入的麦克风信号样本的处理。该特征使得有利地减少了外部应用程序处理器的计算负载和功率消耗。语音特征提取器和判定电路协作以使本麦克风电路总成实现语音识别。目标词或短语可以是单个词、单个短语或短句或命令的单个或一些词。在后一实施方案中,句子的长度优选限于几个目标词或短语以限制语音词汇表的存储器使用。短命令可包括激活或唤醒命令,如以相关语言表示的‘打开’或‘上电’等。语音词汇表可包括多个目标词、短语或向上述激活本文档来自技高网
...
带有语音识别的麦克风电路总成和系统

【技术保护点】
一种用于连接至外部应用程序处理器的麦克风电路总成,包括:麦克风前置放大器,其包括用于接收麦克风信号的输入端子,模拟‑数字转换器,其被配置为接收所述麦克风前置放大器的输出信号,并以第一预定采样速率生成对应的麦克风信号样本,语音特征提取器,其被配置为接收和处理麦克风信号样本预定块以提取表示所述麦克风信号样本的语音特征的语音特征向量,语音词汇表,其包括被编码为目标特征向量集的人类语音的目标词或目标短语,控制器,其包括被配置为将所述语音特征提取器生成的所述语音特征向量与所述目标特征向量进行比较以检测所述目标语音词或短语的判定电路,所述控制器被配置为在外部可接入输出端子上生成识别信号以响应所述麦克风信号样本中被识别出的目标词或短语。

【技术特征摘要】
2013.03.08 US 13/789,8471.一种用于连接至外部应用程序处理器的麦克风电路总成,包括: 麦克风前置放大器,其包括用于接收麦克风信号的输入端子, 模拟-数字转换器,其被配置为接收所述麦克风前置放大器的输出信号,并以第一预定采样速率生成对应的麦克风信号样本, 语音特征提取器,其被配置为接收和处理麦克风信号样本预定块以提取表示所述麦克风信号样本的语音特征的语音特征向量, 语音词汇表,其包括被编码为目标特征向量集的人类语音的目标词或目标短语,控制器,其包括被配置为将所述语音特征提取器生成的所述语音特征向量与所述目标特征向量进行比较以检测所述目标语音词或短语的判定电路, 所述控制器被配置为在外部可接入输出端子上生成识别信号以响应所述麦克风信号样本中被识别出的目标词或短语。2.根据权利要求1所述的麦克风电路总成,其包括用于将所述麦克风信号样本传输至外部应用程序处理器的数据通信接口。3.根据权利要求2所述的麦克风电路总成,其中所述麦克风前置放大器和所述模拟-数字转换器至少可在以下中操作: 具有第一功率消耗的第一功率模式,其中具有第一动态范围的麦克风信号样本以所述第一预定采样速率生成;以及 具有第二功率消耗的第二功率模式,其中具有第二动态范围的麦克风信号样本以第二预定采样速率生成; 其中所述第二动态范围大于所述第一动态范围,且所述第二功率消耗大于所述第一功率消耗。4.根据权利要求3所述的麦克风电路总成,其中所述麦克风信号样本的所述第一动态范围小于72dB,优选小于66dB ; 所述动态范围被测量为信噪比加上所述麦克风信号样本的THD,信号取值为相对于所述麦克风前置放大器的AC短路输入端子的麦克风信号样本的A计权噪音电平的IkHz满标度麦克风输入信号。5.根据权利要求4所述的麦克风电路总成,其中所述数字麦克风信号的所述第二动态范围大于82dB。6.根据权利要求3所述的麦克风电路总成,其中所述模拟-数字转换器被配置为以8至16kHz的采样速率生成所述麦克风信号样本。7.根据权利要求3所述的麦克风电路总成,其中由所述模拟-数字转换器生成的所述麦克风信号样本的所述第二预定采样速率等于或大于32kHz。8.根据权利要求3所述的麦克风电路总成,其中所述控制器进一步被配置为: 从所述麦克风前置放大器和所述模拟-数字转换器的所述第一功率模式切换至所述第二功率模式以响应识别出的目标词或短语, 通过所述数据通信接口传输麦克风信号样本以响应所述识别出的目标词或短语。9.根据权利要求3所述的麦克风电路总成,包括: 配置寄存器,其包括控制{所述麦克风前置放大器、所述模拟-数字转换器、所述语音特征提取器}中的至少一个的可编程设置的参数值;所述控制器被配置为用于通过所述数据通信接口接收包括所述参数值的配置数据。10.根据权利要求9所述的麦克风电路总成,其中所述控制器被配置为: 读取所述配置数据, 提取并选择与所述麦克风前置放大器和所述模拟-数字转换器中的一个的所述可编程设置相关的参数值, 将一个或多个参数值写入所述配置寄存器的各个地址以选择所述第一功率模式和所述第二功率模式中的一个。11.根据权利要求9所述的麦克风电路总成,其中所述控制器被配置为: 读取所述配置数据, 选择与所述语音特征提取器的所述可编程设置相关的参数值, 将参数值写入所述配置寄存器以选择所述语音特征提取器的所述可编程设置。12.根据权 利要求2所述的麦克风电路总成,包括: 圆形语音数据缓冲器,其用于存储表示所述麦克风信号样本的预定时间段的连续语音片段。13.根据...

【专利技术属性】
技术研发人员:M·莫尔滕森
申请(专利权)人:亚德诺半导体股份有限公司
类型:发明
国别省市:丹麦;DK

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1