基于传感器的语音识别器选择、自适应和组合制造技术

技术编号：3046050 阅读：152 留言：0更新日期：2012-04-11 18:40

一种操作语音识别系统的方法，其中程序控制的识别器（１）执行下述步骤：　　　　把语音信号分成多帧，并计算每帧的任意类型的特征向量，　　　　用字符或字符组标记所述帧，每个音素产生多个标记，　　　　根据预定的声学模型对所述标记解码，构成一个或多个单词或者一个单词的多个片段，　　　　在所述方法中，多个识别器是可访问的，以便被激活进行语音识别，并且被组合以平衡由单个语音识别器进行的语音识别的结果，其特征在于下述步骤：　　　　ａ）用传感器装置（５）收集（２１０、２２０、２３０、２４０）表征语音识别边界条件的选择基础数据，　　　　ｂ）利用（２６０）程序控制的判优装置（６）评估收集的数据，　　　　ｃ）根据所述评估，从多个可用的识别器中选择（２９０）最适合的识别器或其组合。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及计算机化语音识别的领域。
技术介绍
特别地，本专利技术涉及操作大词汇量语音识别系统的方法，其中程控识别器执行下述步骤1.把语音信号分解成长度不必相等的短的时间间隔，即帧，得到每帧的抽取的特征向量，例如包括谱系数，2.用字符或字符组标记帧，每帧产生多个标记，3.对所述标记解码，从而构成一个或多个单词或者一个单词的多个片段，4.在该方法中，多个识别器是可访问的，以便被激活进行语音识别，并且所述多个识别器基于请求被组合，以便改进单个识别器的语音识别结果。更特别地，上述这种连续语音识别器通过把依赖于上下文的子字单元，比如音子或三音子模拟成基本的隐马可夫模型(也称为“HMM”)，捕捉语声的许多变化。这些模型的统计参数一般由数百小时的被标记训练数据估计得到。虽然如果训练数据与应用场景的声学特性充分相符，那么这提供高的识别精度，但是可以看出如果语音识别器不得不应付具有显著不同，并且可能高度动态变化的特性的声学环境，那么识别准确性显著降低。在线和(无)监督的批次自适应技术通过重新估计声学模型参数解决该问题，但是如果只存在很少量的数据和/或计算资源稀少，那么它们都是不可行的，或者-在批次自适应的情况下-不能正确地处理声学环境中的动态变化。目前的大词汇量连续语音识别器采用隐马可夫模型(HiddenMarkov Models(HMM))来根据语音信号，计算具有最大后验概率的单词序列w。隐马可夫模型是处理状态的有限集S＝{S1，...，SN}，并且为状态被占用的每个时间t(t＝1，2，...，T)的输出的观察创造条件的随机自动机A＝(π，A，B)。初始状态向量π...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种操作语音识别系统的方法，其中程序控制的识别器(1)执行下述步骤把语音信号分成多帧，并计算每帧的任意类型的特征向量，用字符或字符组标记所述帧，每个音素产生多个标记，根据预定的声学模型对所述标记解码，构成一个或多个单词或者一个单词的多个片段，在所述方法中，多个识别器是可访问的，以便被激活进行语音识别，并且被组合以平衡由单个语音识别器进行的语音识别的结果，其特征在于下述步骤a)用传感器装置(5)收集(210、220、230、240)表征语音识别边界条件的选择基础数据，b)利用(260)程序控制的判优装置(6)评估收集的数据，c)根据所述评估，从多个可用的识别器中选择(290)最适合的识别器或其组合。2.按照权利要求1所述的方法，其中所述传感器装置(5)是下述一个或多个判定逻辑，包括软件程序，物理传感器或者它们的组合。3.按照权利要求1所述的方法，还包括下述步骤a)在实现下述一个或多个的判定逻辑中处理(260)物理传感器(5)输出统计检验，...

【专利技术属性】
技术研发人员：沃尔克·菲舍尔，谢格弗里德·昆兹曼，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人