语音识别装置与语音识别方法制造方法及图纸

技术编号：3046979 阅读：150 留言：0更新日期：2012-04-11 18:40

用性别特定的两种隐藏的马尔可夫模型来表示待识别的每一个单词，并且事先设定在性别特定的隐藏的马尔可夫模型之中的各输出概率函数以及各转移概率都被事先存储在ＲＯＭ（６）之中。参照由特征值检测器（３）检出的各项特征参数，并参照隐藏的马尔可夫模型，语音识别器（４）确定一个特征参数序列的出现概率。在确定出现概率的过程中，语音识别器（４）向每一个单词给出性别特定的各隐藏的马尔可夫模型所共用的一种隐藏的马尔可夫模型的一个状态序列，将存储在ＲＯＭ（６）之中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选出最大的乘积作为共用的隐藏的马尔可夫模型的每一种状态的概率，基于已选出的乘积来确定出现概率，并基于这样确定的出现概率来识别输入的语音。（*该技术在2021年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及使用隐藏的马尔可夫模型(HMM)的。具体地说，即使语音特性随着讲者的年龄和性别发生改变，或者对单一词汇项存在不止一种发音方法(例如，以口语方式来表达时)，本专利技术都能以高精度来识别包含在词汇表中的各个单词的发音，并降低对存储的需求。
技术介绍
一般地说，用于识别非特定用户所共用的固定单词的技术被称为与讲者无关的语音识别。在与讲者无关的语音识别中，关于非特定用户所共用的固定单词的各项特征参数的信息被积累在一个存储单元，例如一个ROM之中。用于将语音样本转换为特征参数序列的已知方法包括倒频谱分析以及线性预测分析。此外，使用各种隐藏的马尔可夫模型的各种方法通常被用来准备关于非特定用户所共用的固定单词的各项特征参数的信息(数据)，并将该信息与由输入语音转换过来的特征参数序列进行比较。在《用于语音和声音信息的数字信号处理》(作者Shokodo有限公司的Kiyohiro Shikano，Tetsu Nakamura和Shiro Ise)一书中，详细描述了借助于隐藏的马尔可夫模型来进行与讲者无关的语音识别技术。例如，在日本语的情况下，在《用于语音和声音信息的数字信号处理》第二章中所描述的音素集被用来作为一个语音单元，并且使用一种隐藏的马尔可夫模型为每一个音素建模。图6表示音素集标记的列表。例如，可以使用各讲者共用的各音素标记的一个网络(固定单词标记的序列)来给单词“Hokkaido”建模。若提供了如图7(A)所示的固定单词标记序列以及如图7(B)所示的基于相应的隐藏的马尔可夫模型的音素模型数据，则专业人士使用在《用于语音和声音信息的数字信号处理》第四...

【技术保护点】
一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，其特征在于，所述装置包括：检测装置，用于检测输入语音的各项特征参数；识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种预定类型的隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量，所述多种隐藏的马尔可夫模型表示多个预定的单词中的每一个；以及识别装置，它参照由所述检测装置所检出的各项特征参数，并参照所述多种隐藏的马尔可夫模型，确定所述各项特征参数的序列的出现概率，所述识别装置在确定所述出现概率的过程中，向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列，该状态序列对所述多种类型的隐藏的马尔可夫模型来说是共用的，以及所述识别装置将存储在所述识别数据存储装置中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率，根据所选出的最大乘积来确定所述出现概率，然后根据这样确定的出现概率来识别输入的语音。

【技术特征摘要】
JP 2000-7-13 212115/001.一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，其特征在于，所述装置包括检测装置，用于检测输入语音的各项特征参数；识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种预定类型的隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量，所述多种隐藏的马尔可夫模型表示多个预定的单词中的每一个；以及识别装置，它参照由所述检测装置所检出的各项特征参数，并参照所述多种隐藏的马尔可夫模型，确定所述各项特征参数的序列的出现概率，所述识别装置在确定所述出现概率的过程中，向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列，该状态序列对所述多种类型的隐藏的马尔可夫模型来说是共用的，以及所述识别装置将存储在所述识别数据存储装置中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率，根据所选出的最大乘积来确定所述出现概率，然后根据这样确定的出现概率来识别输入的语音。2.根据权利要求1所述的语音识别装置，其特征在于，所述识别装置在所述多种类型的隐藏的马尔可夫模型中共享所述隐藏的马尔可夫模型的每一种状态的转移概率，以便确定所述出现概率。3.根据权利要求1或2所述的语音识别装置，其特征在于，所述多种预定类型的隐藏的马尔可夫模型包括下列各种模型中至少两种类型性别特定的各隐藏的马尔可夫模型，年龄特定的多种隐藏的马尔可夫模型，以及基于含有不同类型的噪声的的语音数据的多种隐藏的马尔可夫模型。4.一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，其特征在于，所述装置包括检测装置，用于检测输入语音的各项特征参数；识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量，这些隐藏的马尔可夫模型中的每一个都表示多个预定单词中的每一个，以及使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量；以及识别装置，它参照由所述检测装置所检出的各项特征参数，并参照所述多种隐藏的马尔可夫模型，确定所述特征参数的序列的出现概率，在确定所述出现概率的过程中，所述识别装置在用于部分表达的所述多个隐藏的马尔可夫模型中共享其中一个隐藏的马尔可夫模型的一个状态序列，以及所述识别装置将在所述用于部分表达的多个隐藏的马尔可夫模型中事先设定的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的...

【专利技术属性】
技术研发人员：宮崎敏幸，石川洋儿，
申请(专利权)人：旭化成株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人