用于识别连续和分立语音的语音识别系统技术方案

技术编号：3047473 阅读：197 留言：0更新日期：2012-04-11 18:40

通过接收表示多个离散地说出的训练字的分立语音训练数据（步骤９８），以及接收表示多个连续地说出的训练字的连续语音训练数据（步骤８６）而执行语音识别。多个语音单元模型是根据分立语音训练数据和连续语音训练数据而训练的。语音是根据被训练的语音单元而识别的。（*该技术在2018年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机语音识别。更具体来说，本专利技术涉及一种识别连续和分立语音的方法。当前最成功的语音识别系统采用称为隐藏的马尔可夫模型(HMM)的概率模型。隐藏的马尔可夫模型包括多个状态，其中转移概率是为从每个状态转移到另一个状态而确定的，包括转移到相同的状态。一个观测被随机地与每个唯一的状态相关联。状态之间的转移概率(一个观测将从一个状态转变为另一个状态的概率)并不都是相同的。因此，给定状态之间的转移概率和观测概率，采用象维特比算法这样的搜索技术，以确定整体概率为最大值的最相似的状态序列。在当前语音识别系统中，语音已经被看作为通过隐藏的马尔可夫过程而产生。因此，HMM被用于模拟语音波谱的观测序列，其中特定波谱被随机地与在一个HMM中的状态相关联。换句话说，对于给定的语音波谱的观测序列，在此有一个相应HMM中的最相似序列。因此，该相应的HMM与观测的序列相关联，该技术可以被扩展，使得如果每个在HMM中的状态的独特序列与一个子字单元相关联，该单元例如一个音素，则可以找到子字单元的最相似序列。另外，利用结合子字单元以形成字的模型，然后利用结合字以形成句子的模型，则可以实现完整的语音识别。当实际处理声音信号时，信号一般在称为帧的连续时间间隔中采样。该帧一般包括多个样本，并且可以重叠或相邻。每个帧与该语音信号的一个唯一部分相关联。由每个帧所表示的该语音信号的部分被分析以提供一个相应的声音矢量。在语音识别过程中，执行语音单元模型的搜索以确定最可能与声音矢量的序列相关的状态序列。为了查找对应于声音矢量序列的最相拟的状态序列，可以采用维特比算法。维特比算法执行一...

【技术保护点】
一种实现语音识别系统的方法，包括：接收表示多个离散地读出的训练字的分立语音训练数据；接收表示多个连续地读出的训练字的连续语音训练数据；提供根据分立语音训练数据和连续语音训练数据训练的多个语音单元模型；以及提供一个根据训练的语音单元模型识别语音的识别器。

【技术特征摘要】
US 1997-9-19 08/934,6221．一种实现语音识别系统的方法，包括接收表示多个离散地读出的训练字的分立语音训练数据；接收表示多个连续地读出的训练字的连续语音训练数据；提供根据分立语音训练数据和连续语音训练数据训练的多个语音单元模型；以及提供一个根据训练的语音单元模型识别语音的识别器。2．根据权利要求1所述的方法，其特征在于，接收分立语音训练数据包括接收第一组声音信号，其中接收连续语音训练数据包括接收第二组声音信号，并且其中提供多个语音单元模型包括根据第一和第二组声音信号开发多个声学模型。3．根据权利要求2所述的方法，其特征在于，开发多个声学模型包括根据第一和第二组语音信号，开发表示在连续和分立语音训练数据中的音素的多个输出概率分布。4．根据权利要求1所述的方法，其特征在于，接收分立语音训练数据包括接收包括与多个离散地读出的训练字相关的静音上下文信息的分立语音数据。5．根据权利要求4所述的方法，其特征在于，接收分立语音数据包括接收表示用户离散地读出多个训练字的分立语音数据，在多个训练字的每一个之间具有停顿。6．根据权利要求1所述的方法，其特征在于，接收连续语音训练数据包括接收表示用户流畅读出多个训练字的连续语音数据。7．根据权利要求1所述的方法，其中还包括在训练语音单元模型之前，根据要被识别的所希望语音对连续语音训练数据和分立语音训练数据加权。8．根据权利要求1所述的方法，其中还包括接收表示用户用不同方式读出多个训练字的其它语音训练数据。9．根据权利要求8所述的方法，其特征在于，接收其它语音训练数据包括接收表示用户以第一幅度和第二幅度读出多个训练字的其它语音训练数据，该第二幅度大于第一幅度。10．根据权利要求8所述的方法，其特征在于，接收其它语音训练数据包括接收表示用户以第一速度和第二速度流利读出多个训练字的其它语音训练数据，该第二速度比第一速度更快。11．根据权利要求3所述的方法，其特征在于，提供多个语音单元模型，还包括把每个输出分布与形成一个训练字的至少一部分的音素中的预定数目的状态中的一个相关联。12．根据权利要求11所述的方法，其中还包括对于每个音素，从所有包含所选音素的训练字中分组出与一个所选音素相关的输出分布，以形成一个输出分布组；以及对于每个音素中的每个状态，通过根据与所选音素相关联的语言环境信息把与在输出分布组中的所选状态相关联的输出分布分为句音素，而为所选音素中的所选状态产生一个句音素树。13．根据权利要求12所述的方法，其特征在于，提供一个用于识别语音的识别器，包括配置该语音识别器，以执行如下步骤接收对于要被识别的目标字中的每个连续目标音素的每个连续状态的输出分布；对于每个目标音素，识别作为目标音素的最近似表示的多个相似音素；把与相似音素状态相关的句音素与相关于目标音素的相应状态的输出分布相比较；以及识别具有最接近匹配目标音素的输出分布的句音素的最相似音素。14．根据权利要求13所述的方法，其特征在于，该比较包括根据目标音素的语言环境信息，遍历与在每个相似音素中的每个状态相关的句音素树，以对目标音素中的每个状态识别一个句音素；以及把相关于在目标音素中的状态的输出分布与相关于在相似音素中的所识别句音素的输出分布相比较。15．根据权利要求13所述的方法，其特征在于，识别多个相似音素包括根据分立语音训练数据和连续语音训练数据，形成多个单音素模型，表示训练字中的音素；把相关于目标...

【专利技术属性】
技术研发人员：学东D黄，菲莱诺A阿莱瓦，江丽，黄梅玉，
申请(专利权)人：微软公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人