上下文相关的汉语语音识别建模方法技术

技术编号:3046269 阅读:239 留言:0更新日期:2012-04-11 18:40
一种上下文相关的汉语语音识别建模方法,基于汉语的语言特点,采用声母右相关和韵母左相关的建模方法,包括步骤:(a)将汉语语音的声母与紧邻其右侧的韵母相关,而韵母与紧邻其左侧的声母相关,创建上下文相关的基本建模单元;(b)利用状态聚类法对模型的参数进行训练,以得到初始隐马尔可夫模型(HMM);(c)利用子空间聚类算法对初始隐马尔可夫模型进行压缩,以产生最终模型。

【技术实现步骤摘要】

本专利技术涉及一种语音识别建模方法,特别是能够应用于嵌入式设备的上下文相关的汉语声学建模方法。
技术介绍
语音识别技术是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术与语音合成技术相结合可以使人们能够甩掉键盘,通过语音命令进行操作,与机器进行语音交流。近二十年来,随着计算机技术的飞速发展,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。但是,在现阶段,在语音识别技术走向实际应用的过程中,还存在着计算机的计算能力、存储能力和语音识别系统识别率之间的矛盾。怎样在内存有限的嵌入式设备上进行高精度的声学建模是关系到语音识别系统实用化的一个关键性技术问题。中国专利公开CN1264468A揭示了一种将语音输入变换成文字的计算机执行的听写系统。该系统利用文字到语音的结构产生一个给定单词的口语译文,并且这个给定单词口语译文在声音设备上输出,以便语音识别系统的用户知道该语音识别期望一个给定单词将如何发音。中国专利公开CN1288225A揭示了一种语音识别系统和语音识别控制方法。该专利技术的技术方案是在预记录的语音识别表中预先存储作为期望值的操作者的语音。当任意未寄存的端子电子设备连接到控制装置时,控制装置寄存电子设备提供的语音识别表,并在操作者输入语音时,由控制装置把操作者的语音与预寄存的电子设备的语音识别表比较,然后根据操作者的语音与语音识别表的比较结果来控制电子设备的输入/输出。中国专利公开CN1264468A中所揭示的语音识别系统中采用上下文相关的音素建模方法,这样建立的声学模型虽然具有较高的精度,但是模型的体积比较大,很难直接装入到嵌入式设备的内存中,难以满足嵌入式设备的实际应用需要。上述公开专利中存在的问题在于其所需的内存较大,不适合于在嵌入式设备中使用。
技术实现思路
本专利技术结合汉语的特点,提出一种基于状态聚类的声母右相关、韵母左相关的上下文相关音素建模方法。使用该建模方法训练出来的声学模型具有较高的模型精度和较小的模型体积,特别适于一些内存较小的嵌入式设备的使用场合。为了进一步压缩声学模型的体积,同时尽量避免损失模型的精度,以保证语音识别系统在嵌入式设备中的性能,本专利技术采用子空间聚类算法对声学模型进行压缩。在基本不损失语音识别系统性能的前提下,本方法能够把语音识别系统的声学模型压缩到原有模型大小的1/10~1/5。本专利技术的目的是提供一种适用于嵌入式设备的上下文相关的汉语声学建模方法,该方法在初始模型训练过程中能够使所有训练样本的似然概率损失最小,在模型的压缩过程中不需要任何训练语料的参与,由此可以方便快捷实现模型规模的缩减,并保证模型的精度没有大的损失。本专利技术提供了一种适用于嵌入式设备的上下文相关的汉语声学建模方法,包括步骤(a)将汉语语音的声母与紧邻其右侧的韵母相关,而韵母与紧邻其左侧的声母相关,创建上下文相关的基本建模单元;(b)利用状态聚类法对模型的参数进行训练,以得到初始隐马尔可夫(HMM)模型;和(c)利用子空间聚类算法对初始隐马尔可夫模型进行压缩,以产生最终模型。另一方面,本专利技术可以提供一种计算机可读记录介质,用于存储执行的程序,(a)将汉语语音的声母与紧邻其右侧的韵母相关,而韵母与紧邻其左侧的声母相关,创建上下文相关的基本建模单元;(b)利用状态聚类法对模型的参数进行训练,以得到初始隐马尔可夫(HMM)模型;和(c)利用子空间聚类算法对初始隐马尔可夫模型进行压缩,以产生最终模型。本专利技术主要是针对汉语发音的特点,提出一种声母右相关、韵母左相关的半音节Diphone建模方法;以所有训练样本的似然概率损失最小为目标,采用状态聚类的方法进行Diphone模型的状态输出分布的共享和模型参数的训练;采用子空间聚类算法进行声学模型压缩。针对模型压缩这种应用的特殊需要,首先采用LBG算法的对原始高斯模型进行聚类以生成初始的高斯码本,然后采用K-Means聚类算法对高斯码本进行优化,生成最终的高斯码本。此方法的主要优点是在模型的压缩过程中不需要任何训练语料的参与。附图说明通过参考附图阅读说明书将使本专利技术的特征和优点变得更加清楚,其中图1是根据本专利技术实施例的汉语声学建模的模型训练的流程图;图2是表示常用的隐马尔可夫的拓扑结构;图3是根据本专利技术实施例的基于状态聚类的输出分布共享算法流程图;图4是表示隐马尔可夫状态聚类输出分布共享示意图;和图5是表示根据本专利技术的基于子空间聚类的模型压缩流程图。具体实施例方式下面首先说明语音识别的基本原理。语音识别包括两个基本过程,即训练过程和识别过程。训练过程的主要任务是利用大量语音训练样本,建立声学模型,用于描述声学层知识。在复杂的识别系统中,还需要利用大量的文本语料,训练语言模型,用于描述语言层知识。在识别过程中,利用训练过程中得到的声学模型和语言模型,对待测语音样本进行解码,将其识别为文本。本专利描述的技术创新主要集中于训练阶段的声学模型训练过程。汉语作为一种语言,有自身独特的语言特点,利用这些特点进行声学模型建模,可以在减少模型体积的同时,最大限度地提高模型的性能。下面把汉语和常见的西方语言英语作一个比较。最显著的区别在于,汉语是一种象形文字,而英语是一种拼音文字。英语中的最小的语言单位是词,词可以被不停的创造,词的数目也在不停的变化中。每当出现一个新事物或新概念的时候,通常都需要重新创造出一个新词来描述它。在发音方面,英语每个词的发音是由一定数量的音节相互连接构成了整个词的发音,不同音节之间的耦合作用很强。而汉语的最小构成单位是字,这些字可以单独或彼此联合构成词,来描述不同的事物和概念。可见,“字”是汉语最基本也是相对独立的构成单元,这种“字”的概念是英文中没有的。在发音方面,汉语中每个字都是一个独立的音节,每个音节由一个声母后接一个韵母组成。所有汉字的发音组成408个不同的音节。由于汉语在构词时,字是相对独立的,因此其发音的音节之间的独立性也相对较强。本专利技术正是利用汉语的音节间的相对独立性来进行高精度的声学特征建模的。图1是表示声学模型训练过程的概括流程图。首先,在步骤S11,选择基本的建模单元,并定义基本建模单元之间的上下文耦合关系。然后,在步骤S12利用状态聚类的方法,利用语音训练数据,对隐马尔可夫模型的参数进行训练,得到初始的HMM。接下来,在步骤S13利用子空间聚类算法对初始模型进行压缩,并得到最终的模型。下面参考附图1,对所示流程图中的各个步骤的细节进行具体描述。1.选择基本的建模单元在开始训练声学模型之前,必须首先定义基本的建模单元,也就是确定每个模型描述的粒度。语音识别中基本建模单元可以有多种选择,比如音素、半音节、音节或者词等都可以作为基本建模单元。如前所述,汉语的每个字都是一个音节,每个音节由声母和韵母两个部分组成,因此汉语语音识别系统大多以声韵母为基本的建模单元,称作半音节建模。我们同样选择声韵母为基本的建模单元,其中声母有27个,韵母有38个,另外还有一个静音。2.定义基本建模单元之间的上下文相关性所谓“上下文相关”是指,在连续发音时,每个基本单元的发音不仅取决于其本身读音,还和这个单元所处的语境有关,简本文档来自技高网
...

【技术保护点】
一种汉语语音识别建模方法,包括步骤:(a)将汉语语音的声母与紧邻其右侧的韵母相关,而韵母与紧邻其左侧的声母相关,创建上下文相关的基本建模单元;(b)利用状态聚类法对模型的参数进行训练,以得到初始隐马尔可夫(HMM)模型;和(c)利用子空间聚类算法对初始隐马尔可夫模型进行压缩,以产生最终模型。

【技术特征摘要】
1.一种汉语语音识别建模方法,包括步骤(a)将汉语语音的声母与紧邻其右侧的韵母相关,而韵母与紧邻其左侧的声母相关,创建上下文相关的基本建模单元;(b)利用状态聚类法对模型的参数进行训练,以得到初始隐马尔可夫(HMM)模型;和(c)利用子空间聚类算法对初始隐马尔可夫模型进行压缩,以产生最终模型。2.根据权利要求1所述的其中所述的汉语语音识别建模方法,步骤(b)进一步包括步骤(b1)计算任何两个状态之间进行合并所造成的似然概率的损失;(b2)从步骤b1中计算过的所有可能的状态合并集合中寻找似然概率损失最小的两个状态类的合并;(b3)判断这两个状态类的样本数目是否大于一个固定的阈值;(b4)如果在步骤(b3)中判断样本数目大于一个固定的阈值,将此合并从上述合并的集合中删除;如果这两个状态类中至少有一个状态类的样本数目小于该固定的阈值,则将这两个状态类合并起来生成一个新的状态类,新的状态类的特征空间重新用两个混合的高斯混合模型进行描述;(b5)判断每个状态类的样本数目是否大于另一个固定的阈值,如果大于所述另一个固定阈值,则采用K-Means聚类算法对合并后的各状态输出分布的混合高斯模型进行参数估计;如果至少一个状态的样本数目不大于所述另一个固定阈值,则返回到步骤(b1)。3.根据权利要求2所述的汉语语音识别建模方法,其中所述混合高斯模型的高斯混合数可以被预先设定为一个固定的值,也可以动态确定。4.根据权利要求1所述的汉...

【专利技术属性】
技术研发人员:贾磊马龙
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1