【技术实现步骤摘要】
本专利技术涉及在远程通信系统中与扬声器无关的语音识别,尤其是 涉及用于语音识别的发音模型化。技术背景近年来已经开发了不同的语音识别应用,例如,用于汽车的用户 接口和移动站等。用于移动站的已知方法包括通过对移动站的话筒大声地说出他的/她的名字并建立对依据用户所说的名字号码的呼叫来 呼叫一个特定人的方法。然而,为了识别每个名字的发音,本方法通 常需要对网络中的移动站或系统进行培训。与扬声器无关的语音识别 改进了语音控制的用户接口的可用性,因为可以省略这个培训阶段。 在扬声器无关的名字选择中,可以对联系信息中的名字的发音模型 化,寸以将由用户说出的名字与所规定的发音模型,如一种音素序列, 作比较。多种与扬声器无关的语音识别方法是已知的,由此可以实现发音 的模型化。例如,为此目的可以使用音素词汇。基于音素词汇的一种 方法公开在WO 9 926 232中。然而,音素词汇的规模是如此之大, 以致目前移动站的存储器容量是不够的。其它的问题是由在词汇中未 找到的名字和字引起的。不同的统计方法,如神经网络和判定树,使 较少的存储器花费成为可能。虽然利用判定树比利用需要较少存储器 空间的神经网络可以达到更精确的结果,但两种方法都是有丟失的。 这样就降低了模型的精度,也就使语音识别精度的性能下降。因此, 关于精度和存储器的花费必须要作折衷。尽管有高的压缩度,判定树 和神经网络的存储器要求仍然是相当高的。典型情况下, 一种基于判 定树的模型系统对每种模型化的语言需要大约100至250KB的存储 器,当实施移动站时,这可能是太多了。另一种可选方案是发送由用户的语音组成的声频信 ...
【技术保护点】
一种在电信系统中为语音识别形成发音模型的方法,所述电信系统包括至少一个便携式电子设备和服务器,所述方法包括: 在服务器中接收来自电子设备(202,203;303,304)的字符序列; 在服务器中将字符序列转换(205;305)为至少一个声音单元序列;和 将至少一个声音单元序列从服务器转送(206;306)到电子设备,其特征在于,所述声音单元序列是文本格式的音素序列, 在服务器的语言选择器中确定字符序列的语言,其中,借助字符特定的决策树来确定所述语言,所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率,和 根据在语言选择器中确定的语言,在服务器中将字符序列转换为文本格式的至少一个音素序列。
【技术特征摘要】
FI 2001-4-17 200107921.一种在电信系统中为语音识别形成发音模型的方法,所述电信系统包括至少一个便携式电子设备和服务器,所述方法包括在服务器中接收来自电子设备(202,203;303,304)的字符序列;在服务器中将字符序列转换(205;305)为至少一个声音单元序列;和将至少一个声音单元序列从服务器转送(206;306)到电子设备,其特征在于,所述声音单元序列是文本格式的音素序列,在服务器的语言选择器中确定字符序列的语言,其中,借助字符特定的决策树来确定所述语言,所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率,和根据在语言选择器中确定的语言,在服务器中将字符序列转换为文本格式的至少一个音素序列。2. 如权利要求l所述的方法,其特征在于根据接收到的字符序列,在服务器中搜索与字符序列相关的信 息,例如,电话号码;和除了向电子设备发送所述信息之外,还发送声音单元序列。3. 如权利要求2所述的方法,其特征在于服务器利用接收到的字符序列作为搜索标签来执行数据库搜索。4. 如前述权利要求中任何一项所述的方法,其特征在于所述电子设备是移动站,并且通过经由移动网接发消息来安排在 服务器和电子设备之间的数据传输。5. '—种电信系统,包括至少一个电子设备和服务器,其中电子 设备被安排为将用户的语音信息与存储在电子设备中的声音单元序 列进行比较(209; 309 ),电子设备被安排为向服务器发送(202; 303)旨在语音识别的字符序列;服务器被安排为将字符序列转换(205; 305)为至少一个声音单元 序列;并且服务器被安排为向电子设备发送(206; 306)至少一个声音单元序列,其特征在于,所述声音单元序列是文本格式的音素序列,电子设备或服务器中的语言选择器被安排为确定字符序列的语 言,语言选择器被安排为借助字符特定的决策树来确定所述语言,所 述字符特定的决策树根据每个字符的字符环境来表示至少一种语言 的概率,并且服务器被安排为根据在语言选择器中确定的语言将字符序列转 换为文本格式的至少一个音素序列。6. —种电子设备,包括用于比较(209; 309 )语音信息与声音单元序列的装置; 用于向服务器发送(202; 303 )旨在语音识别的字符序列的装置; 用于从服务器接收由字符序列形成的声音单元序列的装置;和 用于存储(207; 307 )声音单元序列的装置, 其特征在于,所述声音单元序列是文本格式的音素序列, 所述电子设备包括用于确定字符序列的语言的语言选择器,语言 选择器被安排为借助字符特定的决策树来确定语言,所述字符特定的 决策树根据每个字符的字符环境来表示至少一种语言的概率,并且用于发送(202; 203 )字符序列的装置被进一步安排为向服务器 发送与由语言选择器所确定的字符序列的语言有关的信息。7. 如权利要求6所述的电子设备,其特征在于,所述电子设备 还包括用于把从服务器接收到的声音单元序列与存储在电子设备的存 储器中的字符序列或其标签相关联(207; 307 )的装置;用于基本上根据用户的语音信息来选择(210; 310)声音单元序 列并且进一步根据所述声音单元序列选择字符序列的装置;和用于根据所述字符序列来激活服务的装置。8. 如权利要求6所述的电子设备,其特征在于 电子设备被安排为在音频合成器中形成(401)声音单元序列的音频模型;电子设备被安排为在电子设备中存储(402 )音频模型,将所述 音频模型与字符序列或其标签相关联;和电子设备被安排...
【专利技术属性】
技术研发人员:O维基,K劳里拉,
申请(专利权)人:诺基亚有限公司,
类型:发明
国别省市:FI[芬兰]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。