与扬声器无关的语音识别装置制造方法及图纸

技术编号：3044226 阅读：179 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及与扬声器无关的语音识别装置，公开了一种在包括至少一个便携式电子设备和一个服务器的远程通信系统中为组成发音模型的语音识别中所需的方法。电子设备被安排成将用户的语音信息与包括声音单元并被存入电子设备的发音模型作比较。字符序列被从电子设备传送到服务器。在服务器中，字符序列被转换成声音单元序列。声音单元序列被从服务器传送到电子设备。（*该技术在2022年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及在远程通信系统中与扬声器无关的语音识别，尤其是涉及用于语音识别的发音模型化。技术背景近年来已经开发了不同的语音识别应用，例如，用于汽车的用户接口和移动站等。用于移动站的已知方法包括通过对移动站的话筒大声地说出他的/她的名字并建立对依据用户所说的名字号码的呼叫来呼叫一个特定人的方法。然而，为了识别每个名字的发音，本方法通常需要对网络中的移动站或系统进行培训。与扬声器无关的语音识别改进了语音控制的用户接口的可用性，因为可以省略这个培训阶段。在扬声器无关的名字选择中，可以对联系信息中的名字的发音模型化，寸以将由用户说出的名字与所规定的发音模型，如一种音素序列，作比较。多种与扬声器无关的语音识别方法是已知的，由此可以实现发音的模型化。例如，为此目的可以使用音素词汇。基于音素词汇的一种方法公开在WO 9 926 232中。然而，音素词汇的规模是如此之大，以致目前移动站的存储器容量是不够的。其它的问题是由在词汇中未找到的名字和字引起的。不同的统计方法，如神经网络和判定树，使较少的存储器花费成为可能。虽然利用判定树比利用需要较少存储器空间的神经网络可以达到更精确的结果，但两种方法都是有丟失的。这样就降低了模型的精度，也就使语音识别精度的性能下降。因此，关于精度和存储器的花费必须要作折衷。尽管有高的压缩度，判定树和神经网络的存储器要求仍然是相当高的。典型情况下，一种基于判定树的模型系统对每种模型化的语言需要大约100至250KB的存储器，当实施移动站时，这可能是太多了。另一种可选方案是发送由用户的语音组成的声频信...

【技术保护点】
一种在电信系统中为语音识别形成发音模型的方法，所述电信系统包括至少一个便携式电子设备和服务器，所述方法包括：　在服务器中接收来自电子设备（２０２，２０３；３０３，３０４）的字符序列；　在服务器中将字符序列转换（２０５；３０５）为至少一个声音单元序列；和　将至少一个声音单元序列从服务器转送（２０６；３０６）到电子设备，其特征在于，所述声音单元序列是文本格式的音素序列，　在服务器的语言选择器中确定字符序列的语言，其中，借助字符特定的决策树来确定所述语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，和　根据在语言选择器中确定的语言，在服务器中将字符序列转换为文本格式的至少一个音素序列。

【技术特征摘要】
FI 2001-4-17 200107921.一种在电信系统中为语音识别形成发音模型的方法，所述电信系统包括至少一个便携式电子设备和服务器，所述方法包括在服务器中接收来自电子设备(202，203；303，304)的字符序列；在服务器中将字符序列转换(205；305)为至少一个声音单元序列；和将至少一个声音单元序列从服务器转送(206；306)到电子设备，其特征在于，所述声音单元序列是文本格式的音素序列，在服务器的语言选择器中确定字符序列的语言，其中，借助字符特定的决策树来确定所述语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，和根据在语言选择器中确定的语言，在服务器中将字符序列转换为文本格式的至少一个音素序列。2. 如权利要求l所述的方法，其特征在于根据接收到的字符序列，在服务器中搜索与字符序列相关的信息，例如，电话号码；和除了向电子设备发送所述信息之外，还发送声音单元序列。3. 如权利要求2所述的方法，其特征在于服务器利用接收到的字符序列作为搜索标签来执行数据库搜索。4. 如前述权利要求中任何一项所述的方法，其特征在于所述电子设备是移动站，并且通过经由移动网接发消息来安排在服务器和电子设备之间的数据传输。5. '—种电信系统，包括至少一个电子设备和服务器，其中电子设备被安排为将用户的语音信息与存储在电子设备中的声音单元序列进行比较(209; 309 ),电子设备被安排为向服务器发送(202; 303)旨在语音识别的字符序列；服务器被安排为将字符序列转换(205; 305)为至少一个声音单元序列；并且服务器被安排为向电子设备发送(206; 306)至少一个声音单元序列，其特征在于，所述声音单元序列是文本格式的音素序列，电子设备或服务器中的语言选择器被安排为确定字符序列的语言，语言选择器被安排为借助字符特定的决策树来确定所述语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，并且服务器被安排为根据在语言选择器中确定的语言将字符序列转换为文本格式的至少一个音素序列。6. —种电子设备，包括用于比较(209; 309 )语音信息与声音单元序列的装置；用于向服务器发送(202; 303 )旨在语音识别的字符序列的装置；用于从服务器接收由字符序列形成的声音单元序列的装置；和用于存储(207; 307 )声音单元序列的装置，其特征在于，所述声音单元序列是文本格式的音素序列，所述电子设备包括用于确定字符序列的语言的语言选择器，语言选择器被安排为借助字符特定的决策树来确定语言，所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率，并且用于发送(202; 203 )字符序列的装置被进一步安排为向服务器发送与由语言选择器所确定的字符序列的语言有关的信息。7. 如权利要求6所述的电子设备，其特征在于，所述电子设备还包括用于把从服务器接收到的声音单元序列与存储在电子设备的存储器中的字符序列或其标签相关联(207; 307 )的装置；用于基本上根据用户的语音信息来选择(210; 310)声音单元序列并且进一步根据所述声音单元序列选择字符序列的装置；和用于根据所述字符序列来激活服务的装置。8. 如权利要求6所述的电子设备，其特征在于电子设备被安排为在音频合成器中形成(401)声音单元序列的音频模型；电子设备被安排为在电子设备中存储(402 )音频模型，将所述音频模型与字符序列或其标签相关联；和电子设备被安排...

【专利技术属性】
技术研发人员：O维基，K劳里拉，
申请(专利权)人：诺基亚有限公司，
类型：发明
国别省市：FI[芬兰]

全部详细技术资料下载我是这个专利的主人