与扬声器无关的语音识别装置制造方法及图纸

技术编号:3044226 阅读:179 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及与扬声器无关的语音识别装置,公开了一种在包括至少一个便携式电子设备和一个服务器的远程通信系统中为组成发音模型的语音识别中所需的方法。电子设备被安排成将用户的语音信息与包括声音单元并被存入电子设备的发音模型作比较。字符序列被从电子设备传送到服务器。在服务器中,字符序列被转换成声音单元序列。声音单元序列被从服务器传送到电子设备。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及在远程通信系统中与扬声器无关的语音识别,尤其是 涉及用于语音识别的发音模型化。技术背景近年来已经开发了不同的语音识别应用,例如,用于汽车的用户 接口和移动站等。用于移动站的已知方法包括通过对移动站的话筒大声地说出他的/她的名字并建立对依据用户所说的名字号码的呼叫来 呼叫一个特定人的方法。然而,为了识别每个名字的发音,本方法通 常需要对网络中的移动站或系统进行培训。与扬声器无关的语音识别 改进了语音控制的用户接口的可用性,因为可以省略这个培训阶段。 在扬声器无关的名字选择中,可以对联系信息中的名字的发音模型 化,寸以将由用户说出的名字与所规定的发音模型,如一种音素序列, 作比较。多种与扬声器无关的语音识别方法是已知的,由此可以实现发音 的模型化。例如,为此目的可以使用音素词汇。基于音素词汇的一种 方法公开在WO 9 926 232中。然而,音素词汇的规模是如此之大, 以致目前移动站的存储器容量是不够的。其它的问题是由在词汇中未 找到的名字和字引起的。不同的统计方法,如神经网络和判定树,使 较少的存储器花费成为可能。虽然利用判定树比利用需要较少存储器 空间的神经网络可以达到更精确的结果,但两种方法都是有丟失的。 这样就降低了模型的精度,也就使语音识别精度的性能下降。因此, 关于精度和存储器的花费必须要作折衷。尽管有高的压缩度,判定树 和神经网络的存储器要求仍然是相当高的。典型情况下, 一种基于判 定树的模型系统对每种模型化的语言需要大约100至250KB的存储 器,当实施移动站时,这可能是太多了。另一种可选方案是发送由用户的语音组成的声频信号到一个网络,并在网络中实现语音识别。在 网络中实现语音识别需要对一种服务建立连接,这将引起过分的延 时,并且无线电路径上的干扰降低后继工作的前景。 专利技术概述因此,本专利技术的一个目的是提供一种方法和实现该方法的设备, 使得精确的发音模型化成为可能并减轻以上的问题。本专利技术的目的是 利用其特征被描述在独立的权利要求中的方法,远程通信系统,电子 设备,月良务器,计算机程序产品和数据媒体实现的。本专利技术的优选实 施方案被公开在从属的权利要求中。本专利技术是基于这样的构思,即用于便携式电子设备的发音模型化 是在一种分离的服务器设备中实现的。因此,要将用于语音识别的字 符序列从一个电子设备发送到一个比电子设备拥有更多的可用的存 储器容量的服务器。字符序列在服务器中被变换成至少一种声音单元 序列。将该声音单元序列从该服务器发送到该电子设备以便在语音识 别中使用。任何包括远程通信装置的数据处理设备可起着该服务器的 作用,将该数据处理设备安排成实施对从一个或多个电子设备接收到 的字符序列变换成一种声音单元序列。字符序列是指字符的任何组 合。典型情况下,它是一种字母序列,但也可以是标点符号(例如逗 号或空格字符)。字符序列也可以由多数在亚洲人的语言中使用的象形字符组成。声音单元包括任何声音事件,例如20ms语音样本,音 节,音素或音素的部分。典型情况下,实现语音识别的设备将音素分 成三部分(开始,中间,结束),可以据此实施与语音信息的比较。 应该指出, 一个音素也可以是指一个音素群(在不同的语言中发音形 式可以相互非常接近)。因为服务器本来就比该电子设备拥有更多的可用的存储器容量, 在依据本专利技术的解决方案中,对发音模型化精度的折衷是不需要的。 因为没有存储器约束,也可以支持比在电子设备中实施的模型化更多 的语言。依据本专利技术的优选实施方案,将从电子设备接收到的字符序列用 作搜索与所述的序列有关的信息(例如电话号码)的基础。除了声音 单元序列以外,将该信息发送到电子设备。这对用户是有利的,因为 可以容易地提供与字符序列有关的附加信息用于电子设备中。依据本专利技术的另一种优选实施方案,在一种声音合成器中用声音 单元序列组成一个声音模型。将该声音模型存储在电子设备中,将它 与字符序列或它的标记相联系。至少作为对基本上对应于从字符序列 接收到的声音单元序列的用户语音命令的一种响应,对电子设备的用 户重复该声音模型。这样就改进了可用性,因为用户也接收与字符序 列有关的声音反馈。附图简述现在将参考附图,结合优选实施方案更详细地描述本专利技术,其中图la示出一种可以应用本专利技术的远程通信系统方框图;图lb示出一种电子设备和服务器的方框图;图2示出一种依据本专利技术的第一优选实施方案的方法的流程图;图3示出一种依据本专利技术的第二优选实施方案的方法的流程图;和图4示出一种依据本专利技术的实施方案的流程图,在其中组成一个声音模型。 专利技术详述本专利技术可应用到任何远程通信系统,该系统包括一个含有语音识 别应用的电子设备,和一个服务器,可以在它们之间传送数据。以下, 描述使用音素序列作为发音模型,然而,并没有将本专利技术局限于此。图la示出几个可以应用本专利技术的不同例子。 一个连到局域网LAN 的电子设备TE包括数据传输装置和控制数据传输的软件,以便与网 络LAN中的设备通信。TE可以包括一个无线局域网的网络接口卡,该 卡是基于IEEE. 11标准之一或基于BRAN (宽带无线电接入网)标准化 工程的标准。电子设备TE可被连到局域网LAN并进一步通过接入点 AP或通过因特网和防火墙连到服务器S。 TE也可以直接与服务器S通 信,例如,利用电缆,红外或一种在射频上起作用的数据传输解决方 案,如蓝牙发送接收机。如图la中所示,TE可以是任何实施语音识 别的便携式电子设备,例如,PDA设备,遥控器或耳机和话筒的组合。 TE可以是由计算机或移动站使用的一个辅助设备,在这种情况下,可 以安排通过计算机或移动站对服务器S数据传输。依据本专利技术的一种优选实施方案,TE是一个与公共陆地移动网 PLMN通信的移动站,在功能上服务器S也被,例如通过因特网连在其上。連到网PLMN的电子设备TE包括用于与网PLMN无线方式通信的 移动站功能。移动网PLMN可以是任何已知的无线网,例如,支持GSM 服务的网,支持GPRS(通用分组无线电服务)的网,或第三代移动网, 如依据3GPP (第三代合作项目)标准的UMTS (通用移动远程通信系 统)网。也可以在移动网PLMN中实现服务器S的功能。电子设备TE 可以是一个只供说话的移动电话,或者也可以包含PDA (个人数字助 手)功能。如图lb中所示,电子设备TE (在有线网LAN和无线网PLMN中) 和服务器S包括存储器MEM; SMEM,用户接口 UI; SUI, I/O装置I/O; 用于在S和TE之间直接地或通过网络(PLMN, LAN,因特网)安排数 据传输的SI/0,和中央处理单元CPU;包括一个或多个处理器的SCPU。 存储器MEM; SMEM包含一个非挥发性部分,用于存储控制中央处理单 元CPU; SCPU的应用程序;和一个用于数据处理的随机存取存储器。 最好通过在CPU中执行存储在存储器MEM中的计算机程序代码实现语 音识别方框SRB。服务器S最好通过在SCPU中执行存储在存储器SMEM 中的计算机程序代码提供文本到音素转换方框TPB。在中央处理单元 CPU和SCPU中执行的计算机程序代码使电子设备TE和服务器S实现 本专利技术的特征,某些实施方案被示于图2和3中。可以通过网络接收 计算机程序和本文档来自技高网...

【技术保护点】
一种在电信系统中为语音识别形成发音模型的方法,所述电信系统包括至少一个便携式电子设备和服务器,所述方法包括: 在服务器中接收来自电子设备(202,203;303,304)的字符序列; 在服务器中将字符序列转换(205;305)为至少一个声音单元序列;和 将至少一个声音单元序列从服务器转送(206;306)到电子设备,其特征在于,所述声音单元序列是文本格式的音素序列, 在服务器的语言选择器中确定字符序列的语言,其中,借助字符特定的决策树来确定所述语言,所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率,和 根据在语言选择器中确定的语言,在服务器中将字符序列转换为文本格式的至少一个音素序列。

【技术特征摘要】
FI 2001-4-17 200107921.一种在电信系统中为语音识别形成发音模型的方法,所述电信系统包括至少一个便携式电子设备和服务器,所述方法包括在服务器中接收来自电子设备(202,203;303,304)的字符序列;在服务器中将字符序列转换(205;305)为至少一个声音单元序列;和将至少一个声音单元序列从服务器转送(206;306)到电子设备,其特征在于,所述声音单元序列是文本格式的音素序列,在服务器的语言选择器中确定字符序列的语言,其中,借助字符特定的决策树来确定所述语言,所述字符特定的决策树根据每个字符的字符环境来表示至少一种语言的概率,和根据在语言选择器中确定的语言,在服务器中将字符序列转换为文本格式的至少一个音素序列。2. 如权利要求l所述的方法,其特征在于根据接收到的字符序列,在服务器中搜索与字符序列相关的信 息,例如,电话号码;和除了向电子设备发送所述信息之外,还发送声音单元序列。3. 如权利要求2所述的方法,其特征在于服务器利用接收到的字符序列作为搜索标签来执行数据库搜索。4. 如前述权利要求中任何一项所述的方法,其特征在于所述电子设备是移动站,并且通过经由移动网接发消息来安排在 服务器和电子设备之间的数据传输。5. '—种电信系统,包括至少一个电子设备和服务器,其中电子 设备被安排为将用户的语音信息与存储在电子设备中的声音单元序 列进行比较(209; 309 ),电子设备被安排为向服务器发送(202; 303)旨在语音识别的字符序列;服务器被安排为将字符序列转换(205; 305)为至少一个声音单元 序列;并且服务器被安排为向电子设备发送(206; 306)至少一个声音单元序列,其特征在于,所述声音单元序列是文本格式的音素序列,电子设备或服务器中的语言选择器被安排为确定字符序列的语 言,语言选择器被安排为借助字符特定的决策树来确定所述语言,所 述字符特定的决策树根据每个字符的字符环境来表示至少一种语言 的概率,并且服务器被安排为根据在语言选择器中确定的语言将字符序列转 换为文本格式的至少一个音素序列。6. —种电子设备,包括用于比较(209; 309 )语音信息与声音单元序列的装置; 用于向服务器发送(202; 303 )旨在语音识别的字符序列的装置; 用于从服务器接收由字符序列形成的声音单元序列的装置;和 用于存储(207; 307 )声音单元序列的装置, 其特征在于,所述声音单元序列是文本格式的音素序列, 所述电子设备包括用于确定字符序列的语言的语言选择器,语言 选择器被安排为借助字符特定的决策树来确定语言,所述字符特定的 决策树根据每个字符的字符环境来表示至少一种语言的概率,并且用于发送(202; 203 )字符序列的装置被进一步安排为向服务器 发送与由语言选择器所确定的字符序列的语言有关的信息。7. 如权利要求6所述的电子设备,其特征在于,所述电子设备 还包括用于把从服务器接收到的声音单元序列与存储在电子设备的存 储器中的字符序列或其标签相关联(207; 307 )的装置;用于基本上根据用户的语音信息来选择(210; 310)声音单元序 列并且进一步根据所述声音单元序列选择字符序列的装置;和用于根据所述字符序列来激活服务的装置。8. 如权利要求6所述的电子设备,其特征在于 电子设备被安排为在音频合成器中形成(401)声音单元序列的音频模型;电子设备被安排为在电子设备中存储(402 )音频模型,将所述 音频模型与字符序列或其标签相关联;和电子设备被安排...

【专利技术属性】
技术研发人员:O维基K劳里拉
申请(专利权)人:诺基亚有限公司
类型:发明
国别省市:FI[芬兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利