用于将包含文字的数据组转为语音的方法和装置制造方法及图纸

技术编号:10566499 阅读:134 留言:0更新日期:2014-10-22 17:25
本发明专利技术涉及一种用于将包含文本的数据组(2)语音化的方法和一种设置用于执行该方法的装置,其中,作为字素存在的数据组(2)被转换成音素,并且作为语音化的数据组(8)存储,其中,在预处理中为语音化准备字素,特别是通过按语言定义和/或按用户定义地修正字素的方式。设计的是,字素的预处理和字素到音素的转换在不同的计算单元(5,6)上或者计算单元(5,6)的不同部分上并行地进行。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术涉及一种用于将包含文本的数据组(2)语音化的方法和一种设置用于执行该方法的装置,其中,作为字素存在的数据组(2)被转换成音素,并且作为语音化的数据组(8)存储,其中,在预处理中为语音化准备字素,特别是通过按语言定义和/或按用户定义地修正字素的方式。设计的是,字素的预处理和字素到音素的转换在不同的计算单元(5,6)上或者计算单元(5,6)的不同部分上并行地进行。【专利说明】用于将包含文字的数据组转为语音的方法和装置
本专利技术涉及一种用于将包含文字的数据组转为语音的方法和装置,特别是不同的 内容,例如音乐标题、音乐表演者、音乐专辑或电话号码簿、联系人名称或者诸如此类,它们 在由语音控制的用户端口中被用于控制特定的流程,在这些流程中,使用者将包含这些内 容的语音指令转达给用户端口。本专利技术的一种优选的应用场合是机动车控制装置领域,特 别是机动车内的多媒体控制单元中,它们用于机动车内的信息、娱乐和/或通信,同时本发 明不局限于这一种优选的应用场合。这类控制单元特别是可以包含音乐播放和电话功能。
技术介绍
在根据本专利技术提出的方法中,作为字素、作为成串的单个的字素符号、特别是作为 字母串或者标准化的字母串存在的数据组被转化成音素,也就是成串的单个音素符号,并 且作为语音化的数据组存储起来,特别是存储在语音化的数据列表中。"音素"这个概念在 本文中特别是理解为成串的多个单个的音素符号。相应地,对于在本文中特别是理解为成 串的单个字素符号的概念"字素"就是如此。类似于音素,字素(字素符号)是文本的图形 表达中最小的、区分语义的单元,并且通常是文字的字母。 在所提出的方法中,在预处理中为真正的语音化准备字素,特别是为此在转化为 音素之前,通过语言定义地和/或由用户定义地修正字素的方法。例如语音化的数据组形 式的语音化的数据列表就能够以公知的方式例如在由语音控制的用户端口的语言识别中 使用。 预处理的前提背景是,字素(还有音素)和语言有关,具体视当前使用的语言而 定。然而在数据组中恰恰经常有不同的语言的条目,为了被语音化,它们必须被标识出来并 且进行匹配。相应地,可以通过识别外语文本、但也可以通过替换缩略词、删除前缀(如"先 生""女士""博士",英文冠词"the"或诸如此类)、扩展首字母缩略词和/或提供表达变化 方案实现预处理,这些都可以由用户挑选。 通过替换这些不被用于预处理的、与语言相关的不被声学模型支持的字素的字 符,这种预处理可以至少部分地消除仅支持一定的预设数量的数字和需要用字母拼写的字 符串的从字素到音素的转换中的主要与语言有关的局限。 然而,在现有的系统中,在预处理时存在以下问题,即,这些方法步骤是放在真正 的字素到音素转换步骤之前的,需要用于预处理的时间增加了用于字素到音素的转换的总 时间延迟。 因为预处理根据运行耗费也可能需要大量的计算,所以或者会带来长的时间延迟 或者会局限预处理的工作能力,例如因为在语音化过程中忽略了字素表达的不被支持的字 符。由于在预处理时的资源匮乏,所以公知的预处理的实施也只能在特定的情况下才能够 适应具体的应用要求,并且特别是被固定地编程,特别是在变化方案和提供的替换方案或 修正方案的数量方面。
技术实现思路
因此,本专利技术的目的是提出一种语音化的方法,其中,用于预处理和接下来从字素 到音素的转换所需要的时间减少。 根据本专利技术,该目的通过具有权利要求1所述特征的方法、具有权利要求7所述特 征的装置和具有权利要求8所述特征的计算机程序产品得以解决。 在提出的方法中特别是设计的是,并行地在不同的计算单元或计算单元的各个分 部上,特别是在不同的处理器上或者处理器分部上进行字素的预处理和从字素到音素的转 换。不同的计算单元可以在不同的计算装置中或者在一个计算装置中实现为双核或者多核 计算单元,特别是它们的双核或多核处理器。 特别是可以如下地完成字素的预处理和字素到音素的转换的并行实施,即,在第 一步骤中在第一计算单元中预处理为了语音化而提供的字素,将其传输给第二计算单元并 且在第二计算单元中被语音化,也就是转换成音素。然后,在第二计算单元中语音化字素期 间,紧接着可以在第一计算单元中处理为了语音化而提供的字素。 正如已经提及的那样,这些数据组大部分作为字素存在,也就是作为成串的单个 字素符号(特别是字母),所以根据各个计算单元的容量,在每个计算单元中分别可以处理 一部分字素符号串,例如以FIFO缓存的方式(先进先出first-in-first-out)。在特定情况 下,根据本专利技术可以在第一和第二计算单元之间设计中间存储器,用于在时间上相互协调 两个计算单元的计算处理工作,并且能够通过中间存储预处理过的字素短期地补偿两个计 算单元的计算能力的波动。 根据本专利技术提出的方法的一种特别有利的应用是在动态的语言识别中,其中在应 用期间才从不断改变的、包含文本的数据组中生成字素,这与利用静态的数据库的应用不 同,在利用静态的数据库的应用中,是一次性完成字素的语音化,然后语言控制系统引用固 定存储的音素。 根据提出的方法的一种特别优选的实施方式,作为字素的、也就是作为成串的单 个字素符号存在的数据组被分解成字素分包(Graphem-Teilpakte),它们也可以被称为字 素分串包,其中,分别在第一计算单元中预处理一个字素分包,并且紧接着在另一个第二计 算单元中被语音化,转换成音素,此时,两个计算单元被设置用于并行地(特别是同时地) 处理不同的字素分包。以数据包的形式划分需要处理的数据使得能够特别有效地利用提供 的处理器资源,使得能够在时间上最优化地完成包含预处理和转换在内的语音化工作。 其中,根据本专利技术特别有利的是,当预定了字素分包的大小,例如根据计算单元提 供的计算能力(也就是说与平台有关)。例如可以规定最大长度为50个条目(相当于字 素符号)的字素分包。已经发现的是,大小与平台(计算单元)相适应的字素分包能够特 别有效地进行预处理并且被转换,因为在这种情况下,需要进行处理的数据数量与报文开 销(Messaging Overhead)之间存在最佳的比例关系。因为不同的计算单元或计算单元的 各个分部之间交换数据包(字素分包),并且这些交换工作必须相互协调进行,所以产生了 报文开销。因为两个计算单元都必须中间存储数据,所以此外还必须限定分别被处理的字 素分包的数据量,从而能够在所有计算单元内实现有效且迅速的处理。 在这个背景下,根据本专利技术也可以特别有利的是,通过运用定义的规则,特别是在 进行预处理之前或者在刚开始时确定包的大小,从而在进行预处理和进行转换时考虑到单 个字素符号的内容相关的前后关联。这些规则例如可以代表识别特定的字素符号、空格符 或分隔符,和/或包含内容上的评估,在特定的情况下与分串的最大(也有可能是最小)的 预设长度,也就是说用于分串的长度限定或者长度区间结合起来。通过最大预设的长度可 以特别是虑到计算单元的计算能力。预设的最小长度确保了对前后关联敏感的预处理和/ 或转换,在这个过程中也可以从内容上评估并考虑连续的字素。 在提出的方法的一种特别的实施方式中,预处理本文档来自技高网
...

【技术保护点】
一种用于使包含文本的数据组(2)语音化的方法,其中,作为字素存在的数据组(2)转换成音素,并且作为语音化的数据组(8)存储下来,其中,为了语音化在预处理中准备所述字素,特别是通过语言定义和/或用户定义地修正所述字素,其特征在于,所述字素的所述预处理和所述字素到音素的所述转换在不同的计算单元(5,6)上或者在所述计算单元(5,6)的不同部分上并行地进行。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:延斯·瓦尔特
申请(专利权)人:大陆汽车有限责任公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1