利用判定树生成拼写单词的发音和对其评分的方法和设备技术

技术编号:3047577 阅读:198 留言:0更新日期:2012-04-11 18:40
混合判定树包含一个关于拼写单词序列中的邻接字母及与此拼写单词序列相对应的音素序列中的邻接音素的是否问题网。混合判定树的叶节点提供关于哪一种标音概率最大的信息。利用混合树可以对多个可能发音中的每一个进行评分,并且这些评分可用来选择最佳发音,以及用来按概率排列发音。由此系统生成的发音可用于语音合成和语音识别应用中,也可应用词典学的应用中。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般涉及语音处理。更具体地讲,本专利技术涉及生成拼写单词的发音系统。本专利技术可用于多种语境,包含语音识别,语音合成和词典学。伴随有发音的拼写单词可出现于语音处理领域内的很多不同的语境中。在词典中的每一个单词的语音识别音标中在使用之前需要对识别器进行训练。传统的标音是由熟悉该某种语言的语音发音的细微差别的词典学家手工生成的。对词典中的每一个单词开发一个良好的标音是需要时间并且要求很高的水平。如果有一个能够根据单词的字母拼写生成其标音的可靠系统就不需要大量的这种劳动和专门技术。这种系统将把目前的识别系统扩展为可以识别像地名和人名这些在现有的词典中找不到的单词。拼写单词也经常在语音合成领域中碰到。现在的语音合成器通过从词典中检索数字取样声音单元并将这些声音单元连接而形成句子就可将文本转换为语音。正如上述各例所示,语音处理的语音识别和语音合成两个领域都会从可由拼写单词生成准确的发音的能力受益。然而,需要此种技术的并非只限于语音处理。如今词典学家已经完成多种主要世界语言的相当大型和准确的发音词典。但是,仍然存在成百上千种区域性语言还缺少良好的标音。由于迄今为止制作良好标音的工作主要是靠手工劳动,所以某些区域性语言可能需要多年才能得到标音,如果真的能够得到的话。如果能有一个良好的应用计算机来为标音准确度评分的技术,则标音过程就可以大大加速。这种评分系统将会利用现有的语言标音素材来标识标音原型中其发音受到怀疑的那些词条。这就会大大提高生成高质量标音的速度。迄今为止将拼写单词变为发音标音的努力只是依赖字母本身。这种方式留有很大的开拓余地。比如,单纯字母发音生成器很难正确地发出单词“Bible”的发音。根据字母序列单纯字母发音系统会发成类似“Bib-l”的音,就像学习阅读的小学生可能发出的发音。通常的系统的缺点在于很多语言的发音规则所产生的固有的歧义。比如,英语具有几百条各种发音规则,使得按单词来解决这一问题很难并且在计算上耗费巨大。本专利技术从另外一个角度来解决这一问题。本专利技术利用的一个专门构造的混合判定树既包含字母序列也包含音素序列的判定规则。更具体地讲,混合判定树包含位于该树的内节点上的一系列是否问题。这些问题中的一些牵涉拼写单词序列中的字母及其邻接字母;而这些问题中的另一些牵涉单词序列中的音素及其邻接音素。内节点最终引向的叶节点包含关于在对由字母序列定义的给定单词进行发音时该单词的哪一些发音最可能是正确的概率数据。本专利技术的发音生成器利用这一混合判定树来为不同的候选发音方案评分,使其可以选择概率最大的候选方案作为给定的拼写单词的最佳发音。生成最佳发音最好是一个两阶段过程,在其第1阶段采用单纯字母树来生成多个发音候选方案。之后在第2阶段利用混合判定树为这些候选方案评分以便选择出最佳候选方案。尽管混合判定树最好是用于两阶段发音生成器中,不过混合树在解决某些不要求单纯字母第1阶段处理的问题中也是有用的。比如,混合判定树可以用于对利用手工方式的语言学家所生成的发音进行评分。为了更全面的理解本专利技术,其目的及优点,可参考下面的说明书及附图。附图说明图1为说明本专利技术的各组成部分及步骤的框图;图2为说明单纯字母树的树形图;图3为说明根据本专利技术的混合树的树形图;图4为说明用于生成根据本专利技术的混合树的当前优选系统的框图;图5为说明通过对位过程生成训练数据的方法的流程图;图6为说明在示范发音生成器中使用判定树的框图;图7为说明应用吉尼(Gini)判别准则来评定在扩展节点过程中采用什么问题的示图;图8为说明根据本专利技术的字母到声音的发音生成器的框图;以及图9为说明字母-句法-语境-方言混合判定树的框图。为说明本专利技术的原理,图1的实施例示出了一个拼写字母-发音生成器。下面将更全面地介绍,本专利技术的混合判定树,除了此处所说明的发音生成器之外,还可以应用于多种不同的应用中。选择发音生成器来说明是因为它可以突出混合判定树结构的很多方面及好处。发音生成器采用两个阶段,第1阶段采用一组单纯字母判定树10,而第2阶段采用一组混合判定树12。输入序列14,比如字母序列B-I-B-L-E送入动态规划音素序列生成器16。序列生成器利用单纯字母树10来生成一个表示拼写单词输入序列的可能发音候选方案的发音列表18。序列生成器依次检查序列中的每个字母,检查时应用与该字母相联系的判定树以便根据包含在单纯字母树中的概率数据选择一种音素发音。最好是这一组单纯字母判定树包含字母表中每一个字母的判定树。图2示出字母E的单纯字母判定树的示例。判定树包括多个内节点(图中以椭圆表示)和多个叶节点(图中以矩形表示)。每个内节点用是否问题来扩展。是否问题是一种可回答“是”或“否”的问题。在单纯字母树中这些问题指向给定的字母(在这一场合为字母E)及输入序列中的其相邻字母。注意图2中每个内节点转移到左方或右方是根据对相关问题的回答是“是”还是“否”而定。图2中所使用的缩写如下问题中的数字,如“+1”或“-1”代表拼写中相对当前字母的位置。比如,“+1L=‘R’?”代表“当前字母(在这一场合为字母E)的后边是R吗?”。缩写CONS和VOW代表字母的类型,即辅音和元音。缺少相邻字母,即零字母,的情况用符号“-”代表,它在一些字母和和相应的音素发音对位时用作填充符或站位符。符号“#”代表单词边界。叶节点中填充的是概率数据,这些概率数据将可能的音素发音与表示具体音素代表给定字母的正确发音的概率的数值联系起来。比如,符号“iy=>0.51”代表“此叶中的音素‘iy’的概率为0.51”。零音素,即默音,由符号“-”表示。序列生成器16(图1)就是利用单纯字母判定树10来构造一个或多个发音假设方案,它们存储于列表18中。最好是每个发音都联系有一个数字评分,该评分是通过将利用单纯字母判定树10选择的各单个音素的概率评分结合起来而得到的。单词的发音可通过构造一个可能组合的矩阵,然后利用动态规划来选择n-最佳候选方案来评分。选择n-最佳候选方案的另外一种方法是可利用一种置换方法,即首先确认概率最大的单词候选方案,然后通过如下的迭代置换生成附加的候选方案。首先选择具有最高概率评分的发音,其方法是将通过检验叶节点确认的最高评分音素的各相应评分相乘,然后利用这一选择作为概率最大候选方案或第1最佳单词候选方案。之后选择附加的(n-最佳)候选方案,方法是通过再一次检验叶节点中的音素数据来确认此音素,不是原来所选择的,而是与起初选择的音素差别最小的。然后用这一差别最小的音素置换起初选择的音素而生成第二最佳单词候选方案。上述过程可迭代重复,直到选择出所要求数目的n-最佳候选方案为止。列表18可按评分降序排序,于是通过单纯字母分析判断为最佳的发音就出现在此列表中成为第1个。如上所述,单纯字母分析经常会产生糟糕的结果。这是因为单纯字母分析无法在每个字母处判断由后续的字母将生成什么音素。这样,单纯字母分析可生成在自然语音中实际上不会出现的高评分发音。比如,专有名词“Achilles”很可能产生一个对两个“ll”都读音的发音ah-k-ih-l-l-iy-z。在自然语音中第2个“l”实际上是默音ah-k-ih-l-iy-z。利用单纯字母树的序列生成器不具有筛选自然语音中永远不会出现的单词发音的机制。此发音系统的第本文档来自技高网...

【技术保护点】
一种用来为从预定字母表选择输入的字母序列生成至少一个标音的设备,其构成包括: 用于存储与所述字母表相应的多个单纯字母判定树的存储器, 所述单纯字母判定树具有表示在给定的序列中有关给定字母及其相邻字母的是否问题的内节点; 所述存储器还存储与所述字母表相应的多个混合判定树, 所述的混合判定树具有表示在所述给定的序列中有关给定字母及其相邻字母的是否问题的第一组多个内节点和具有在所述给定的序列中关于一音素及其相邻音素的是否问题的第二组多个内节点, 所述单纯字母判定树和所述混合判定树还具有与将所述给定的字母与多个音素发音相联系的概率数据的叶节点; 与用来处理输入的字母序列的所述单纯字母判定树连接并生成与所述输入的字母序列相应的第一组语音发音的音素序列生成器; 与所述混合判定树连接用来处理所述第一组以生成第二组评分语音发音的评分估计器,此评分语音发音表示所述输入序列的至少一个语音发音。

【技术特征摘要】
US 1998-4-29 067764;US 1998-4-29 069308;US 1998-4-1.一种用来为从预定字母表选择输入的字母序列生成至少一个标音的设备,其构成包括用于存储与所述字母表相应的多个单纯字母判定树的存储器,所述单纯字母判定树具有表示在给定的序列中有关给定字母及其相邻字母的是否问题的内节点;所述存储器还存储与所述字母表相应的多个混合判定树,所述的混合判定树具有表示在所述给定的序列中有关给定字母及其相邻字母的是否问题的第一组多个内节点和具有在所述给定的序列中关于一音素及其相邻音素的是否问题的第二组多个内节点,所述单纯字母判定树和所述混合判定树还具有与将所述给定的字母与多个音素发音相联系的概率数据的叶节点;与用来处理输入的字母序列的所述单纯字母判定树连接并生成与所述输入的字母序列相应的第一组语音发音的音素序列生成器;与所述混合判定树连接用来处理所述第一组以生成第二组评分语音发音的评分估计器,此评分语音发音表示所述输入序列的至少一个语音发音。2.如权利要求1的设备,其中所述第二组包括每一个都带有从所述概率数据导出的关联评分的多个发音,并且还包括一个能接受所述第二组并可根据所述关联评分通过操作从所述第二组选择一个发音的发音选择器。3.如权利要求1的设备,其中所述音素序列生成器可生成预定数目的与给定的输入序列相应的不同发音。4.如权利要求1的设备,其中所述音素序列生成器可根据所述概率数据生成预定数目的与给定的输入序列相应并表示n-最佳发音的不同发音。5.如权利要求4的设备,其中所述评分估计器根据所述混合判定树对所述n-最佳发音进行再评分。6.如权利要求1的设备,其中所述序列生成器构造一个代表不同发音的可能音素组合的矩阵。7.如权利要求6的设备,其中序列生成器利用动态规划从所述矩阵选择n-最佳音素组合。8.如权利要求6的设备,其中序列生成器借助迭代置换从所述矩阵选择n-最佳音素组合。9.如权利要求1的设备,其中还包括具有用于识别器训练的发音词典的语音识别系统,并且其中所述第二组的至少一部分填充所述词典以便根据其拼写为单词提供发音。10.如权利要求1的设备,其中还包括可接受所述第二组的至少一部分以便根据单词的拼写生成其可听合成发音的语音合成系统。11.如权利要求10的设备,其中所述语音合成系统与电子邮件读出器结合。12.如权利要求10的设备,其中所述语音合成系统与用来按照概率顺序提供可能发音表的词典结合。13.如权利要求1的设备,其中还包括语言学习系统,该系统可利用所述至少一个单纯字母判定树和所述混合判定树来显示一个拼写单词和分析企图读出该单词的发音的人的发音,并且为用户提供他或她对该单词的发音的概率。14.一种拼写-发音数据的...

【专利技术属性】
技术研发人员:罗兰德昆恩珍克劳德君夸玛特欧康图丽尼
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利