词汇重音预测制造技术

技术编号:3046148 阅读:176 留言:0更新日期:2012-04-11 18:40
一种用于接收代表词的至少一部分的数据和输出代表词的词汇重音的位置的数据的词汇重音预测系统,该系统包括:多个重音预测模型装置,用于寻找在模型数据与接收的数据之间的匹配,多个模型装置包括:第一模型装置,用于接收所接收的数据和寻找在模型数 据与接收的数据之间的匹配,以及如果找到对于接收数据的匹配,则输出代表相应于接收数据的词汇重音的预测的预测数据;以及缺省模型装置,用于如果在多个模型装置的任何其它模型装置中没有找到匹配,则接收所接收的数据,以及输出代表相应于接收数据的 词汇重音的预测的预测数据。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及词汇重音预测。具体地,本专利技术涉及文本-语音合成系统以及用于该系统的软件。
技术介绍
语音合成在其中要把写出的词用口头表达出来的任何系统中是有用的。有可能把多个词的语音录音存储到发音词典中,以及当相应的写出的词在词典中被识别时播放语音录音的口头表达。然而,这样的系统具有缺点只可能输出被保持在词典中的词。任何不在词典中的词不能被输出,因为没有语音录音存储在这样的系统中。虽然多个词可以连同它们的语音录音一起被存储在词典中,但这导致增加词典尺寸以及相关的语音录音贮存要求。而且,添加所有的可能的词到词典简直不可能,因为系统可能被提供以新的词和来自外国语言的词。所以,有两个原因有利地试图预测在发音词典中的词的语音录音。首先,语音录音预测保证未保持在词典的词将接收语音录音。第二,其语音录音是可预测的词可被存储在词典中,而不用相应的录音,因此减小系统的贮存设备要求的尺寸。一个词的语音录音的一个重要成分是词的主要词汇重音的位置(在词中最加重地发音的音节)。预测词汇重音的位置的方法因此是预测一个词的语音录音的重要的部分。当前存在两种词汇重音预测的基本方法。这些方法的最早的方法是完全根据人为规定的法则(例如,Church,1985;专利US4829580;Ogden,专利US5651095),它们具有两个主要缺点。首先,它们的创建和保持是费时的,这在创建用于新的语言的法则或移到新的音素组时尤其成问题的(音素是在语言内能够传达不同的意义的最小的语音单位)。第二,人为规定的法则通常不是鲁棒的,对于词生成差的结果,它们与被使用来开发法则,诸如适当的装置和外来语(从不同于该词典的语言发源的词)的那些有很大的不同。词汇重音预测的第二个方法是使用围绕目标字母的局部上下文,即,在目标字母的每一边的字母的标识,通常通过使用某种自动技术,诸如基于判决树或存储器的学习,以确定目标字母的重音。这个方法也有两个缺点。首先,仅仅根据由这些模型使用的局部上下文(典型地在1和3个字母之间),常常不能确定重音。第二,基于判决树或特别是基于存储器的学习不属于低存储器技术,因此它很难适于在低存储器的文本-语音系统中使用。所以,本专利技术的一个目的是提供低存储器的文本-语音系统,以及本专利技术的另一个目的是提供准备该系统的方法。
技术实现思路
按照本专利技术的第一方面,提供了包括多个重音预测模型的词汇重音预测系统。在本专利技术的实施例中,重音预测模型是级联的,即,在预测系统内一个接一个串联的。在本专利技术的实施例中,为了减小特异性和精度,模型被级联。在本专利技术的实施例中,级联的第一模型是最精确的模型,它返回具有高精度的预测,但只用于语言的总的词数的一个百分数。在实施例中,没有被第一模型指定词汇重音的任何词被传送到第二模型,它返回用于某些另外的词的结果。在实施例中,第二模型返回用于语言中第一模型未返回结果的所有的词的结果。在另一个实施例中,在第二模型中没有被指定词汇重音的任何词被传送到第三模型。任何数目的模型可以以级联方式被提供。在实施例中,级联的最后模型应当返回对于任何字的重音的预测,以及在实施例中,对于未被前面的模型预测的所有的词的预测,如果所有的词必须要由词汇重音预测系统对它们作出预测的话。这样,词汇重音预测系统将对于每个可能的输入词产生预测的重音。在实施例中,每个接连的模型比起级联中前面的模型返回对于更宽的范围的词的结果。在实施例中,级联中的每个接连的模型比起在它前面的模型较不精确的。在本专利技术的实施例中,至少一个模型是确定相对于词的缀的重音的模型。在实施例中,至少一个模型包括在词的缀与词汇重音在词内的位置之间的相关。一般地,缀可以是前缀、后缀或中缀。相关可以是在缀与位置之间的正的或负的相关。另外,系统返回对于某些缀的高的百分数的精度,而不需要词传送到系统中每个模型。在本专利技术的实施例中,级联中至少一个模型包括在与各种缀相组合的词中的音节数目与词内的词汇重音的位置之间的相关。在实施例中,次要的词汇重音也与词的主要的重音一样被预测。在本专利技术的实施例中,至少一个模型包括拼写缀的相关,而不是语音缀的相关。这样的拼写相关在这样的语言中是有用的,其中加重音的字符被广泛地使用来表示重音在词内的位置,诸如在意大利语中最后的”à”,它与词的最后的重音高度地相关。按照本专利技术的第二方面,提供了生成词汇重音预测系统的方法。在实施例中,生成的方法包括生成在系统中使用的多个模型。在实施例中,模型相应于以上参照本专利技术的第一方面描述的某些或所有的模型。在实施例中,首先生成第一实施例的最后的模型,接着生成倒数第二的模型,等等,直至最后,生成第一实施例的第一模型。通过以与它们在系统中运行的相反的次序生成模型,有可能生成缺省模型,它将预测所有的词的重音,但具有较低的精度,然后构建更专门的更高的模型,该模型针对被缺省模型指定的错误的重音的词。通过使用这样的生成,有可能去除系统中的冗余性,否则系统中的两个模型返回同一个结果。通过减小这样的冗余性,有可能减小系统的存储器要求和提高系统的效率。在本专利技术的实施例中,提供缺省模型、主模型、和零或更高的模型。在实施例中,缺省模型是简单模型,它可被应用到进入系统的所有的词,以及它是简单地通过从全部词计算每个词的重音点的位置和生成一个模型来指定在训练期间最经常遇到的重音点而生成的。这样的自动生成可能不一定必要在英语中,主要的重音通常在第一音节,在意大利语中,在倒数第二音节等等。所以,可以应用简单的法则对于被输入到系统的任何和所有的词给出基本的预测。在实施例中,主模型是通过使用训练算法来搜索词和对于词内的各个识别符返回重音位置预测而生成的。在实施例中,识别符是词的缀。在实施例中,识别符与重音位置之间的相关进行比较,保持最高相关的那一对。在实施例中,百分数精度减去组合的较低的级别的模型的百分数精度,被使用来确定最后的相关。在实施例中,如果一个以上的缀是匹配的,相应于具有最高精度的缀的重音位置被给予最高优先级。在实施例中,包括计数值的最小门限(识别符对于训练集的所有的词预测重音正确的次数)。这允许在很高、但在语言中却很少发生的包括在系统中的识别符相关数与很低、但在语言中却更经常发生的识别符相关数之间的可修改的关断电平。在本专利技术实施例中,主模型包含两种类型的相关前缀和后缀。在本专利技术的实施例中,为了降低精度,主模型中的缀被加索引号。在本专利技术的实施例中,本专利技术的方面可以在计算机、处理器或其它数字部件,诸如专用集成电路(ASIC)等等上实行。本专利技术的方面可以取计算机可读的代码的形式,指令计算机、ASIC等实行本专利技术。附图说明下面参照附图,纯粹作为例子描述本专利技术的实施例,其中图1显示在本专利技术的第一实施例中在特定的语言的模型训练期间在重音预测模型之间的相互关系的流程图;图2显示用于训练本专利技术的第一实施例的缺省模型的流程图;图3显示用于训练本专利技术的第一实施例的主模型的流程图;图4显示在实施本专利技术的第一实施例期间在重音预测模型之间的相互关系的流程图; 图5显示实施本专利技术的第一实施例的主模型的流程图;图6显示在对于一系列具体的音素实施主模型时使用的树;图7显示实施本专利技术的第一实施例的主模型的另一个流程图;图8显示实施本专利技术的第一实施例的主模型的另一个流程图;图9显示训练本专利技术的第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于接收代表词的至少一部分的数据和输出代表词的词汇重音的位置的数据的词汇重音预测系统,该系统包括多个重音预测模型装置,用于寻找在模型数据与接收的数据之间的匹配,多个模型装置包括第一模型装置,用于接收所接收的数据和寻找在模型数据与接收的数据之间的匹配,以及如果找到对于接收数据的匹配,则输出代表相应于接收数据的词汇重音的预测的预测数据;以及缺省模型装置,用于如果在多个模型装置的任何其它模型装置中没有找到匹配,则接收所接收的数据,以及输出代表相应于接收数据的词汇重音的预测的预测数据。2.按照权利要求1的词汇重音预测系统,其中系统的模型装置被安排成通过识别在所述词的至少一部分内至少一个词汇识别符,而预测在所述词的至少一部分内的词汇重音位置。3.按照权利要求1或2的词汇重音预测系统,其中第一重音预测模型装置用于输出代表对于给定的语言的一个百分数的词的重音预测的预测数据,该百分数小于100,以及把剩余的不匹配的接收数据传送到在多个模型中的以后的模型装置。4.按照任一前述权利要求的词汇重音预测系统,其中缺省模型装置用于接收代表多个重音预测模型装置的任一其它模型装置没有为其作出重音预测的词的至少一部分的接收数据,和用于输出代表对于任何这样的接收的词的至少一部分的重音预测的预测数据。5.按照权利要求4的词汇重音预测系统,其中第一模型装置具有比起缺省重音预测模型装置的精度更精确的从其输出词的词汇重音的预测。6.按照权利要求3到5的任一项的词汇重音预测系统,还包括在第一模型装置与缺省模型装置之间的另一个重音预测模型装置,用于如果在第一模型装置中没有找到在接收数据与另一个的模型装置中另一个模型数据之间的匹配,接收所接收的数据,并寻找在另一个模型数据与接收数据之间的匹配,以及如果找到接收数据的匹配,输出代表相应于接收数据的词汇重音的预测的预测数据。7.按照任一权利要求的词汇重音预测系统,其中具有对于词汇重音预测的最低的百分数返回的模型装置是用于由它返回的词的至少一部分的重音预测的最精确的模型装置。8.按照任一权利要求的词汇重音预测系统,其中系统的缺省模型装置具有最低的特异性和精确性,以及每个前面的模型装置比起紧接在它后面的模型装置,具有更高的特异性和精确性。9.按照任何权利要求的词汇重音预测系统,其中代表所述词的至少一部分的数据表示所述词的所述至少一部分的音素信息。10.按照权利要求1到8的任一项的词汇重音预测系统,其中代表词的至少一部分的数据表示所述词的所述至少一部分的字母。11.按照任一前述的权利要求的词汇重音预测系统,还包括另一个模型装置,用于预测在词的特定的至少一部分与在词内的词汇重音的位置之间的负的相关。12.按照任一前述的权利要求的词汇重音预测系统,还包括另一个词汇重音预测系统,用于预测所述词的所述至少一部分的次要词汇重音。13.按照权利要求2或任一从属于其的权利要求的词汇重音预测系统,其中缀被用作为词汇识别符。14.一种预测词的词汇重音的方法,包括接收代表词的至少一部分的数据;把数据传送到包括多个重音预测模型装置的词汇重音预测系统,其中把接收数据传送到重音预测系统包括把接收数据传送到包含模型预测数据的第一模型装置;在第一模型装置中搜索在模型预测数据与接收数据之间的匹配;如果在第一模型装置中找到对于接收数据的匹配,则输出代表相应于接收数据的词汇重音的预测的预测数据;以及如果在多个模型装置的任一其它模型装置中没有找到对于接收数据的匹配,则把接收数据传送到缺省模型装置,在缺省模型装置中对于数据给出词汇重音预测,以及输出代表相应于接收数据的词汇重音的预测的预测数据。15.按照权利要求14的预测词汇重音的方法,其中第一重音预测模型装置预测一个百分数的词的词汇重音,该百分数小于100。16.按照权利要求14或15的预测词汇重音的方法,其中第一模型装置预测数据包括优先级信息,以及如果在...

【专利技术属性】
技术研发人员:卡布里尔·韦伯斯特
申请(专利权)人:株式会社东芝
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1