语言信息翻译装置和方法制造方法及图纸

技术编号:2839646 阅读:176 留言:0更新日期:2012-04-11 18:40
在语言信息翻译装置和方法中,参照被注册到用户字典注册单元的多个用户的注册词汇信息片,并且当存在具有相同的指示词的多个词汇信息片时,基于所述有关的指示词的注册词汇信息片的数目以及所述有关的指示词的且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的注册词汇信息片的数目中的一个,提取将被加入基本字典的指示词,以及将所述提取的指示词的基本词汇信息注册到基本字典中。

【技术实现步骤摘要】

本专利技术涉及一种语言信息翻译装置,其将基于某些表达的语言信息转换为基于不同表达的语言信息,诸如语音合成装置、假名-汉字翻译装置、机器翻译装置等,具体地,涉及一种语言信息翻译装置,其使得当多个用户使用一个系统时,其它用户可以使用在其中一个用户的字典中注册的内容。
技术介绍
机器翻译是一种将基于某些语言的输入句子自动翻译为基于另一种语言的句子的技术。例如,在用于将日文翻译为英文的日文到英文机器翻译中,通过参照字典来实现从日文到英文的翻译,在此字典中注册了大量成对的信息片(information piece),每一对都包括日文单词和对应的英文单词。同样地,在用于通过参照字典将某些语言的表达翻译成另一种语言的表达的语言信息翻译技术中,已知了语音合成和假名-汉字翻译。语音合成是一种从包含了汉字和假名字符的混合的输入句子来人工地生成语音的技术。在语音合成处理中,假名-汉字混合字符串被转换为发音符号阵列。在这种情况下,由假名-汉字混合字符串和发音符号阵列所表达的单词对的信息被注册在字典中。此外,假名-汉字翻译是将假名字符串翻译为假名-汉字混合字符串的技术。在这种情况下,注册由所述有关的单词的假名字符串和假名-汉字混合字符串所表达的单词的对。在语言信息翻译技术中,预先准备了在其中收集和注册了常用词汇的字典(此后称为“基本字典”)。然而,当输入了未在所述基本字典中注册的单词,诸如技术术语、新词等时,在翻译中会出现错误。因此,为了注册没有出现在字典中的单词,并且实现正确的翻译结果,通常提供了允许用户进行注册的用户字典功能。目前为止已知了这样的技术,其允许多个用户共同拥有用户字典的内容,从而当所述多个用户使用了利用上述语言信息翻译技术的语言信息翻译装置时,所述多个用户能够省去将相同的单词注册到他们的用户字典的徒劳的工作。例如,日本申请公开11-66059公开了一种将内容注册到公用字典的方法,其中一个用户将所述内容注册到用户字典,从而使得其他用户能够参照该公用字典,由此所有用户都可以共用该用户字典的内容。根据上述技术,无需任何检查,就对在用户字典中注册的内容进行共用。因此,当用户字典中的注册内容不正确时,该不正确的内容也被共用。与公司中几个特定用户使用语言信息装置的情况相比较,在一般公众通过网络使用所述语言信息翻译装置的情况下,在非特定用户中,用户的技术和知识水平差别很大,从而存在将不正确的信息注册在用户字典中的高危险性。
技术实现思路
考虑到前述问题,已经实现了本专利技术,本专利技术的目的在于提供一种,其统计地分析许多用户的用户字典的内容,并且提取可靠的注册内容,使用户可以共用所述注册内容。根据本专利技术的实施例,一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典注册单元,其被配置成将注册词汇信息存储到每一个注册用户的用户字典,其中所述注册词汇信息包含至少所述第一语言表达的指示词(direction word)以及与所述有关的指示词相对应的所述第二语言表达;基本字典注册单元,其被配置成将基本词汇信息存储到基本字典,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的所述基本词汇信息和由所述有关的用户字典的有关用户注册的注册词汇信息,并且将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的注册词汇信息,并且基于与所述相同的指示词相关联的注册词汇信息片的注册词汇信息数以及与所述相同的指示词相关联且该注册词汇信息的所述对应的第二语言表达还相互一致的注册词汇信息片的注册词汇信息数中的至少一个,来提取将被加入所述基本字典的指示词;以及字典更新单元,其被配置成将所述提取的指示词的注册词汇信息作为基本词汇信息注册到所述基本字典。根据本专利技术的实施例,一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典注册单元,其被配置成将注册词汇信息存储到每一个注册用户的用户字典,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;基本字典注册单元,其被配置成将基本词汇信息存储到基本字典,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;公用字典注册单元,其被配置成将公用词汇信息存储到一个或多个公用字典,所述公用词汇信息包含至少所述第一语言表达的指示词以及与所述有关的指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的基本词汇信息,由所述有关的用户字典的有关用户注册的注册词汇信息,以及由所述用户指示的所述公用字典的公用词汇信息,将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的注册词汇信息,并且基于与所述相同的指示词相关联的注册词汇信息片的注册词汇信息数以及与所述相同的指示词相关联且该注册词汇信息的所述对应的第二语言表达还相互一致的注册词汇信息片的注册词汇信息数中的至少一个,来提取将被加入所述公用字典的指示词;以及字典更新单元,其被配置成将所述提取的指示词的所述注册词汇信息作为公用词汇信息注册到所述公用字典。根据本专利技术的实施例,从许多用户的用户字典中提取出可靠的内容并对其进行共用,由此能够使用由其他用户注册的内容来进行高精度的翻译,而不会受到不正确注册内容的不利影响。附图说明图1是框图,其示出了根据本专利技术第一实施例的语音合成装置的构造;图2是流程图,其示出了第一实施例的语音合成单元11的操作;图3是流程图,其示出了根据第一实施例的重要单词提取单元16和基本字典更新单元15的操作;图4示出了根据第一实施例的基本字典的基本词汇信息的例子;图5示出了根据第一实施例的用户字典的注册词汇信息的例子;图6示出了根据第一实施例的统计信息的例子;图7是框图,其示出了根据第二实施例的语音合成装置的构造;图8是框图,其示出了根据第三实施例的语音合成装置的构造;图9是根据第三实施例的用户字典的注册词汇信息的例子;图10示出了根据第三实施例的统计信息的例子;图11是流程图,其示出了根据第三实施例的重要单词提取单元46和字典更新单元45的操作;图12是框图,其示出了机器翻译装置的构造;图13是框图,其示出了假名-汉字翻译装置的构造。具体实施例方式以下将参照附图描述本专利技术的实施例。(第一实施例)以下将参照图1到6描述根据本专利技术第一实施例的语音合成装置10。(1)语音合成装置10的构造语音合成装置10配备有语音合成单元11、基本字典14、用户字典13、用户字典注册单元12、重要单词提取单元16以及基本字典更新单元15。由多个用户使用语音合成装置10进行文本-语音翻译,并且每个用户被分配了用户ID。语音合成单元11被提供了输入文本101和用户ID 102,并且参照存储在基本字典14中的基本词汇信息108和存储在用户字典13中的注册词汇信息109之中的对应于用户ID 102的词汇信息,来生成合成语音105。连同已准备的单词,基本字典14存储每一个有关单词的指示词,以及所本文档来自技高网
...

【技术保护点】
一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括:用户字典,其被配置成存储注册词汇信息,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与各注册用户的所述指示词相对应的所述第二语言表达;基本字典,其被配置成存储基本词汇信息,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的所述基本词汇信息和所述用户字典的由所述用户注册的注册词汇信息,将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的所述注册词汇信息,并且基于与相同的指示词相关联的注册词汇信息片的数目以及与所述相同的指示词相关联且其所述对应的第二语言表达还相互相一致的注册词汇信息片的数目中的至少一个,来提取将被加入所述基本字典的所述指示词;以及字典更新单元,其被配置成将所述提取的指示词的所述注册词汇信息作为基本词汇信息注册到所述基本字典中。

【技术特征摘要】
JP 2006-2-1 024980/20061.一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典,其被配置成存储注册词汇信息,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与各注册用户的所述指示词相对应的所述第二语言表达;基本字典,其被配置成存储基本词汇信息,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的所述基本词汇信息和所述用户字典的由所述用户注册的注册词汇信息,将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的所述注册词汇信息,并且基于与相同的指示词相关联的注册词汇信息片的数目以及与所述相同的指示词相关联且其所述对应的第二语言表达还相互相一致的注册词汇信息片的数目中的至少一个,来提取将被加入所述基本字典的所述指示词;以及字典更新单元,其被配置成将所述提取的指示词的所述注册词汇信息作为基本词汇信息注册到所述基本字典中。2.根据权利要求1的装置,其中,当具有所述相同的指示词的注册词汇信息片的数目或者具有所述相同的指示词且对应于所述有关的注册词汇信息片的所述第二语言表达相互一致的所述注册词汇信息片的数目等于或超过阈值时,所述重要单词提取单元提取所述指示词。3.根据权利要求1的装置,其中,所述重要单词提取单元、所述基本字典注册单元以及所述字典更新单元被通过网络连接到所述用户字典注册单元和所述语言信息翻译单元。4.根据权利要求1的装置,其中,为每个领域设置公用字典注册单元。5.根据权利要求1的装置,其中,所述重要单词提取单元进一步计算用户贡献度,所述用户贡献度对应于每个用户的由用户注册的注册词汇信息片之中的作为重要单词提取的注册词汇信息片的数目。6.根据权利要求5的装置,其中,所述重要单词提取单元进一步基于所述用户贡献度提取将被加入的指示词。7.根据权利要求1的装置,其中,所述第二语言表达包含至少对应于所述对应的第一语言表达的发音符号串。8.根据权利要求1的装置,其中,基于所述第一语言表达的语言不同于基于所述第二语言表达的语言。9.根据权利要求1的装置,其中,所述第一语言表达是发音符号串或假名字符串,且所述第二语言表达是汉字串、汉字-假名混合字符串以及单词串中的任何一种。10.根据权利要求1的装置,进一步包括用户字典注册单元,其被配置成将所述注册词汇信息注册到对应于用户ID的所述用户字典中。11.一种语言信息翻译装置,其可由多个用户使用并且将第一语言表达翻译为第二语言表达,该装置包括用户字典,其被配置成存储注册词汇信息,其中所述注册词汇信息包含至少所述第一语言表达的指示词以及与各注册用户的所述指示词相对应的所述第二语言表达;基本字典注册单元,其被配置成存储基本词汇信息,其中所述基本词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;公用字典,其被配置成存储公用词汇信息,所述公用词汇信息包含至少所述第一语言表达的指示词以及与所述指示词相对应的所述第二语言表达;语言信息翻译单元,其被配置成参照所述基本字典的基本词汇信息,由所述有关的用户字典的所述用户注册的注册词汇信息,以及由所述用户指示的所述公用字典的公用词汇信息,并且将由所述第一语言表达所表达的输入信息翻译为所述第二语言表达;重要单词提取单元,其被配置成参照所述多个用户字典的所述注册词汇信息,并且基于与相同的指示词相关联的注册词汇信息片的数目以及与所述相同的指示词相关联且其所述对应的第二语言表达还相互一致的注册词汇信息片的数目中的至少一个,来提取...

【专利技术属性】
技术研发人员:笼岛岳彦平林刚清水勇词徐大威
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1