用于分析汉语的装置和方法制造方法及图纸

技术编号:2862530 阅读:191 留言:0更新日期:2012-04-11 18:40
根据本发明专利技术的一个方面的用于分析汉语的装置,包括一个依赖结构分析器,用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系。这些词通过将一个汉语句子拆分成语素而得到。该装置还包括一个查阅离合词信息的离合词处理器,所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词。该离合词处理器从这些分析的词中检测该第一词和该第二词,并随后将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词与该第二词而形成的该离合词。

【技术实现步骤摘要】

本专利技术涉及用于在执行一个对汉语语句的词(词语)拆分处理后分析每个词的依赖结构的系统和方法。
技术介绍
在将汉语译成其他语言(例如,日语)的机器翻译处理中,通过语形学(morphological,或称形态学)分析将一个输入的汉语句子拆分成语素(形态素),并且分析每个语素的依赖目的和依赖者。多数汉语词由两个字符组成。在这些两个字符的词中,有一些词在语素间仅仅有微弱的联系。可以在两个字符的词的语素间插入另外的成分(插入成分)。这样的可以连接语素或在语素间具有一个插入成分的词称为离合词。在附图说明图1所示的表中,例如,词C1是一个表示“散步”的汉语动词。为了形成表示“散一会步”的词组,一个修饰语插入在词C3和词C4之间,如词组C2所示。在这种情况下,词C3和C4每个都是一个独立的词。然而,词C3和C4每个本身都并不具有“散步”的意思。因此,在词组C2中,词C1应当被视为一个词。这些离合词的存在使得在执行汉语机器翻译中的汉语分析处理很困难。为了解决这个问题,可插入在每个离合词的头元素和尾元素之间的插入词必须预先列出。然后在为一个输入的汉语句子执行的语素分析中查阅字典,并确定每个语素是否形成了一个离合词。在语素形成一个离合词的情况中,顺序地执行诸如依赖结构分析和含义分析的处理,其中每个词单元是包含两个或更多字符的词(参见“汉语-日语日机器翻译中离合词的处理”,IPSJ杂志,Vol.35,No.9)。然而,在汉语句子中一个离合词的头元素和尾元素之间可插入各种类型的插入词。因此,要预先列出所有的插入词是非常困难的。即便能列出所有的插入词,但它们巨大的数量使在语素分析处理时在该插入词列表中搜索所需的插入词变得很复杂。
技术实现思路
本专利技术的一个目的是至少解决在传统技术中的上述问题。根据本专利技术的一个方面的用于分析汉语的装置包括一个依赖结构分析器,用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者(从属方)的子词来分析词之间的依赖关系。这些词是通过将一个汉语句子拆分成语素而得到的。该装置还包括一个查阅离合词信息的离合词处理器,所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词,和与该第一词形成该离合词的第二词。该离合词处理器检测来自所分析的词的该第一词和第二词,然后将依赖于该第一词与第二词的词的依赖目的改变到由该第一词和第二词组合所形成的离合词。根据本专利技术的另一个方面的分析汉语的方法包括通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析各词之间的依赖关系。这些词是通过将一个汉语句子拆分成语素而得到的。该方法还包括查阅离合词信息,所述信息包括作为汉语语素并能成为离合词的一部分的第一词,和与该第一词形成该离合词的第二词;检测来自所分析的词的该第一词和第二词;将依赖于该第一词与第二词的词的依赖目的改变到由该第一词和第二词组合所形成的离合词。本专利技术的其他的目的、特性和益处将通过结合本专利技术附图而阅读的以下详细描述中阐明或变得明显。附图简要说明图1是包括一个离合词的汉语词的列表;图2是根据本专利技术的汉语分析装置的结构的方块图;图3是根据本专利技术的汉语-日语机器翻译的整个操作的流程图;图4是图2所示的汉语字典文件的一个结构实例;图5是汉语字典文件的另一个结构实例;图6是包含一个离合词的汉语句子;图7是图2所示的汉语分析表的一个结构实例;图8是紧接在图3的步骤S204的依赖结构分析处理之后的汉语分析表的状态;图9是表示根据图7的汉语分析表的依赖结构的树结构;图10是离合词处理操作的流程图;图11是紧接在直到图10的步骤S707的处理完成之后的汉语分析表的状态;图12是表示根据图11的汉语分析表的依赖结构的树结构;图13是紧接在直到图10的步骤S711的处理完成之后的汉语分析表的状态;图14是表示根据图13的汉语分析表的依赖结构的树结构;图15是紧接在直到图10的步骤S712的处理完成之后的汉语分析表的状态;以及图16是表示根据图15的汉语分析表的依赖结构的树结构。具体实施例方式有关本专利技术的汉语分析装置和汉语分析方法、以及使用该方法的计算机程序产品的典型实施例将在以下参考附图详细说明。根据本专利技术的汉语分析装置、根据本专利技术的汉语分析方法、和使用该方法的计算机程序产品可被应用到用于将汉语翻译成其他语言的翻译装置、将汉语翻译成其他语言的方法、以及将汉语翻译成其他语言的程序中。以下,将描述作为本专利技术的实施例的一种用于将汉语翻译成日语的汉语-日语机器翻译装置、一种汉语-日语机器翻译方法、和一种汉语-日语机器翻译程序。除了机器翻译装置、机器翻译方法、和机器翻译程序,本专利技术还能应用到任何系统、方法、和程序中,只要在对汉语句子执行语素分析之后执行语法分析。在该实施例的汉语-日语机器翻译装置、汉语-日语机器翻译方法、和汉语-日语机器翻译程序中,首先输入一个汉语句子,接着对该输入的汉语句子执行机器翻译来创建一个日语句子,并输出该创建的日语句子。图2显示的是根据本专利技术的实施例的汉语分析装置的结构的方块图。如图2所示,该实施例的汉语-日语机器翻译装置100包括一个输入处理器101、一个语素分析器102、一个语法分析器103、一个含义分析器106、一个翻译器107、一个日语创建器108、和一个输出处理器109。输入处理器101接收从例如键盘等输入设备输入的汉语句子。语素分析器102对该输入的汉语句子执行一个公知的语素分析处理,来将该句子拆分成语素。语素是具有含义的最小的语言单位,并可以包括一个或多个音素。虽然在该实施例中输入的汉语句子通过语形学分析被拆分成词(语素),但其还可以通过其他的分析处理来拆分。语法分析器103根据语法规则(约束)和各种优选规则分析每个输入的汉语句子的依赖结构。在该实施例中,改变关于离合词的依赖关系。语法分析器103包括一个依赖结构分析器104和一个离合词处理器105。依赖结构分析器104分析在拆分的词之间的依赖关系,来确定这些拆分的词如何彼此依赖。更具体地,该依赖结构分析器104确定哪个词依赖于哪个词而哪个词被哪个词依赖,并在一个汉语分析表121中记录每个被分析的词。离合词处理器105确定每个拆分的词是否是形成一个离合词的头元素词或尾元素词。如果该拆分的词被确定为是一个离合词的一部分,那么离合词处理器105就将该头元素词和尾元素词组合以形成该离合词。然后离合词处理器105在汉语字典文件111中搜索该组合的词,并且以该离合词替换依赖于该头元素词和尾元素词的(以该头元素词和尾元素词为依赖目标的)每个词的依赖目标。含义分析器106分析已经分析过依赖结构的每个汉语句子的含义和内容。翻译器107查阅一个汉语-日语翻译字典文件112,并接着将该汉语句子的依赖结构翻译(转换)成等价的日语句子的依赖结构。日语创建器108从由翻译器107翻译的等价的日语句子的依赖结构创建一个日语句子。输出处理器109将由日语创建器108创建的日语句子输出到一个例如显示装置或打印机的输出装置。汉语字典文件111和汉语-日语翻译字典文件112被保存在硬盘驱动器(HDD)110中。由语素分析器102创建的汉语分析表121,和由翻译器107创建的日语分析表122被保存在随机存取存储器(RAM)120中。虽然汉语分析表121和日语分析表12本文档来自技高网
...

【技术保护点】
一种用于分析汉语的装置,包括:依赖结构分析器,用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系,这些词通过将一个汉语句子拆分成语素而得到;以及离合词处理器,所述离合词处理器查阅离合词信息,所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词,该离合词处理器从这些被分析的词中检测该第一词和第二词,该离合词处理器将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词和该第二词所形成的该离合词。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:出羽达也
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1