用于分析汉语的装置和方法制造方法及图纸

技术编号：2862530 阅读：191 留言：0更新日期：2012-04-11 18:40

根据本发明专利技术的一个方面的用于分析汉语的装置，包括一个依赖结构分析器，用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系。这些词通过将一个汉语句子拆分成语素而得到。该装置还包括一个查阅离合词信息的离合词处理器，所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词。该离合词处理器从这些分析的词中检测该第一词和该第二词，并随后将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词与该第二词而形成的该离合词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用于在执行一个对汉语语句的词(词语)拆分处理后分析每个词的依赖结构的系统和方法。
技术介绍
在将汉语译成其他语言(例如，日语)的机器翻译处理中，通过语形学(morphological，或称形态学)分析将一个输入的汉语句子拆分成语素(形态素)，并且分析每个语素的依赖目的和依赖者。多数汉语词由两个字符组成。在这些两个字符的词中，有一些词在语素间仅仅有微弱的联系。可以在两个字符的词的语素间插入另外的成分(插入成分)。这样的可以连接语素或在语素间具有一个插入成分的词称为离合词。在附图说明图1所示的表中，例如，词C1是一个表示“散步”的汉语动词。为了形成表示“散一会步”的词组，一个修饰语插入在词C3和词C4之间，如词组C2所示。在这种情况下，词C3和C4每个都是一个独立的词。然而，词C3和C4每个本身都并不具有“散步”的意思。因此，在词组C2中，词C1应当被视为一个词。这些离合词的存在使得在执行汉语机器翻译中的汉语分析处理很困难。为了解决这个问题，可插入在每个离合词的头元素和尾元素之间的插入词必须预先列出。然后在为一个输入的汉语句子执行的语素分析中查阅字典，并确定每个语素是否形成了一个离合词。在语素形成一个离合词的情况中，顺序地执行诸如依赖结构分析和含义分析的处理，其中每个词单元是包含两个或更多字符的词(参见“汉语-日语日机器翻译中离合词的处理”，IPSJ杂志，Vol.35，No.9)。然而，在汉语句子中一个离合词的头元素和尾元素之间可插入各种类型的插入词。因此，要预先列出所有的插入词是非常困难的。即便能列出所有的插入词，但它们巨大的数量使在语素分...

【技术保护点】
一种用于分析汉语的装置，包括：依赖结构分析器，用于通过从每个词提取作为每个词的依赖目的的父词和作为依赖者的子词来分析词之间的依赖关系，这些词通过将一个汉语句子拆分成语素而得到；以及离合词处理器，所述离合词处理器查阅离合词信息，所述离合词信息包括作为汉语语素并能成为离合词的一部分的第一词和与该第一词形成该离合词的第二词，该离合词处理器从这些被分析的词中检测该第一词和第二词，该离合词处理器将依赖于该第一词和该第二词的词的依赖目的改变为通过组合该第一词和该第二词所形成的该离合词。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：出羽达也，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人