用于机器翻译的中文生成装置制造方法及图纸

技术编号:2886987 阅读:190 留言:0更新日期:2012-04-11 18:40
用于机器翻译的中文生成装置使用中文生成的统计数据取代大量的与语义、语法相关的规则,统计数据是从加标记的中文语言资料库中搜索的。为克服中文生成需要大量语义或语法规则的问题,中文句子的构成被分成基本句型条目和其他条目。每一中文动词可能生成的基本句型的概率和其他条目的位置概率是从中文语言资料库中搜索并存储在缓冲单元中。使用分支界限法,能找出最佳基本句型和其他条目的位置并生成最适当的中文句子。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术设计用于机器翻译的中文生成装置,其使用统计数据代替大量的语义的和语法规则。在二十世纪,人们必须不断学习以避免与社会隔绝。然而,大量新的知识是来自外国,在提高读外国文献的效率方面,翻译是非常重要的。为了改善文件翻译的质量和效率,近来的趋势是采用计算机代替人的翻译工作。这样的设备通常称作机器翻译设备。在这样的机器翻译设备中,将被翻译的语言作为源语言,而已经从输入语言翻译的输出语言称作目标语言。例如,日文至中文的机器翻译设备的源语言是日文,目标语言是中文。此外,在机器翻译设备中使用翻译格式可以是直接形式、中间变换形式或核心语言形式,这取决于将要翻译的语言的特征。通常,中间转换形式是常用的一种形式。参照图8,采用中间变换形式的常规机器翻译设备包括一源语言语法分析单元1、一中间结构转换单元2、一目标语言生成单元3和一词典单元4。然而机器翻译的质量取决于输入句子是否在源语言语法分析单元中被正确地分析,取决于在中间结构变换单元2中是否将源语言和目标语言之间的差别消除(例如,解决在文法或意思上的差别,或者是词汇条目翻译的选择),并取决于在目标语言生成单元3中是否根据目标语言的语法规则正确地生成目标语言。然而,中文句子随着在句子中词汇位置的变化将具有不同的意思。例如,在这些句子中,和,由于前面的句子中“在桌子上”的位置不同于后面的句子中“在桌子上”的位置,所以两个句子具有不同的意思。因此,在中文句子中一些词汇的排列具有给定的顺序,除非那样排列,否则将生成不正确的中文句子。下面将是一个例子,其中时间词汇必须被放在地点词汇之前。(正确的中文句子)他*昨天**在学校*吃饭。(错误的中文句子)他*在学校**昨天*吃饭。在另一方面,在中文句子中一些词汇的顺序是不受限制的。下面将是一个例子,其中时间词汇可以放置在主语之前或之后。(时间词汇放在主语之前)昨天他去学校。(时间词汇放在主语之后)他昨天去学校。因此,如果机器翻译设备的目标语言是中文,那么将要解决的最重要的问题是如何正确地确定在中文句子中词汇的排列顺序。参照图9,在中国台湾的专利公报324804中揭示了一种机器翻译使用的中文生成装置。在图9中中文生成装置的预处理单元200使用虚节点对省略了如附图说明图10A所示输入的从属结构(一种中间结构)中的主语的子结构恢复主语节点。接着,通过使用每一子结构的主条目(动词或形容词)的动词分类码作为检索键,基本条目展开单元300根据基本句型产生包括基本条目的如图10B所示的一基本句子结构,其中的基本句型是存储在基本句型存储器单元350中的。不受限制条目展开单元400通过使用在从属结构中的每个不受限制条目的格位标记、源语言的表面格位标记、语义支配码和自身的语义码作为检索键,按照句子条目信息存储单元450检索句首的表面格位标记、句尾的表面格位标记和句子条目槽,并按照在句子结构中句子条目槽位置的对应位置生成图10C的每一不受限制条目的句子结构。一特定句型生成单元500根据每一动词或形容词的特定句型属性,产生图10D的特殊句型句子结构。一条目位置调整单元600从句子格式条目顺序存储单元650中顺序地检索在句子结构中每一句子条目槽中的条目排列顺序限制,并调整在句子结构中每一句子条目槽中条目的排列顺序,如图10E所示。然后,一后期处理单元700进行在句子结构上其他辅助条目和标点符号的生成,并且排列该句子结构。一输出单元800输出翻译结果“我把这本书放在车子里”。一缓冲器单元900被用于临时地存储来自基本条目展开单元300,不受限制条目展开单元400和条目位置调整单元600的输出。前面所述的用于机器翻译的常规中文生成装置存在的缺点如下1.中文的动词或形容词有可能生成的多个中文基本句型,例如,动词“送”可以生成如下的基本句型。(其中S代表主语,V代表动词,O代表直接宾语或间接宾语,C代表补语)。SVOO我送他书。SVOOC我送他书当作纪念。SVOC我送他回家。SVO他会送命。因此,用于机器翻译的常规中文生成装置不能用动词分类表编码解决基本句型中的差别问题。这个问题必须由启发式的方法解决,因此,不能确保翻译的质量。2、由于不受限制的条目的位置是按照句子条目信息存储单元的内容而不是按照相关条目状态指定的,所以翻译的质量不能得到改善。例如,如果时间词汇“今天”的位置被指定为2,常规中文生成装置只能生成句子“我今天毕业”,而不能生成强调“今天”的句子“今天我毕业”。3、由于在同一槽中在不受限制条目中相关位置的调整是与句子条目顺序存储单元的内容相关的,所以当句子条目顺序存储单元的内容不完整时,可能会产生奇怪或不正确的中文句子。因此,本专利技术的主要目的是提供一种能够克服上述已有技术所具有的缺点的用于机器翻译的中文生成装置。按照本专利技术,一种用于机器翻译的中文生成装置,其使用统计信息代替大量的语义的、语法的和句结构规则并将输入中文句子的从属结构变换成中文句子,该装置包括统计信息存储单元,用于存储中文句子的从属结构的变元条目、可能的句型、每一槽的可能的格位标记排列和相应的概率值;辅助条目信息存储单元,用于存储格位标记、源语言表面格位标记、变元语义的编码、修饰成分的语义码和相应的句首表面格位标记和句尾表面格位标记;主条目位置确定单元,用于从输入中文句子的从属结构中搜索子结构,用于以子结构的主要变元作为检索键从统计信息存储单元中搜索在每一槽中的相应的可能的句型和相应的可能的格位标记排列,以及对应的概率值,并且按照评估函数顺序地生成中文句结构;辅助条目生成单元,用于从中文句结构中搜索页节点条目的格位标记、源语言表面格位标记、变元语义的编码和对应节点条目语义码作为检索键,用于按照检索键从辅助条目信息存储单元搜索句首表面格位标记和句尾表面格位标记,并顺序地为中文句结构生成介词结构;以及后期处理单元,用于从中文句结构中搜索每一从句结构,用于生成疑问句或“把”字句或否定句或被动句或祈使句和相应的时态标记和标点符号,并用于通过使用线形化方法将中文句结构变换成中文句子。根据本专利技术的用于机器翻译的中文生成装置,主条目位置确定单元从输入从属结构中搜索子结构;以子结构的主要变元作为检索键从统计信息存储单元中搜索在每一槽中的相应的可能的句型和相应的可能的格位标记排列,以及对应的概率值;并且按照评估函数顺序地生成中文句结构;以及在缓冲单元存储中文句结构。然后,辅助条目生成单元从中文句结构中搜索页节点的格位标记、源语言表面格位标记、变元语义的编码和对应节点条目语义码作为检索键,按照该检索键从辅助条目信息存储单元中搜索句首表面格位标记和句尾表面格位标记,并在中文句结构的相应位置生成介词结构。然后,后期处理单元从中文句结构中搜索每一从句结构,按照中文语法结构执行疑问句、“把”字句、否定句、被动句、祈使句和相应的时态标记和标点符号的生成,并最终通过使用线形化方法搜索生成的中文句子并将生成的中文句子输出到输出单元。通过下面结合附图对本专利技术实施例的详细描述,本专利技术的其他特征和优点将更为清楚明显。图1是本专利技术的一个实施例的用于机器翻译的中文生成装置的系统方块图;图2是本专利技术的实施例的主条目位置确定单元的处理流程图;图3是本专利技术的实施例的辅助条目生成单元的处理流程图;图4是本专利技术的实施例的本文档来自技高网...

【技术保护点】
一种用于机器翻译的中文生成装置,其将中文句子的从属结构变换成中文句子,其中所述装置包括:统计信息存储单元,用于存储中文句子的从属结构的变元条目、可能的句型、每一槽的可能的格位标记排列和相应的概率值;辅助条目信息存储单元,用于存储格位 标记、源语言表面格位标记、变元语义的编码、修饰成分的语义码和相应的句首表面格位标记和句尾表面格位标记;主条目位置确定单元,用于从输入中文句子的从属结构中搜索子结构,用于以子结构的主要变元作为检索键从统计信息存储单元中搜索在每一槽中的相应 的可能的句型和相应的可能的格位标记排列,以及对应的概率值,并且按照评估函数顺序地生成中文句结构;辅助条目生成单元,用于从中文句结构中搜索页节点条目的格位标记、源语言表面格位标记、变元语义的编码和对应节点条目语义码作为检索键,用于按照检索 键从辅助条目信息存储单元搜索句首表面格位标记和句尾表面格位标记,并顺序地为中文句结构生成介词结构;以及后期处理单元,用于从中文句结构中搜索每一从句结构,用于生成疑问句或“把”字句或否定句或被动句或祈使句和相应的时态标记和标点符号,并用于 通过使用线形化方法将中文句结构变换成中文句子。...

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:郭俊桔
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1