源语言改写处理方法和设备及机器翻译系统技术方案

技术编号:8532871 阅读:214 留言:0更新日期:2013-04-04 15:53
本发明专利技术提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明专利技术的处理方法、设备或系统,能够将一些复合长句降解并重组为若干非复合的子句,降低机器翻译过程中的翻译难度,提高翻译精度和翻译效率。本发明专利技术适用于自然语言处理领域。

【技术实现步骤摘要】
源语言改写处理方法和设备及机器翻译系统
本专利技术总体上涉及自然语言处理领域,具体来说涉及一种可用于辅助机器翻译的 源语言改写处理方法和设备,以及一种包括该设备的机器翻译系统。
技术介绍
机器翻译是利用计算设备把一种自然语言(即,源语言)转换为另一种自然语言 (即,目标语言)的过程,是自然语言处理(Natural Language Processing)的一个分支。 机器翻译通常利用词典和训练语料来学习获得源语言和目标语言的词汇、语法及其对应特 征。一般来说,在源语言和目标语言之间在词汇和语序等方面往往存在一些差异,使得对于 存在此类差异的语句的翻译成为机器翻译过程中的难点,由此导致机器翻译的精度较低。 如何更好地提高机器翻译的精度一直是迫切要解决的问题。改写是一种服务于提高机器翻 译精度的方法,可以通过词典、源语言和目标语的对应关系、语料库等多种资源和手段将源 语言改变为易于机器反应系统理解和处理的形式。专利技术人发现,根据源语言自身的语法特点进行改写可以在不依赖外部资源支持的 情况下,化繁为简,变难为易,将源语言改写为一种机器翻译系统易于理解和处理的形式, 显著提高机器翻译系统的本文档来自技高网...

【技术保护点】
一种源语言改写处理方法,包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句;基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。

【技术特征摘要】
1.一种源语言改写处理方法,包括 对源语言语句中的待处理语句进行语法分析; 根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句; 基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及 用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。2.根据权利要求1所述的源语言改写处理方法,在进行语法分析的步骤之前还包括步骤从源语言语句中筛选满足下列条件的语句作为所述待处理语句 语句中的谓词总数高于第一预设阈值;以及 语句中的总词数高于第二预设阈值。3.根据权利要求1所述的源语言改写处理方法,其中,对所述包含子句嵌套结构的语句进行重构的步骤进一步包括 基于所述语法分析结果,将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分;以及 对所述非嵌套子句和所述多个句子成分进行调序,作为调序的结果,获得至少一个包含非嵌套子句的语句。4.根据权利要求3所述的源语言改写处理方法,其中,所述调序步骤进一步包括 将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序,或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。5.根据权利要求1所述的源语言改写处理方法,其中,所述用含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句的步骤进一步包括 在所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句的个数大于I的情况下,利用预定语言模型对每个所述含有最多非嵌套子...

【专利技术属性】
技术研发人员:张洁葛乃晟郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1