源语言改写处理方法和设备及机器翻译系统技术方案

技术编号:8532871 阅读:199 留言:0更新日期:2013-04-04 15:53
本发明专利技术提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明专利技术的处理方法、设备或系统,能够将一些复合长句降解并重组为若干非复合的子句,降低机器翻译过程中的翻译难度,提高翻译精度和翻译效率。本发明专利技术适用于自然语言处理领域。

【技术实现步骤摘要】
源语言改写处理方法和设备及机器翻译系统
本专利技术总体上涉及自然语言处理领域,具体来说涉及一种可用于辅助机器翻译的 源语言改写处理方法和设备,以及一种包括该设备的机器翻译系统。
技术介绍
机器翻译是利用计算设备把一种自然语言(即,源语言)转换为另一种自然语言 (即,目标语言)的过程,是自然语言处理(Natural Language Processing)的一个分支。 机器翻译通常利用词典和训练语料来学习获得源语言和目标语言的词汇、语法及其对应特 征。一般来说,在源语言和目标语言之间在词汇和语序等方面往往存在一些差异,使得对于 存在此类差异的语句的翻译成为机器翻译过程中的难点,由此导致机器翻译的精度较低。 如何更好地提高机器翻译的精度一直是迫切要解决的问题。改写是一种服务于提高机器翻 译精度的方法,可以通过词典、源语言和目标语的对应关系、语料库等多种资源和手段将源 语言改变为易于机器反应系统理解和处理的形式。专利技术人发现,根据源语言自身的语法特点进行改写可以在不依赖外部资源支持的 情况下,化繁为简,变难为易,将源语言改写为一种机器翻译系统易于理解和处理的形式, 显著提高机器翻译系统的速度和精度。如果在机器翻译前预先对源语言的文字符号序列进 行处理,将源语言语句中复杂的语句(多个谓词嵌套的复合句)拆分重构为简单的单谓词 非嵌套子句的句子,使其成为易于翻译的文字符号序列,将能够大幅度地降低机器翻译的 难度,提高翻译的精度和质量。基于这个认识,专利技术人做出了本专利技术。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本 理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的 关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的上述缺陷,本专利技术的目的之一是提供一种源语言改写处理方法和 设备,其能够在进行传统的机器翻译之前对要翻译的源语言语句进行改写处理,将复杂的 难翻译的语句转换为简单的易于翻译的语句,从而能够部分解决传统的机器翻译过程中存 在的翻译精度低的问题。本专利技术的另一个目的是提供包括上述源语言改写处理设备的机器翻译系统,以及 相应的计算机可读存储介质和程序产品。根据本专利技术的一个实施例,提供了一种源语言改写处理方法,该源语言改写处理 方法包括对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定待处理语 句中的包含子句嵌套结构的语句;基于语法分析结果对所确定的包含子句嵌套结构的语句 进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套 子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。根据本专利技术的另一个实施例,提供了一种源语言改写处理设备,该源语言改写处 理设备包括语法分析单元,被配置用于对源语言语句中的待处理语句进行语法分析,并根 据语法分析结果确定待处理语句中的包含子句嵌套结构的语句;以及语句重构单元,被配 置用于基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个 包含非嵌套子句的语句,并用上述至少一个包含非嵌套子句的语句中的含有最多非嵌套子 句的语句来替换上述包含子句嵌套结构的语句。根据本专利技术的又一个实施例,提供了一种机器翻译系统,该机器翻译系统包含上 述的源语言改写处理设备。通过将根据本专利技术实施例的上述处理方法和设备应用到传统的机器翻译过程中, 能够实现以下益处通过在传统的机器翻译之前对源语言的语句进行处理,将源语言语句 中的包含子句嵌套结构的复杂语句转换成不包含子句嵌套结构的简单语句,使得处理后的 源语言语句在后续进行的机器翻译过程中的翻译难度降低,从而能够提高机器翻译过程的 翻译精度和翻译效率。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优 点将变得更加明显。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1是根据本专利技术实施例的源语言改写处理方法的流程图2是根据本专利技术实施例的图1中的步骤S140的具体处理过程的流程图3是示出根据本专利技术实施例的源语言改写处理方法的示例性处理流程的示意 图4A是以语法分析树形式表示的拆分前语句的语法分析结果;图4B-4D分别为以语法分析树形式表示的第一、第二和第三候选语句的语法分析结果;图5是根据本专利技术实施例的处理方法的另一种具体实现方式中包括的语义搭配 异常处理过程的流程图6是示出语句“他总是吃父母”的语义角色自动标注的分析树的示意图7是示意性地示出根据本专利技术实施例的处理设备的结构的框图8是示出如图7中示出的语句重构单元的一个具体例子的结构的示意图;以及图9是示出了在其中可以实现根据本专利技术实施例的方法和/或设备的通用个人计 算机的示例性结构的框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以 便有助于提高对本专利技术实施例的理解。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中 仅仅示出了与根据本专利技术的方案密切相关的设备结构和/或处理步骤,而省略了与本专利技术 关系不大的其他细节。图1是根据本专利技术实施例的源语言改写处理方法的流程图。如图1所示,根据本专利技术实施例的源语言改写处理方法100开始于步骤S110,然后 在步骤S120中对待处理语句进行语法分析。在此所提及的待处理语句可以是要进行机器翻译的源语言语句本身,也可以是对 上述源语言语句进行初步筛选后得到的语句,例如可以是从上述源语言语句中筛选出的满 足一定条件的语句。其中,上述“满足一定条件的语句”例如可以是其中所包含的谓词总数 和总词数均分别高于预设值的语句。这里,所说的“谓词”包括动词和形容词。具体地,在本专利技术实施例的方法的一个具体示例中,可以通过下述方式确定将要 利用本专利技术实施例的处理方法进行处理的待处理语句对等待进行机器翻译的源语言语句 进行分词和词性标注处理,然后根据分词和词性标注处理的结果,从上述源语言语句中筛 选得到满足以下两个条件的语句语句中包含的谓词总数高于第一预设阈值;且语句中包 含的总词数高于第二预设阈值。这样筛选出的语句是存在较高的翻译难度的一类长的、复杂的句子,由此能够进 一步缩小处理对象的范围,进而可以提高处理速度和处理效率。此本文档来自技高网...

【技术保护点】
一种源语言改写处理方法,包括:对源语言语句中的待处理语句进行语法分析;根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句;基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。

【技术特征摘要】
1.一种源语言改写处理方法,包括 对源语言语句中的待处理语句进行语法分析; 根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句; 基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构,以获得至少一个包含非嵌套子句的语句;以及 用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。2.根据权利要求1所述的源语言改写处理方法,在进行语法分析的步骤之前还包括步骤从源语言语句中筛选满足下列条件的语句作为所述待处理语句 语句中的谓词总数高于第一预设阈值;以及 语句中的总词数高于第二预设阈值。3.根据权利要求1所述的源语言改写处理方法,其中,对所述包含子句嵌套结构的语句进行重构的步骤进一步包括 基于所述语法分析结果,将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分;以及 对所述非嵌套子句和所述多个句子成分进行调序,作为调序的结果,获得至少一个包含非嵌套子句的语句。4.根据权利要求3所述的源语言改写处理方法,其中,所述调序步骤进一步包括 将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序,或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。5.根据权利要求1所述的源语言改写处理方法,其中,所述用含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句的步骤进一步包括 在所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句的个数大于I的情况下,利用预定语言模型对每个所述含有最多非嵌套子...

【专利技术属性】
技术研发人员:张洁葛乃晟郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1