一种对双语语料库进行句子对齐的方法及装置制造方法及图纸

技术编号:8161556 阅读:305 留言:0更新日期:2013-01-07 19:33
本发明专利技术实施例公开了一种对双语语料库进行句子对齐的方法及装置,其中双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表;根据候选翻译对列表中的每个翻译对的翻译概率生成双语词典;以双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考种子翻译对的上下文内容对双语词典进行扩展;将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;依据相似度对源句子和目标句子进行对齐。通过本发明专利技术实施例,能够简化句子对齐时的流程,进而提高句子对齐的效率。

【技术实现步骤摘要】

本专利技术一般地涉及数据处理
,尤其是一种对双语语料库进行句子对齐的方法及装置
技术介绍
目前,统计的方法越来越多的应用在自然语言处理领域中,因此语料的作用也越来越重要。其中双语平行语料(简称双语语料)指的是由两种语言(分别称为源语言F和目标语言E)构成的语料,并且该语料以句子为单位互为译文。在很多自然语言处理任务中,双语语料是重要的知识源,例如统计机器翻译、跨语言检索等领域。因此,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。很多情况下,大量的双语语料容易获得,例如从双语网站或多个语言版本的文献 资料等,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落为单位对齐的,有些甚至是按照整篇文本来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料(也可以称为原始语料)整理成需要的句对齐格式。现有技术中对双语语料库进行句子对齐的方法主要有以下几种基于句子长度分布的方法;该方法考虑源语言跟目标语言的句子长度信息,根据句子长度的分布来寻找对齐关系,但是这种方法的鲁棒性不好,只能用于特定的一些语言之间;基于词典的方法但是词典作为不可或缺的资源很多情况下不容易获得,或者已有的词典与双语语料并不是同一领域的,因此基于词典的方法局限性比较大,且不容易扩展。基于统计的方法可以将基于句子长度分布的方法和基于词典的方法相结合,但是基于统计的方法复杂度高,在处理大规模数据时非常耗时,因此也无法满足实际需求。总之,现有技术中对双语语料进行句子对齐时,不仅在实现时复杂度高且非常耗时,而且也会因此而导致现有技术的效率非常低下。
技术实现思路
有鉴于此,本专利技术实施例提供了一种对双语语料库进行句子对齐的方法及装置,能够简化句子对齐时的流程,进而可以提高句子对齐的效率。根据本专利技术实施例的一个方面,提供一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;以及依据所述相似度对源句子和目标句子进行对齐。根据本专利技术实施例的另一个方面,提供一种对双语语料库进行句子对齐的装置,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,包括候选翻译对列表生成模块,用于针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;双语词典生成模块,用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;双语词典扩展模块,用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;目标语言翻译模块,用于基于扩展后的双语词典,将源块中的源句子翻译成目标语言;相似度计算模块,用于计算翻译结果与目标块中的目标句子之间的相似度;以及对齐模块,用于依据所述相似度对源句子和目标句子进行对齐。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述一种对双语语料库进行句子对齐的方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可·执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述一种对双语语料库进行句子对齐的方法。根据本专利技术实施例的上述一种方法,能够通过双语词典的获取以及扩充,快速的从双语语料中确定出双语词典,进而能够依据双语词典来计算源句子与目标句子之间的相似度,这样就能够在对齐过程中依据相似度来进行,将相似度较高或者符合一定条件的源句子和目标句子进行对齐,这样既简化了句子对齐的流程,提高了对齐效率,还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。在下面的说明书部分中给出本专利技术实施例的其他方面,其中,详细说明用于充分地公开本专利技术实施例的优选实施例,而不对其施加限定。附图说明下面结合具体的实施例,并参照附图,对本专利技术实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图I是示出作为本专利技术实施例提供的第一种方法的流程图;图2是示出本专利技术实施例的第一种方法中步骤SlOl的一种流程图;图3是示出本专利技术实施例的第一种方法中步骤SlOl的另一种流程图;图4是示出本专利技术实施例的第一种方法中步骤S102的流程图;图5是示出本专利技术实施例的第一种方法中步骤S105的流程图;图6是示出本专利技术实施例的第一种方法中步骤S106的流程图;图7是示出作为本专利技术实施例提供的另一种方法的流程图;图8是示出作为本专利技术实施例提供的第一种装置的示意图;图9是示出本专利技术实施例的第一种装置中候选翻译对列表生成模块801的一种示意图10是示出本专利技术实施例的第一种装置中候选翻译对列表生成模块801的另一种不意图;图11是示出本专利技术实施例的第一种装置中双语词典生成模块802的示意图;图12是示出本专利技术实施例的第一种装置中相似度计算模块805的示意图;图13是示出本专利技术实施例的第一种装置中对齐模块806的示意图;图14是示出作为本专利技术实施例提供的另一种装置的示意图;图15是示出作为本专利技术的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。具体实施方式 下面参照附图来说明本专利技术的实施例。参见图1,本专利技术实施例提供的第一种对双语语料库进行句子对齐的方法,可以包括SlOl :针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。在实际应用中,原始语料往往是以段落或者篇章为最小单元对齐的,在本专利技术中这些最小的对齐单元称为“块”。例如,在一个块B中,如果一个词a在源语言F中是关键词,那么它的译文b在目标语言E中很有可能也是关键词;因此可以先找到源语言F和目标语言E中的关键词生成候选翻译对列表。具体的,参考图2所示,所述步骤SlOl在实际应用中可以包括S201 :分别计算源块和目标块中各个词的词频/反文档频率值。本专利技术实施例中采用词汇的词频/反文档频率(TF/IDF,term frequency-inversedocument frequency)值来衡量源语言或者目标语言中的一个词是否为关键词。其中,词w的TF和IDF值分别表示为公式(I)和⑵WN(1)(2) W其中WNw表示w在块B中的词频,WNb表本文档来自技高网...

【技术保护点】
一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;以及依据所述相似度对源句子和目标句子进行对齐。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1