一种对双语语料库进行句子对齐的方法及装置制造方法及图纸

技术编号:8161556 阅读:309 留言:0更新日期:2013-01-07 19:33
本发明专利技术实施例公开了一种对双语语料库进行句子对齐的方法及装置,其中双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表;根据候选翻译对列表中的每个翻译对的翻译概率生成双语词典;以双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考种子翻译对的上下文内容对双语词典进行扩展;将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;依据相似度对源句子和目标句子进行对齐。通过本发明专利技术实施例,能够简化句子对齐时的流程,进而提高句子对齐的效率。

【技术实现步骤摘要】

本专利技术一般地涉及数据处理
,尤其是一种对双语语料库进行句子对齐的方法及装置
技术介绍
目前,统计的方法越来越多的应用在自然语言处理领域中,因此语料的作用也越来越重要。其中双语平行语料(简称双语语料)指的是由两种语言(分别称为源语言F和目标语言E)构成的语料,并且该语料以句子为单位互为译文。在很多自然语言处理任务中,双语语料是重要的知识源,例如统计机器翻译、跨语言检索等领域。因此,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。很多情况下,大量的双语语料容易获得,例如从双语网站或多个语言版本的文献 资料等,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落为单位对齐的,有些甚至是按照整篇文本来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料(也可以称为原始语料)整理成需要的句对齐格式。现有技术中对双语语料库进行句子对齐的方法主要有以下几种基于句子长度分布的方法;该方法考虑源语言跟目标语言的句子长度信息,根据句子长度的分布来寻找对齐关系,但是这种方法的鲁棒性不好,只能用于特定的一些语言之间;基于词典的方法但是词典作为不可或缺的资源很多情况本文档来自技高网...

【技术保护点】
一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句...

【技术特征摘要】

【专利技术属性】
技术研发人员:郑仲光孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1