一种复述资源获取方法及系统技术方案

技术编号:8682709 阅读:261 留言:0更新日期:2013-05-09 02:42
本发明专利技术公开了一种复述资源获取方法及系统。一种复述资源获取方法包括:预先获得第一语言A和第二语言B之间的平行语料(a0,b0),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA;利用sys_AB对a0进行翻译,得到b1;进一步利用sys_BA对b1进行翻译,得到a2;利用sys_BA对b0进行翻译,得到a1;以a0为标准,对a2和a1中的对应句子进行翻译质量评价,将a2得分超过a1的对应句子构成句对集合(a2’,a1’);在b1中获取与a2’对应的句子集合b1’、在b0中获取与a1’对应的句子集合b0’,得到第二语言的复述句对集合(b0’,b1’)。应用上述方案,有利于获得准确率更高的复述资源,而且得到的翻译资源也可以更加适用于翻译系统。

【技术实现步骤摘要】

本申请涉及计算机应用
,特别是涉及ー种复述资源获取方法及系统
技术介绍
机器翻译(Machine Translation),又称为自动翻译,是利用计算机把ー种自然源语言转变为另ー种自然目标语言的过程,一般应用于两种自然语言之间的整句或全文的翻译。统计机器翻译(Statistical Machine Translation, SMT)是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的ー种方法。统计机器翻译的基本思想是:通过对一定数量的平行语料(bilingual corpus也称双语互译语料)进行统计分析,然后通过训练来构建统计翻译模型,进而使用此模型进行翻译。目前,机器翻译已经从早期基于词的翻译逐渐过渡到基于短语的翻译,并正在融合语义信息,以进ー步提高翻译的智能性和精确性。在对机器翻译的研究过程中,目前讨论得较为广泛的ー种技术是复述(paraphrases)技木。复述泛指对相同语义的不同表达形式,是人类语言中的ー种普遍现象。研究表明,复述可以在多个方面改善翻译系统的性能。例如,基于复述技术,可以解决在复述过程中遇到的生僻短语复述为同义的常用短语,从而提高翻译系统覆盖率本文档来自技高网...

【技术保护点】
一种复述资源获取方法,其特征在于,包括:预先获得第一语言A和第二语言B之间的平行语料(a0,b0),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA;利用sys_AB对a0进行翻译,得到b1;进一步利用sys_BA对b1进行翻译,得到a2;利用sys_BA对b0进行翻译,得到a1;以a0为标准,对a2和a1中的对应句子进行翻译质量评价,将a2得分超过a1的对应句子构成句对集合(a2’,a1’);在b1中获取与a2’对应的句子集合b1’、在b0中获取与a1’对应的句子集合b0’,得到第二语言的复述句对集合(b0’,b1’)。

【技术特征摘要】
1.一种复述资源获取方法,其特征在于,包括: 预先获得第一语言A和第二语言B之间的平行语料(aO,bO),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA ; 利用sys_AB对aO进行翻译,得到bl ;进一步利用sys_BA对bl进行翻译,得到a2 ; 利用sys_BA对bO进行翻译,得到al ; 以aO为标准,对a2和al中的对应句子进行翻译质量评价,将a2得分超过al的对应句子构成句对集合(a2’,al’); 在bl中获取与a2’对应的句子集合bl’、在bO中获取与al’对应的句子集合bO’,得到第二语言的复述句对集合(bO’,bl’ )。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括: 从复述句对集合(bO’,bl’ )中提取复述规则。3.根据权利要求2所述的方法,其特征在于,所述从复述句对集合(bO’,bl’)中提取复述规则,包括: 建立bO’到bl’中句子的词对齐关系; 对所建立的词对齐关系进行过滤; 从过滤结果中提取复述规则。4.根据权利要求3所述的方法,其特征在于,所述建立bO’到bl’中句子的词对齐关系,包括: 根据平行语料(aO,bO)的词对齐关系,以及sys_AB在翻译过程中建立的aO与bl的词对齐关系,建立bO’到bl’中句子的词对齐关系。5.根据权利要求3所述的方法,其特征在于,所述对所建立的词对齐关系进行过滤,包括: 根据预置的词对齐规则,对所建立的词对齐关系进行过滤,其中,所述词对齐规则包括: 如果复述句对中的两个单词具有确定对齐关系,则仅保留该确定对齐关系,删除这两个单词的其他交叉对齐关系; 和/或 停用词及标点仅与停用词或标点具有对齐关系。6.根据权利要求3所述的方法,其特征在于,所述从过滤结果中提取复述规则,包括: 根据预设的复述规则约束条件,从过滤结果中提取复述规则,其中,所述复述规则约束条件包括: 每条复述规则包括左端和右端,分别对应复述前的文本形式和复述后的文本形式; 复述规则左端和右端都由非变量和变量组成,或左端和右端都仅包括非变量; 复述规则左端的变量之间至少有一个非变量。7.按权利要求1至6任一项所述的方法,其特征在于,所述翻译系统sys_AB和sys_BA,是利用平行语料(aO,bO)训练得到。8.一种复述资源获取系统,其特征在于,包括: 初始设置单元,用于预先获得第一语言A和第二语言B之间的平行语料(aO,bO),以及...

【专利技术属性】
技术研发人员:和为吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1