一种复述资源获取方法及系统技术方案

技术编号:8682709 阅读:247 留言:0更新日期:2013-05-09 02:42
本发明专利技术公开了一种复述资源获取方法及系统。一种复述资源获取方法包括:预先获得第一语言A和第二语言B之间的平行语料(a0,b0),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA;利用sys_AB对a0进行翻译,得到b1;进一步利用sys_BA对b1进行翻译,得到a2;利用sys_BA对b0进行翻译,得到a1;以a0为标准,对a2和a1中的对应句子进行翻译质量评价,将a2得分超过a1的对应句子构成句对集合(a2’,a1’);在b1中获取与a2’对应的句子集合b1’、在b0中获取与a1’对应的句子集合b0’,得到第二语言的复述句对集合(b0’,b1’)。应用上述方案,有利于获得准确率更高的复述资源,而且得到的翻译资源也可以更加适用于翻译系统。

【技术实现步骤摘要】

本申请涉及计算机应用
,特别是涉及ー种复述资源获取方法及系统
技术介绍
机器翻译(Machine Translation),又称为自动翻译,是利用计算机把ー种自然源语言转变为另ー种自然目标语言的过程,一般应用于两种自然语言之间的整句或全文的翻译。统计机器翻译(Statistical Machine Translation, SMT)是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的ー种方法。统计机器翻译的基本思想是:通过对一定数量的平行语料(bilingual corpus也称双语互译语料)进行统计分析,然后通过训练来构建统计翻译模型,进而使用此模型进行翻译。目前,机器翻译已经从早期基于词的翻译逐渐过渡到基于短语的翻译,并正在融合语义信息,以进ー步提高翻译的智能性和精确性。在对机器翻译的研究过程中,目前讨论得较为广泛的ー种技术是复述(paraphrases)技木。复述泛指对相同语义的不同表达形式,是人类语言中的ー种普遍现象。研究表明,复述可以在多个方面改善翻译系统的性能。例如,基于复述技术,可以解决在复述过程中遇到的生僻短语复述为同义的常用短语,从而提高翻译系统覆盖率;复述技术还可以对待翻译文本的句式进行改写,生成更适合翻译系统处理的句子,从而降低翻译系统的处理难度。利用复述进行机器翻译,需要有足够的复述资源作为支持。这里所说的复述资源,包括粒度较大的复述句,也包括粒度较小的复述短语或复述规则。其中,复述句可以直接用作基于统计的复述生成的训练语料,也可以用于进ー步抽取复述短语和复述规则。现有技术中,用来获得复述资源的主要方法是:从潜在存在复述资源的特定数据中提取复述资源,例如:针对同一主题事件的不同新闻报导等等。这种方法的缺陷一方面在于可用的资源数量较少;另一方面,在提取复述资源时,需要利用文本聚类、相似度计算等技术找到相对应的文本资源,然后构成可能的复述资源。不仅实现复杂,而且最终获取的复述资源受聚类误差等因素影响,往往含有大量噪声,准确率较低,难以满足机器翻译系统的实际需要。
技术实现思路
为解决上述技术问题,本申请实施例提供一种复述资源获取方法及系统,以获取较高质量的复述资源,技术方案如下:一种复述资源获取方法,包括:预先获得第一语言A和第二语言B之间的平行语料(a0,b0),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA ;利用sys_AB对a0进行翻译,得到bl ;进ー步利用sys_BA对bl进行翻译,得到a2 ;利用sys_BA对b0进行翻译,得到al ;以a0为标准,对a2和al中的对应句子进行翻译质量评价,将a2得分超过al的对应句子构成句对集合(a2’,al’ );在bl中获取与a2’对应的句子集合bl’、在b0中获取与al’对应的句子集合b0’,得到第二语言的复述句对集合(b0’,bl’ )。在本申请的ー种实施方式中,上述方法进ー步包括:从复述句对集合(b0’,bl’ )中提取复述规则。在本申请的ー种实施方式中,所述从复述句对集合(b0’,bl’ )中提取复述规则,包括:建立b0’到bl’中句子的词对齐关系;对所建立的词对齐关系进行过滤;从过滤结果中提取复述规则。在本申请的ー种实施方式中,所述建立b0’到bl’中句子的词对齐关系,包括:根据平行语料(a0,b0)的词对齐关系,以及sys_AB在翻译过程中建立的a0与bl的词对齐关系,建立b0’到bl’中句子的词对齐关系。在本申请的ー种实施方式中,所述对所建立的词对齐关系进行过滤,包括:根据预置的词对齐规则,对所建立的词对齐关系进行过滤,其中,所述词对齐规则包括:如果复述句对中的两个单词具有确定对齐关系,则仅保留该确定对齐关系,删除这两个单词的其他交叉对齐关系;和/或停用词及标点仅与停用词或标点具有对齐关系。在本申请的ー种实施方式中,所述从过滤结果中提取复述规则,包括:根据预设的复述规则约束条件,从过滤结果中提取复述规则,其中,所述复述规则约束条件包括:每条复述规则包括左端和右端,分别对应复述前的文本形式和复述后的文本形式;复述规则左端和右端都由非变量和变量组成,或左端和右端都仅包括非变量;复述规则左端的变量之间至少有一个非变量。在本申请的ー种实施方式中,所述翻译系统sys_AB和sys_BA,是利用平行语料(a0,b0)训练得到。一种复述资源获取系统,包括:初始设置単元,用于预先获得第一语言A和第二语言B之间的平行语料(a0,b0),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA ;第一翻译单元,用于利用sys_AB对a0进行翻译,得到bl ;进ー步利用sys_BA对bl进行翻译,得到a2;第二翻译单元,用于利用sys_BA对b0进行翻译,得到al ;翻译质量评价单元,用于以a0为标准,对a2和al中的对应句子进行翻译质量评价,将a2得分超过al的对应句子构成句对集合(a2’,al’);复述句对获取单元,用于在bl中获取与a2’对应的句子集合bl’、在b0中获取与al’对应的句子集合b0’,得到第二语言的复述句对集合(b0’,bl’)。在本申请的ー种实施方式中,上述系统进ー步包括:复述规则提取単元,用于从复述句对集合(b0’,bl’ )中提取复述规则。在本申请的ー种实施方式中,所述复述规则提取単元,包括:词对齐子単元,用于建立b0’到bl’中句子的词对齐关系;词对齐过滤子単元,用于对所述词对齐子单元所建立的词对齐关系进行过滤;复述规则提取子単元,用于从所述词对齐过滤子単元的过滤结果中提取复述规贝1J。在本申请的ー种实施方式中,所述词对齐子单元,具体配置为:用于根据平行语料(a0,b0)的词对齐关系,以及sys_AB在翻译过程中建立的a0与bl的词对齐关系,建立b0’到bl’中句子的词对齐关系。在本申请的ー种实施方式中,所述词对齐过滤子単元,具体配置为:用于根据预置的词对齐规则,对所建立的词对齐关系进行过滤,其中,所述根据预置的词对齐规则,对所建立的词对齐关系进行过滤,包括:如果复述句对中的两个单词具有确定对齐关系,则仅保留该确定对齐关系,删除这两个单词的其他交叉对齐关系;和/或停用词及标点仅与停用词或标点具有对齐关系。在本申请的ー种实施方式中,所述复述规则提取子単元,具体配置为:用于根据预设的复述规则约束条件,从过滤结果中提取复述规则,其中,所述复述规则约束条件包括:每条复述规则包括左端和右端,分别对应复述前的文本形式和复述后的文本形式;复述规则左端和右端都由非变量和变量组成,或左端和右端都仅包括非变量;复述规则左端的开头和结尾均为非变量;复述规则左端的变量之间至少有一个非变量。在本申请的ー种实施方式中,所述初始设置单元,具体配置为:用于利用平行语料(a0,bO)训练得到翻译系统sys_AB和sys_BA。应用本申请实施例所提供的技术方案,可以利用已有的平行语料来获取复述资源,从而大大增加了可用资源的数量。此外,相对于“潜在存在”复述资源的数据而言,平行语料本身质量较高,有利于获得准确率更高的复述资源。而且本申请方案是根据翻译系统自身的翻译结果获取复述资源,最終得到的翻译资源也可以更加适用于翻译系统。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或本文档来自技高网
...

【技术保护点】
一种复述资源获取方法,其特征在于,包括:预先获得第一语言A和第二语言B之间的平行语料(a0,b0),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA;利用sys_AB对a0进行翻译,得到b1;进一步利用sys_BA对b1进行翻译,得到a2;利用sys_BA对b0进行翻译,得到a1;以a0为标准,对a2和a1中的对应句子进行翻译质量评价,将a2得分超过a1的对应句子构成句对集合(a2’,a1’);在b1中获取与a2’对应的句子集合b1’、在b0中获取与a1’对应的句子集合b0’,得到第二语言的复述句对集合(b0’,b1’)。

【技术特征摘要】
1.一种复述资源获取方法,其特征在于,包括: 预先获得第一语言A和第二语言B之间的平行语料(aO,bO),以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA ; 利用sys_AB对aO进行翻译,得到bl ;进一步利用sys_BA对bl进行翻译,得到a2 ; 利用sys_BA对bO进行翻译,得到al ; 以aO为标准,对a2和al中的对应句子进行翻译质量评价,将a2得分超过al的对应句子构成句对集合(a2’,al’); 在bl中获取与a2’对应的句子集合bl’、在bO中获取与al’对应的句子集合bO’,得到第二语言的复述句对集合(bO’,bl’ )。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括: 从复述句对集合(bO’,bl’ )中提取复述规则。3.根据权利要求2所述的方法,其特征在于,所述从复述句对集合(bO’,bl’)中提取复述规则,包括: 建立bO’到bl’中句子的词对齐关系; 对所建立的词对齐关系进行过滤; 从过滤结果中提取复述规则。4.根据权利要求3所述的方法,其特征在于,所述建立bO’到bl’中句子的词对齐关系,包括: 根据平行语料(aO,bO)的词对齐关系,以及sys_AB在翻译过程中建立的aO与bl的词对齐关系,建立bO’到bl’中句子的词对齐关系。5.根据权利要求3所述的方法,其特征在于,所述对所建立的词对齐关系进行过滤,包括: 根据预置的词对齐规则,对所建立的词对齐关系进行过滤,其中,所述词对齐规则包括: 如果复述句对中的两个单词具有确定对齐关系,则仅保留该确定对齐关系,删除这两个单词的其他交叉对齐关系; 和/或 停用词及标点仅与停用词或标点具有对齐关系。6.根据权利要求3所述的方法,其特征在于,所述从过滤结果中提取复述规则,包括: 根据预设的复述规则约束条件,从过滤结果中提取复述规则,其中,所述复述规则约束条件包括: 每条复述规则包括左端和右端,分别对应复述前的文本形式和复述后的文本形式; 复述规则左端和右端都由非变量和变量组成,或左端和右端都仅包括非变量; 复述规则左端的变量之间至少有一个非变量。7.按权利要求1至6任一项所述的方法,其特征在于,所述翻译系统sys_AB和sys_BA,是利用平行语料(aO,bO)训练得到。8.一种复述资源获取系统,其特征在于,包括: 初始设置单元,用于预先获得第一语言A和第二语言B之间的平行语料(aO,bO),以及...

【专利技术属性】
技术研发人员:和为吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1