一种复述资源获取方法及系统技术方案

技术编号：8682709 阅读：261 留言：0更新日期：2013-05-09 02:42

本发明专利技术公开了一种复述资源获取方法及系统。一种复述资源获取方法包括：预先获得第一语言A和第二语言B之间的平行语料(a0，b0)，以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA；利用sys_AB对a0进行翻译，得到b1；进一步利用sys_BA对b1进行翻译，得到a2；利用sys_BA对b0进行翻译，得到a1；以a0为标准，对a2和a1中的对应句子进行翻译质量评价，将a2得分超过a1的对应句子构成句对集合(a2’，a1’)；在b1中获取与a2’对应的句子集合b1’、在b0中获取与a1’对应的句子集合b0’，得到第二语言的复述句对集合(b0’，b1’)。应用上述方案，有利于获得准确率更高的复述资源，而且得到的翻译资源也可以更加适用于翻译系统。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机应用
，特别是涉及ー种复述资源获取方法及系统。
技术介绍
机器翻译(Machine Translation),又称为自动翻译,是利用计算机把ー种自然源语言转变为另ー种自然目标语言的过程，一般应用于两种自然语言之间的整句或全文的翻译。统计机器翻译(Statistical Machine Translation, SMT)是机器翻译的一种，也是目前非限定领域机器翻译中性能较佳的ー种方法。统计机器翻译的基本思想是:通过对一定数量的平行语料(bilingual corpus也称双语互译语料)进行统计分析，然后通过训练来构建统计翻译模型，进而使用此模型进行翻译。目前，机器翻译已经从早期基于词的翻译逐渐过渡到基于短语的翻译，并正在融合语义信息，以进ー步提高翻译的智能性和精确性。在对机器翻译的研究过程中，目前讨论得较为广泛的ー种技术是复述(paraphrases)技木。复述泛指对相同语义的不同表达形式，是人类语言中的ー种普遍现象。研究表明，复述可以在多个方面改善翻译系统的性能。例如，基于复述技术，可以解决在复述过程中遇到的生僻短语复述为同义的常用短语，从...

【技术保护点】
一种复述资源获取方法，其特征在于，包括：预先获得第一语言A和第二语言B之间的平行语料(a0，b0)，以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA；利用sys_AB对a0进行翻译，得到b1；进一步利用sys_BA对b1进行翻译，得到a2；利用sys_BA对b0进行翻译，得到a1；以a0为标准，对a2和a1中的对应句子进行翻译质量评价，将a2得分超过a1的对应句子构成句对集合(a2’，a1’)；在b1中获取与a2’对应的句子集合b1’、在b0中获取与a1’对应的句子集合b0’，得到第二语言的复述句对集合(b0’，b1’)。

【技术特征摘要】
1.一种复述资源获取方法，其特征在于，包括: 预先获得第一语言A和第二语言B之间的平行语料(aO，bO)，以及A到B的翻译系统sys_AB和B到A的翻译系统sys_BA ；利用sys_AB对aO进行翻译,得到bl ;进一步利用sys_BA对bl进行翻译,得到a2 ；利用sys_BA对bO进行翻译,得到al ；以aO为标准，对a2和al中的对应句子进行翻译质量评价，将a2得分超过al的对应句子构成句对集合(a2’，al’)；在bl中获取与a2’对应的句子集合bl’、在bO中获取与al’对应的句子集合bO’，得到第二语言的复述句对集合(bO’，bl’ )。2.根据权利要求1所述的方法，其特征在于，所述方法进一步包括: 从复述句对集合(bO’，bl’ )中提取复述规则。3.根据权利要求2所述的方法，其特征在于，所述从复述句对集合(bO’，bl’)中提取复述规则，包括: 建立bO’到bl’中句子的词对齐关系；对所建立的词对齐关系进行过滤；从过滤结果中提取复述规则。4.根据权利要求3所述的方法，其特征在于，所述建立bO’到bl’中句子的词对齐关系，包括: 根据平行语料(aO，bO)的词对齐关系，以及sys_AB在翻译过程中建立的aO与bl的词对齐关系，建立bO’到bl’中句子的词对齐关系。5.根据权利要求3所述的方法，其特征在于，所述对所建立的词对齐关系进行过滤，包括: 根据预置的词对齐规则，对所建立的词对齐关系进行过滤，其中，所述词对齐规则包括: 如果复述句对中的两个单词具有确定对齐关系，则仅保留该确定对齐关系，删除这两个单词的其他交叉对齐关系；和/或停用词及标点仅与停用词或标点具有对齐关系。6.根据权利要求3所述的方法，其特征在于，所述从过滤结果中提取复述规则，包括: 根据预设的复述规则约束条件，从过滤结果中提取复述规则，其中，所述复述规则约束条件包括: 每条复述规则包括左端和右端，分别对应复述前的文本形式和复述后的文本形式；复述规则左端和右端都由非变量和变量组成，或左端和右端都仅包括非变量；复述规则左端的变量之间至少有一个非变量。7.按权利要求1至6任一项所述的方法,其特征在于，所述翻译系统sys_AB和sys_BA,是利用平行语料(aO，bO)训练得到。8.一种复述资源获取系统，其特征在于，包括: 初始设置单元，用于预先获得第一语言A和第二语言B之间的平行语料(aO，bO)，以及...

【专利技术属性】
技术研发人员：和为，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人