面向多语言信息检索系统的查询翻译方法技术方案

技术编号:4217776 阅读:246 留言:0更新日期:2012-04-11 18:40
面向多语言信息检索系统的查询翻译方法,它涉及一种查询翻译方法,它解决了目前的翻译方法存在翻译准确度低的问题。多语言信息检索系统由预处理单元、基于语义关系的译词选择单元、基于语义衰减共现的译词选择单元及基于双语衰减共现的译词选择单元组成,首先获得待翻译的语句的多个关键词及其候选译词,然后分别逐次利用基于语义关系的译词选择单元、基于语义衰减共现的译词选择单元及基于双语衰减共现的译词选择单元对候选译词进行筛选处理,将最终筛选的结果作为本发明专利技术的翻译结果。本发明专利技术克服了已有技术的不足,可用于机器翻译及自然语言处理相关领域。

【技术实现步骤摘要】

本专利技术涉及一种查询翻译方法。
技术介绍
伴随着Internet中各类信息不断爆炸性增长的同时,互联网中书写信息所使用的语言呈现日益的国际化,人们对信息检索提出了更高的要求,即不再满足于在同一语种文档集中检索,而要求在检索结果中包含多语种信息。用户所面对的查询一个多语种文档集的情形变得越来越普遍,为了获得更多、更全面、更准确的信息,同时为了跨越语言障碍,人们希望能够以自己最熟悉的一种语言(如汉语)描述用户查询,而同时将其它语言(如英语)书写的文档集在检索结果中呈现出来,即进行多语言之间的信息检索(Multi-Lingual InformationRetrieval,MLIR)。在当今信息社会中,多语言检索已经越来越成为世界范围内一个极需解决的关键问题,这也是Internet的全球信息基本结构造成了针对多语言信息检索系统的迫切需要,从而使得国内外越来越多的研究团体深入研究跨语言检索问题,并探索实现多语言信息检索的不同方法、技术路线等。目前,多语言信息检索的研究越来越集中在用户查询的目标语译词选择方面,因此,多语言信息检索研究的任务可分为以下两个步骤(1)将用户输入的查询需求描述成目标语言的表示形式,即机器翻译阶段;(2)在多语种文档集中进行信息检索。目前,解决多语言信息检索的核心问题采用的方法主要有基于机器翻译系统的方法、基于双语词典的方法、基于中间语言的方法以及基于语料库的大规模统计方法等。 基于机器翻译系统的方法是把机器翻译系统嵌入到信息检索中从而实现多语言信息检索,这种思想很容易和传统单语种信息检索技术紧密结合,比较容易实现,工作量相对较小,但是由于用户的查询需求往往是不合乎语法的若干关键词组合,因此机器翻译的结果往往不近人意,翻译的准确度低。基于中间语言的方法是把源语言和目标语言都映射到第三种语言上,然后在这个中间语言上进行信息检索,它可以解决两种很少相关的语言间的语言鸿沟问题,然而不足之处是在多语言的情况下机器翻译系统所面临的困境变得更加复杂。基于语料库方法的基本思想是通过语料库中不同语种的相同信息的对应关系,对用户查询进行翻译并且过滤翻译后产生的非正常翻译结果,基于语料库的多语言信息检索方法曾经一度取得了很好的效果,并成为当时多语言信息检索的主流技术之一,然而语料库的稀疏问题以及语料知识的充分挖掘和利用成为人们需要解决的新问题。
技术实现思路
本专利技术的目的是解决目前的翻译方法存在翻译准确度低的问题,提供了一种。 ,所述多语言信息检索系统由预处理单元、基于语义关系的译词选择单元、基于语义衰减共现的译词选择单元及基于双语衰减共现的译词选择单元组成,所述预处理单元中内置有双语词典,预处理单元输出数据給基于语义关系的译词选择单元,基于语义关系的译词选择单元输出数据给基于语义衰减共现的译词选择单元,基于语义衰减共现的译词选择单元输出数据给基于双语衰减共现的译词选择单元; 的具体过程如下 步骤一、预处理单元接收待翻译的语句,并对待翻译的语句进行预处理后,获得M个关键词及其词性,然后逐一根据每个关键词查询双语词典获得每个关键词的所有候选译词,并将所述M个关键词及获得的所有候选译词输出给基于语义关系的译词选择单元; 步骤二、基于语义关系的译词选择单元计算其接收到的每个候选译词的权值,并将权值大于等于α×max(Wi)的候选译词输出至基于语义衰减共现的译词选择单元;其中,Wi表示关键词Ci的所有候选译词的权值的集合,α为经验因子; 步骤三、基于语义衰减共现的译词选择单元计算其接收到的每个候选译词的权值,并将权值大于等于α×max(Wi)的候选译词输出至基于双语衰减共现的译词选择单元; 步骤四、基于双语衰减共现的译词选择单元计算其接收到的每个候选译词的权值,并将权值大于等于α×max(Wi)的候选译词作为最终翻译结果输出。 附图说明 图1为多语言信息检索系统的结构示意图;图2为本专利技术的查询翻译方法的流程图。 具体实施例方式具体实施方式一结合图1说明本具体实施方式,本实施方式的,所述多语言信息检索系统由预处理单元1、基于语义关系的译词选择单元2、基于语义衰减共现的译词选择单元3及基于双语衰减共现的译词选择单元4组成,所述预处理单元1中内置有双语词典5,预处理单元1输出数据给基于语义关系的译词选择单元2,基于语义关系的译词选择单元2输出数据给基于语义衰减共现的译词选择单元3,基于语义衰减共现的译词选择单元3输出数据给基于双语衰减共现的译词选择单元4; 的具体过程如下 步骤一、预处理单元1接收待翻译的语句,并对待翻译的语句进行预处理后,获得M个关键词及其词性,然后逐一根据每个关键词查询双语词典5获得每个关键词的所有候选译词,并将所述M个关键词及获得的所有候选译词输出给基于语义关系的译词选择单元2; 步骤二、基于语义关系的译词选择单元2计算其接收到的每个候选译词的权值,并将权值大于等于α×max(Wi)的候选译词输出至基于语义衰减共现的译词选择单元3;其中,Wi表示关键词Ci的所有候选译词的权值的集合,α为经验因子; 步骤三、基于语义衰减共现的译词选择单元3计算其接收到的每个候选译词的权值,并将权值大于等于α×max(Wi)的候选译词输出至基于双语衰减共现的译词选择单元4; 步骤四、基于双语衰减共现的译词选择单元4计算其接收到的每个候选译词的权值,并将权值大于等于α×max(Wi)的候选译词作为最终翻译结果输出。 本专利技术克服了传统的查询翻译方法存在的各方面的不足,可以利用最少资源(实体资料,例如词典、语料等;计算机系统资源,例如内存、CPU等)取得令人满意的查询翻译结果的效果,本方法基于双语词典且采用了逐级过滤的译词选择算法,翻译结果准确。具体实施方式二本实施方式是对实施方式一所述的的进一步限定,步骤二所述的基于语义关系的译词选择单元2计算其接收到的每个候选译词的权值的具体过程为 对接收到的每个候选译词的义原及义原关系进行提取;然后在接收到的所有候选词中,计算属于不同关键词的每两个候选译词的义原关系的交集,并当所述交集不为空时,给该交集所对应的两个候选译词投票打分,统计获得每个候选译词的得分,并将该得分作为对应候选译词的权值。具体实施方式三本实施方式是对实施方式二所述的的进一步限定,所述给该交集所对应的两个候选译词投票打分,统计获得每个候选译词的得分是由下述公式获得的 其中,Wij表示M个关键词中的第i个关键词的第j个候选译词的得分,Rij表示第i个关键词的第j个候选译词的所有义原关系的集合,Rmn表示第m个关键词的第n个候选译词的所有义原关系的集合,|Rmn⌒Rij|表示集合Rij和Rmn的交集个数,m、n分别为循环变量,均为自然数,m表示关键词的个数,n表示每个关键词对应的候选词的个数,Nm为第m个关键词的所有候选译词的总数。 对于用户给出的查询条件,经过对源语言的预处理后(如汉语分词、去停用词过滤等),用Q(C1C2...Cn)表示查询的n个有实际意义的关键词,然后利用双语词典查找得到每个关键词的候选候选译词(未登录词除外)。例如,关键词Ci的候选译词为Ei1,Ei2...,Eij共有k个,对于每个候选译词分别提取它的本文档来自技高网
...

【技术保护点】
面向多语言信息检索系统的查询翻译方法,其特征在于,所述多语言信息检索系统由预处理单元(1)、基于语义关系的译词选择单元(2)、基于语义衰减共现的译词选择单元(3)及基于双语衰减共现的译词选择单元(4)组成,所述预处理单元(1)中内置有双语词典(5),预处理单元(1)输出数据給基于语义关系的译词选择单元(2),基于语义关系的译词选择单元(2)输出数据给基于语义衰减共现的译词选择单元(3),基于语义衰减共现的译词选择单元(3)输出数据给基于双语衰减共现的译词选择单元(4);面向多语言信息检索系统的查询翻译方法的具体过程如下:步骤一、预处理单元(1)接收待翻译的语句,并对待翻译的语句进行预处理后,获得M个关键词及其词性,然后逐一根据每个关键词查询双语词典(5)获得每个关键词的所有候选译词,并将所述M个关键词及获得的所有候选译词输出给基于语义关系的译词选择单元(2);步骤二、基于语义关系的译词选择单元(2)计算其接收到的每个候选译词的权值,并将权值大于等于α×max(W↓[i])的候选译词输出至基于语义衰减共现的译词选择单元(3);其中,W↓[i]表示关键词C↓[i]的所有候选译词的权值的集合,α为经验因子;步骤三、基于语义衰减共现的译词选择单元(3)计算其接收到的每个候选译词的权值,并将权值大于等于α×max(W↓[i])的候选译词输出至基于双语衰减共现的译词选择单元(4);步骤四、基于双语衰减共现的译词选择单元(4)计算其接收到的每个候选译词的权值,并将权值大于等于α×max(W↓[i])的候选译词作为最终翻译结果输出。...

【技术特征摘要】

【专利技术属性】
技术研发人员:郑德权朱红垒
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93[中国|哈尔滨]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1