【技术实现步骤摘要】
基于加权模式挖掘的印尼-英跨语言译后前件扩展方法
本专利技术属于信息检索领域,具体是基于加权模式挖掘的印尼-英跨语言译后前件扩展方法。
技术介绍
跨语言查询扩展指的是在跨语言信息检索过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再次检索的过程。跨语言查询扩展是提高和改善跨语言信息检索性能的关键技术之一,能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题。根据跨语言信息检索的不同阶段,跨语言查询扩展分为查询译前扩展、查询译后扩展和混合式查询扩展等三种。查询译前扩展模型指的是在源语言查询翻译为目标语言之前,采用某些策略从其他源语言文档材料(或者初检源语言文档)中获得源语言扩展词实现译前扩展,然后进行查询翻译,再检索目标语言文档。查询译后扩展发生在源语言查询翻译为目标语言之后,从跨语言初检目标语言文档或者其他目标语言文档材料中获取目标语言扩展词实现译后扩展,然后再次检索目标语言文档。混合式查询扩展的实现要经过三次检索,即首先进行查询译前扩展得到了源语言扩展词实现译前扩展后进行跨语言检索,在此基础上再进行查询译后扩展得到目标语言扩展词,和译后的目标语言查询组合实现混合式扩展,最后再进行第三次检索。随着网络技术的发展以及机器翻译技术的进步,跨语言查询扩展技术成为一个重要的研究热点。近十几年来,学者们围绕着上述三种跨语言查询扩展模型开展了卓有成效的研究,取得了一些研究成果,例如,闭剑婷等提出的一种基于潜在语义分析的跨语言查询扩展方法(见文献:闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,3 ...
【技术保护点】
1.基于加权模式挖掘的印尼‑英跨语言译后前件扩展方法,其特征在于,包括下列步骤:步骤1:首先将印尼语查询通过机器翻译为英文并检索英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建用户相关反馈文档集;对所述用户相关反馈文档集进行预处理,构建英文文档索引库和特征词库;所述预处理方法为去除英文停用词,通过词干提取得到特征词,计算特征词权值;最后构建英文文档索引库和特征词库;步骤2:构建项权值排序项集,对所述项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,得到特征词频繁项集集合;步骤3:采用置信度‑相关系数评价框架从步骤2所得的特征词频繁项集集合中挖掘那些后件是译后原查询词项的特征词加权关联规则,得到特征词加权关联规则模式集合;步骤4:从步骤3所得特征词加权关联规则模式集合中提取规则前件作为前件扩展词,计算所述前件扩展词权值;步骤5:将所述前件扩展词与译后原查询词组合为新译后查询再次检索英文文档,完成印尼‑英跨语言译后前件扩展。
【技术特征摘要】
1.基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,其特征在于,包括下列步骤:步骤1:首先将印尼语查询通过机器翻译为英文并检索英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建用户相关反馈文档集;对所述用户相关反馈文档集进行预处理,构建英文文档索引库和特征词库;所述预处理方法为去除英文停用词,通过词干提取得到特征词,计算特征词权值;最后构建英文文档索引库和特征词库;步骤2:构建项权值排序项集,对所述项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,得到特征词频繁项集集合;步骤3:采用置信度-相关系数评价框架从步骤2所得的特征词频繁项集集合中挖掘那些后件是译后原查询词项的特征词加权关联规则,得到特征词加权关联规则模式集合;步骤4:从步骤3所得特征词加权关联规则模式集合中提取规则前件作为前件扩展词,计算所述前件扩展词权值;步骤5:将所述前件扩展词与译后原查询词组合为新译后查询再次检索英文文档,完成印尼-英跨语言译后前件扩展。2.如权利要求1所述的基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,其特征在于,所述步骤1计算特征词权值,计算公式如式(1)所示:式(1)中,wij表示文档di中特征词tj的权值,N表示用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。3.如权利要求1所述的基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,其特征在于,所述步骤2构建项权值排序项集,对特征词项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,具体步骤如下:(1)按如下3个步骤挖掘特征词1_频繁项集L1:(1.1)从所述特征词库中提取特征词作为1_候选项集C1;(1.2)扫描所述英文文档索引库以便统计所述英文文档索引库中的文档总数n和累加所有特征词权值的总和W,统计特征词1_候选项集C1在所述英文文档索引库的权值及其出现次数计算C1的加权支持度wSup(C1),如式(2)所示:(1.3)如果wSup(C1)≥ms,其中ms为最小支持度阈值;则C1就是特征词1_频繁项集L1,添加到特征词频繁项集集合FIS;(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体步骤如下:(2.1)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1进行自连接得到特征词k_候选项集Ck,所述k≥2;(2.2)如果k=2,删除没有包含译后英文原查询词项的特征词k_候选项集Ck,将包含有译后英文原查询词项的Ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3);(2.3)统计特征词k_候选项集Ck在所述英文文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集Ck=(i1,i2,…,ik);(2.4)对权值排序k_候选项集Ck=(i1,i2,…,ik)的子项集C1=(i1),C12=(i1,i2),C123=(i1,i2,i3),…,C123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集Ck是非频繁的,剪除该项集Ck;(2.5)对于余下的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。