基于加权模式挖掘的印尼-英跨语言译后前件扩展方法技术

技术编号:20725211 阅读:23 留言:0更新日期:2019-03-30 17:45
本发明专利技术公开了基于加权模式挖掘的印尼‑英跨语言译后前件扩展方法,首先将印尼语查询机器翻译为英文并检索英文文档,构建用户相关文档集,再将项集权值和频度与用户相关文档集的特征词总权值和文档总数融合,挖掘特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,最后采用置信度‑相关系数评价框架从特征词频繁项集中挖掘特征词关联规则,将后件是原查询词项的关联规则前件作为译后英文扩展词,实现印尼‑英跨语言译后前件扩展。本发明专利技术克服现有加权关联规则挖掘技术的缺陷,能挖掘出与原查询相关的查询译后扩展词,实现印尼‑英跨语言译后前件扩展,提高和改善跨印尼‑英跨语言文本信息检索性能,具有较好的应用价值和推广前景。

【技术实现步骤摘要】
基于加权模式挖掘的印尼-英跨语言译后前件扩展方法
本专利技术属于信息检索领域,具体是基于加权模式挖掘的印尼-英跨语言译后前件扩展方法。
技术介绍
跨语言查询扩展指的是在跨语言信息检索过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再次检索的过程。跨语言查询扩展是提高和改善跨语言信息检索性能的关键技术之一,能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题。根据跨语言信息检索的不同阶段,跨语言查询扩展分为查询译前扩展、查询译后扩展和混合式查询扩展等三种。查询译前扩展模型指的是在源语言查询翻译为目标语言之前,采用某些策略从其他源语言文档材料(或者初检源语言文档)中获得源语言扩展词实现译前扩展,然后进行查询翻译,再检索目标语言文档。查询译后扩展发生在源语言查询翻译为目标语言之后,从跨语言初检目标语言文档或者其他目标语言文档材料中获取目标语言扩展词实现译后扩展,然后再次检索目标语言文档。混合式查询扩展的实现要经过三次检索,即首先进行查询译前扩展得到了源语言扩展词实现译前扩展后进行跨语言检索,在此基础上再进行查询译后扩展得到目标语言扩展词,和译后的目标语言查询组合实现混合式扩展,最后再进行第三次检索。随着网络技术的发展以及机器翻译技术的进步,跨语言查询扩展技术成为一个重要的研究热点。近十几年来,学者们围绕着上述三种跨语言查询扩展模型开展了卓有成效的研究,取得了一些研究成果,例如,闭剑婷等提出的一种基于潜在语义分析的跨语言查询扩展方法(见文献:闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-53.),吴丹等提出一种基于伪相关反馈的跨语言查询扩展方法(见文献:吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.),等等,但还没有最终完全解决跨语言信息检索中存在的技术难题。随着中国-东盟自由贸易区建设的不断深入以及中国-东盟博览会每年的举办,世界各国与东盟印尼国家之间的交往更加密切和频繁。语言多样化成为了各国与东盟国家之间扩大经贸往来和文化交流的瓶颈和困难,消除语言障碍已经成为一个亟需解决和刻不容缓的重要问题,东盟印尼语跨语言信息检索研究显得迫切,具有重要的现实意义。当前,东盟印尼语跨语言信息检索面临的问题主要表现为查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性等,这些问题也是当前国际上急需解决的跨语言信息检索中普遍存在的难题。东盟印尼语跨语言查询扩展是解决上述问题的核心技术之一。然而,当前跨语言查询扩展研究的主要语言对象是英语、汉语等大语种以及欧洲国家语言和国内的少数民族语言等等,而针对东盟小语种印尼语的跨语言查询扩展研究报道不多,同时,基于关联规则挖掘的跨语言查询扩展研究不是很深入,还存在如下一些主要问题:①还没有找到一种最优的、最普遍适用各种语言环境的支持度计算方法和关联规则评估框架来挖掘文本信息中特征词之间存在的各种复杂关联。现有研究中,项集支持度要么只考虑项集频度,要么只考虑项集权值,或者仅仅将项平均权值与无加权支持度的简单乘积作为项集支持度,等等,使得挖掘出的扩展词质量(即与原查询的相关性)有待于提高;②关联规则评估方面,经典的支持度-置信度评估框架存在难以解决的缺陷,例如,冗余的、或者虚假的关联规则多,虽然出现了一些改进的评估框架,但是,还没有最终解决跨语言检索中查询主题漂移和词不匹配问题。
技术实现思路
本专利技术提出了基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,应用于跨语言信息检索领域,应用于实际的跨语言搜索引擎和跨语言信息检索系统,提高跨语言检索性能,解决跨语言信息检索中查询主题漂移和词不匹配问题。本专利技术采用如下技术方案:基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,包括下列步骤:步骤1.印尼语查询机器翻译为英文查询并检索英文文档,提取初检前列n篇英文文档,构建用户相关反馈文档集,预处理用户相关反馈文档集,具体步骤如下:(1)印尼语查询机器翻译为英文并检索英文文档集得到初检前列英文文档。(2)用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建用户相关反馈文档集。(3)预处理用户相关反馈文档集,构建英文文档索引库和特征词库,然后转入步骤2。用户相关反馈文档集预处理内容是:去除英文停用词,通过词干提取得到特征词,计算特征词权值,最后构建英文文档索引库和特征词库。本专利技术采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)进行词干提取。用户相关反馈文档集中特征词权值wij的计算公式,如式(1)所示。式(1)中,wij表示文档di中特征词tj的权值,dfj表示含有特征词tj的文档数量,N表示用户相关反馈文档集的文档总数,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。式(1)表明,在用户相关反馈文档集中,含有某个特征词的用户相关反馈文档数量越多,则该特征词与原查询越相关,越重要,所述特征词的权值就越高。步骤2.构建项权值排序项集,对特征词项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,具体步骤如下:(1)挖掘特征词1_频繁项集L1,具体为如下3个步骤:(1.1)从特征词库中提取特征词作为1_候选项集C1;(1.2)扫描英文文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和W,统计特征词1_候选项集C1在英文文档索引库的权值及其出现次数计算C1的加权支持度wSup(C1),如式(2)所示。(1.3)如果wSup(C1)≥ms,ms为最小支持度阈值;则C1就是特征词1_频繁项集L1,添加到特征词频繁项集集合FIS(FrequentItemSet)。(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体为如下8个步骤:(2.1)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1进行自连接得到特征词k_候选项集Ck,所述k≥2;Aproiri连接方法详见文献(AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabase[C]//Proceedingsofthe1993ACMSIGMODInternationalConferenceonManagementofData,WashingtonDC,USA,1993:207-216.)(2.2)如果k=2,删除没有包含译后英文原查询词项的特征词k_候选项集Ck,将包含有译后英文原查询词项的Ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3)。(2.3)统计特征词k_候选项集Ck在英文文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集Ck=(i1,i2,…,ik)。(2.4)对权值排序k_候选项集Ck=(i1,i2,…,ik)的子项集C1=(i1),C12=(i1,i2),C123=本文档来自技高网
...

【技术保护点】
1.基于加权模式挖掘的印尼‑英跨语言译后前件扩展方法,其特征在于,包括下列步骤:步骤1:首先将印尼语查询通过机器翻译为英文并检索英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建用户相关反馈文档集;对所述用户相关反馈文档集进行预处理,构建英文文档索引库和特征词库;所述预处理方法为去除英文停用词,通过词干提取得到特征词,计算特征词权值;最后构建英文文档索引库和特征词库;步骤2:构建项权值排序项集,对所述项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,得到特征词频繁项集集合;步骤3:采用置信度‑相关系数评价框架从步骤2所得的特征词频繁项集集合中挖掘那些后件是译后原查询词项的特征词加权关联规则,得到特征词加权关联规则模式集合;步骤4:从步骤3所得特征词加权关联规则模式集合中提取规则前件作为前件扩展词,计算所述前件扩展词权值;步骤5:将所述前件扩展词与译后原查询词组合为新译后查询再次检索英文文档,完成印尼‑英跨语言译后前件扩展。

【技术特征摘要】
1.基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,其特征在于,包括下列步骤:步骤1:首先将印尼语查询通过机器翻译为英文并检索英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建用户相关反馈文档集;对所述用户相关反馈文档集进行预处理,构建英文文档索引库和特征词库;所述预处理方法为去除英文停用词,通过词干提取得到特征词,计算特征词权值;最后构建英文文档索引库和特征词库;步骤2:构建项权值排序项集,对所述项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,得到特征词频繁项集集合;步骤3:采用置信度-相关系数评价框架从步骤2所得的特征词频繁项集集合中挖掘那些后件是译后原查询词项的特征词加权关联规则,得到特征词加权关联规则模式集合;步骤4:从步骤3所得特征词加权关联规则模式集合中提取规则前件作为前件扩展词,计算所述前件扩展词权值;步骤5:将所述前件扩展词与译后原查询词组合为新译后查询再次检索英文文档,完成印尼-英跨语言译后前件扩展。2.如权利要求1所述的基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,其特征在于,所述步骤1计算特征词权值,计算公式如式(1)所示:式(1)中,wij表示文档di中特征词tj的权值,N表示用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。3.如权利要求1所述的基于加权模式挖掘的印尼-英跨语言译后前件扩展方法,其特征在于,所述步骤2构建项权值排序项集,对特征词项集进行剪枝,结合译后原查询词项,对用户相关反馈文档集挖掘含有原查询词项的特征词频繁项集,具体步骤如下:(1)按如下3个步骤挖掘特征词1_频繁项集L1:(1.1)从所述特征词库中提取特征词作为1_候选项集C1;(1.2)扫描所述英文文档索引库以便统计所述英文文档索引库中的文档总数n和累加所有特征词权值的总和W,统计特征词1_候选项集C1在所述英文文档索引库的权值及其出现次数计算C1的加权支持度wSup(C1),如式(2)所示:(1.3)如果wSup(C1)≥ms,其中ms为最小支持度阈值;则C1就是特征词1_频繁项集L1,添加到特征词频繁项集集合FIS;(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体步骤如下:(2.1)采用Aproiri连接方法将特征词(k-1)_频繁项集Lk-1进行自连接得到特征词k_候选项集Ck,所述k≥2;(2.2)如果k=2,删除没有包含译后英文原查询词项的特征词k_候选项集Ck,将包含有译后英文原查询词项的Ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3);(2.3)统计特征词k_候选项集Ck在所述英文文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集Ck=(i1,i2,…,ik);(2.4)对权值排序k_候选项集Ck=(i1,i2,…,ik)的子项集C1=(i1),C12=(i1,i2),C123=(i1,i2,i3),…,C123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集Ck是非频繁的,剪除该项集Ck;(2.5)对于余下的...

【专利技术属性】
技术研发人员:黄名选
申请(专利权)人:广西财经学院
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1