The invention discloses an Indonesian-English cross-language retrieval method based on the mixed expansion of the front and back parts of weighted rules, which translates the queries of Indonesian users into English and retrieves English documents, constructs a set of relevant documents of the initial user, integrates the total weights of the feature words and the total number of documents of the initial user-related document set with the centralized weights and frequencies of the items, and extracts the original query words from the initial user-related document set. Item frequent itemsets are pruned by item weight ranking, and association rules are mined from frequent itemsets by confidence correlation coefficient evaluation framework; the former is the original query term and the latter is the original query term as an extension word, and the extended word and the translated original query word are combined into a new query to retrieve English documents again, and the most important one is to retrieve English documents. The final retrieval results are translated into Indonesian documents by machine and returned to users. The invention adopts a pruning method based on item weight ranking, improves the mining efficiency and improves the performance of cross-language information retrieval.
【技术实现步骤摘要】
基于加权规则前后件混合扩展的印尼-英跨语言检索方法
本专利技术属于信息检索领域,具体是基于加权规则前后件混合扩展的印尼-英跨语言检索方法。
技术介绍
跨语言信息检索指的是借助机器翻译工具以一种语言的查询去检索另外一种或者多种语言的信息资源的检索技术。当前跨语言信息检索技术存在的问题是查询主题严重漂移和词不匹配问题,这些问题常常导致跨语言信息检索性能低下。随着网络技术和机器翻译技术的迅猛发展,跨语言信息检索技术得到了广泛的关注和讨论,学者们从不同的角度和方向对跨语言信息检索技术进行了深入探讨和研究,取得了丰富的成果,这些成果主要集中在基于相关反馈的(GaoJF,NieJY,ZhangJ,etal.TREC-9CLIRExperimentsatMSRCN[C].In:Proceedingsofthe9thTextRetrievalEvaluationConference,2001:343-353.吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239)、潜在语义的(闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J ...
【技术保护点】
1.基于加权规则前后件混合扩展的印尼‑英跨语言检索方法,其特征在于,包括下列步骤:步骤1.将印尼语用户查询通过机器翻译工具译为英文并检索英文文档,得到初检前列英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集;预处理初检用户相关反馈文档集,构建英文文档索引库和特征词库;所述预处理方法是:去除英文停用词,通过词干提取得到特征词,计算特征词权值,最后构建英文文档索引库和特征词库;步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特 ...
【技术特征摘要】
1.基于加权规则前后件混合扩展的印尼-英跨语言检索方法,其特征在于,包括下列步骤:步骤1.将印尼语用户查询通过机器翻译工具译为英文并检索英文文档,得到初检前列英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集;预处理初检用户相关反馈文档集,构建英文文档索引库和特征词库;所述预处理方法是:去除英文停用词,通过词干提取得到特征词,计算特征词权值,最后构建英文文档索引库和特征词库;步骤2.将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,最后得到特征词频繁项集集合FIS;步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合FIS中挖掘特征词加权关联规则,得到特征词加权关联规则模式集合WAR;步骤4.从特征词加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词,计算扩展词权值;步骤5.扩展词与译后原查询词组合为新译后查询再次检索英文文档得到最后检索结果英文文档;步骤6.通过机器翻译工具将最后检索结果英文文档译为印尼语文档并返回给用户。2.如权利要求1所述的基于加权规则前后件混合扩展的印尼-英跨语言检索方法,其特征在于,所述步骤1中计算特征词权值的计算公式,如式(1)所示:式(1)中,wij表示文档di中特征词tj的权值,N表示初检用户相关反馈文档集的文档总数,dfj表示含有特征词tj的文档数量,tfj,i表示特征词tj在文档di中的词频,max(tfi)表示文档di中出现的最大词频。3.如权利要求1所述的基于加权规则前后件混合扩展的印尼-英跨语言检索方法,其特征在于,所述步骤2将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,具体步骤如下:(1)挖掘特征词1_频繁项集L1,具体为如下3个步骤:(1.1)从特征词库中提取特征词作为1_候选项集C1;(1.2)扫描英文文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和W,统计特征词1_候选项集C1在英文文档索引库的权值及其出现次数计算C1的加权支持度wSup(C1),如式(2)所示:(1.3)如果wSup(C1)≥ms,ms为最小支持度阈值,则C1就是特征词1_频繁项集L1,添加到特征词频繁项集集合FIS;(2)构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出特征词k_频繁项集,所述k≥2,具体为如下8个步骤:(2.1)采用Aproiri连接方法将特征词加权(k-1)_频繁项集Lk-1进行自连接得到特征词k_候选项集Ck,所述k≥2;(2.2)如果k=2,删除没有包含译后英文原查询词项的特征词k_候选项集Ck,将包含有译后英文原查询词项的Ck留下,然后,转入步骤(2.3);如果k>2,则直接转入步骤(2.3);(2.3)统计特征词k_候选项集Ck在英文文档索引库的项权值(w1,w2,…,wk),并且排降序,使得w1≥w2≥…≥wk,这样就得到特征词权值排序k_候选项集Ck=(i1,i2,…,ik);(2.4)对权值排序k_候选项集Ck=(i1,i2,…,ik)的子项集C1=(i1),C12=(i1,i2),C123=(i1,i2,i3),…,C123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集Ck是非...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。