融合关联模式和用户反馈的印尼汉跨语言检索方法及系统技术方案

技术编号:14768201 阅读:52 留言:0更新日期:2017-03-08 12:29
本发明专利技术公开了一种融合关联模式和用户反馈的印尼汉跨语言检索方法及系统,利用机器翻译模块将印尼语用户查询翻译为汉语查询提交给搜索引擎模块检索得到初检结果文档集,利用用户点击行为相关反馈信息提取模块得到用户反馈初检相关文档集,经文档预处理模块预处理得到初检相关文档数据库,调用完全加权关联规则挖掘模块构建完全加权关联规则库,利用跨语言查询扩展词生成模块建立扩展词库,利用跨语言查询扩展实现模块将组合后的新查询再次提交搜索引擎模块得到最终检索结果中文文档,利用最终结果显示模块将最后检索结果提交机器翻译模块翻译为印尼语文档后返回给用户。本发明专利技术有效地提高和改善跨语言检索性能,有较好的实际应用价值和推广前景。

【技术实现步骤摘要】

本专利技术属于文本信息检索领域,具体是一种融合关联模式和用户反馈的印尼汉跨语言检索方法及系统,适用于采用印尼语查询检索中文文档的跨语言文本信息检索等领域。
技术介绍
跨语言信息检索指的是以一种语言的查询检索其他语言的信息资源的技术。印尼汉跨语言信息检索方法是用印尼语查询检索中文文档的跨语言检索问题,其中,表达查询的印尼语言称为源语言,所检索的文档的中文语言称为目标语言。随着中国和东盟国家交流越来越密切,面向东盟国家语言的跨语言信息检索方法研究显得迫切和重要。世界各地学者从不同的角度和方向对跨语言信息检索方法及系统进行了深入探讨和研究,取得了丰富的成果,然而,当前跨语言信息检索研究所存在的问题还没有完全解决,该领域亟待解决和关注度比较高的问题之一是跨语言信息检索过程中存在的严重查询主题漂移问题,面临着比单语言检索更为严重的词不匹配问题,这些问题常常导致跨语言检索性能低下,不如单语言检索性能。针对上述问题,近年来,基于查询扩展的跨语言信息检索研究得到了更多的关注和讨论,其研究主要集中在基于相关反馈的(PartonK,GaoJ.CombiningSignalsforCross-LingualRelevanceFeedback[C].Proceedingsof8thAsiaInformationRetrievalSocietiesConference(AIRS2012),Tianjin,China.Springer-VerlagBerlinHeidelberg2012,LNCS7675,InformationRetrievalTechnology.2012:356-365.LeeCJ,CroftWB.Cross-LanguagePseudo-RelevanceFeedbackTechniquesforInformalText[C].Proceedingsof36thEuropeanConferenceonIRResearch(ECIR2014),Amsterdam,TheNetherlands.AdvancesinInformationRetrieval.SpringerInternationalPublishing,2014:260-272.)、潜在语义的(闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-53.宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24(3):105-111.)、语言模型的和主题模型的(GangulyDebasisandLevelingJohannesandJonesGarethJ.F.Cross-lingualtopicalrelevancemodels[C].In:24thInternationalConferenceonComputationalLinguistics(COLING2012),2012.;WangXuwen,ZhangQiang,WangXiaojie,etal.LDAbasedpseudorelevancefeedbackforcrosslanguageinformationretrieval[C].IEEEInternationalConferenceonCloudComputingandIntelligenceSystems(CCIS2012).Hangzhou:IEEE,2012:1993-1998.;XuwenWang,QiangZhang,XiaojieWang,etal.Cross-lingualPseudoRelevanceFeedbackBasedonWeakRelevantTopicAlignment.Proceedingsofthe29thPacificAsiaConferenceonLanguage,InformationandComputation,PACLIC29,Shanghai,China,2015:529-534.)等跨语言信息检索研究,其语言对象主要是以英语为主,大多都是研究英语和其他语言的跨语言检索问题。当前,中国南宁市作为中国-东盟博览会永久举办地以来,中国与东盟国家的政治、经济、文化等往来更加频繁和密切,面向东盟国家语言的跨语言信息检索和跨语言信息服务研究显得更加迫切,其重要性日益凸显。
技术实现思路
本专利技术的目的在于针对现有技术中的上述问题,将完全加权关联规则挖掘技术和用户相关反馈结合应用于印尼汉跨语言信息检索,提供一种融合关联模式和用户反馈的印尼汉跨语言检索方法及系统,能提高和改善印尼中跨语言信息检索性能,对长查询的印尼中跨语言检索效果更好。为实现上述专利技术目的,本专利技术采用了如下技术方案:一种融合关联模式和用户反馈的印尼汉跨语言检索方法,包括如下步骤:(1)将印尼语用户查询通过机器翻译模块翻译为中文查询式,并提交到搜索引擎在互联网中初步检索,得到初检结果文档集;(2)提取跨语言初检结果文档集前列r篇中文文档提交给用户;(3)用户对跨语言初检结果文档集的中文文档进行判断得到用户反馈相关文档集,文档集中的文档总篇数设为n;(4)预处理用户反馈相关文档集,即进行中文分词、去除停用词、计算特征词权值和提取特征词的预处理操作,构建初检相关文档数据库;(5)扫描初检相关文档数据库,挖掘完全加权特征词1_候选项集C1,计算C1权值w(C1),统计C1以外的项目的最大权值maxCwi(!C1)和C1的支持计数nc1,ms为最小支持度阈值,计算KIWT(1,2)的值,KIWT(1,2)的计算公式是:KIWT(1,2)=n×1×ms-nC1×maxCwi(!C1);(6)计算C1的支持度FTISup(C1),如果FTISup(C1)≧ms,则从1_候选项集C1挖掘1_频繁项集L1,并加到完全加权特征词频繁项集集合L,FTISup(C1)的计算公式是:(7)挖掘k_项集,其中所述的k≧2,包括步骤(7.1)至(7.7):(7.1)比较候选(k-1)_项集Ck-1权值和KIWT(k-1,k)值,剪除其W(Ck-1)<KIWT(k-1,k)的候选项集Ck-1;(7.2)将余下的进行候选(k-1)项集Ck-1进行Aproiri连接,得到Ck;(7.3)当k=2时,剪除不含查询项的候选2_项集;(7.4)扫描初检相关文档数据库,统计Ck以外的项目的最大权值maxCwi(!Ck)和Ck的支持计数nck,计算Ck权值w(Ck)和KIWT(k-1,k)的值,KIWT(k-1,k)的计算公式是:KIWT(k-1,k)=n×k×ms-nck×maxCwi(!Ck);(7.5)剪除nck为0的候选项集Ck;(7.6)对余下的候选k_项集Ck,计算Ck支持度FTISup(Ck),如果FTISup(Ck)≧ms,则从候选k_项集Ck中挖掘k_频繁项集Lk,并加到完全加权特征词频繁项集集合L,FTISup(Ck)的计算公式是:(7.7)若k大于候选项集长度阈值或者候选k_项集为空集,则挖掘结束,否则,继续循环步骤(7.1)至(7.6);(8)从完全加权特征词频繁项集集合L中挖掘含有查询词项的特征词完全加权关联规则,构建完全加权关联规则库;(9)从完全加权关联规则库中提本文档来自技高网
...
融合关联模式和用户反馈的印尼汉跨语言检索方法及系统

【技术保护点】
一种融合关联模式和用户反馈的印尼汉跨语言检索方法,其特征在于,包括如下步骤:(1)将印尼语用户查询通过机器翻译模块翻译为中文查询式,并提交到搜索引擎在互联网中初步检索,得到初检结果文档集;(2)提取跨语言初检结果文档集前列r篇中文文档提交给用户;(3)用户对跨语言初检结果文档集的中文文档进行判断得到用户反馈相关文档集,文档集中的文档总篇数设为n;(4)预处理用户反馈相关文档集,即进行中文分词、去除停用词、计算特征词权值和提取特征词的预处理操作,构建初检相关文档数据库;(5)扫描初检相关文档数据库,挖掘完全加权特征词1_候选项集C1,计算C1权值w(C1),统计C1以外的项目的最大权值maxCwi(!C1)和C1的支持计数nc1,ms为最小支持度阈值,计算KIWT(1,2)的值,KIWT(1,2)的计算公式是:KIWT(1,2)=n×1×ms‑nC1×maxCwi(!C1);(6)计算C1的支持度FTISup(C1),如果FTISup(C1)≧ms,则从1_候选项集C1挖掘1_频繁项集L1,并加到完全加权特征词频繁项集集合L,FTISup(C1)的计算公式是:(7)挖掘k_项集,其中所述的k≧2,包括步骤(7.1)至(7.7):(7.1)比较候选(k‑1)_项集Ck‑1权值和KIWT(k‑1,k)值,剪除其W(Ck‑1)<KIWT(k‑1,k)的候选项集Ck‑1;(7.2)将余下的进行候选(k‑1)项集Ck‑1进行Aproiri连接,得到Ck;(7.3)当k=2时,剪除不含查询项的候选2_项集;(7.4)扫描初检相关文档数据库,统计Ck以外的项目的最大权值maxCwi(!Ck)和Ck的支持计数nck,计算Ck权值w(Ck)和KIWT(k‑1,k)的值,KIWT(k‑1,k)的计算公式是:KIWT(k‑1,k)=n×k×ms‑nck×maxCwi(!Ck);(7.5)剪除nck为0的候选项集Ck;(7.6)对余下的候选k_项集Ck,计算Ck支持度FTISup(Ck),如果FTISup(Ck)≧ms,则从候选k_项集Ck中挖掘k_频繁项集Lk,并加到完全加权特征词频繁项集集合L,FTISup(Ck)的计算公式是:(7.7)若k大于候选项集长度阈值或者候选k_项集为空集,则挖掘结束,否则,继续循环步骤(7.1)至(7.6);(8)从完全加权特征词频繁项集集合L中挖掘含有查询词项的特征词完全加权关联规则,构建完全加权关联规则库;(9)从完全加权关联规则库中提取与原查询相关的跨语言扩展词,构建扩展词库;(10)将原查询和扩展词组合提交到搜索引擎再次检索得到最终检索结果中文文档;(11)将最终检索结果中文文档提交机器翻译模块翻译为印尼语文档,最后将最终检索结果中文文档和最终检索结果印尼语文档返回给用户。...

【技术特征摘要】
1.一种融合关联模式和用户反馈的印尼汉跨语言检索方法,其特征在于,包括如下步骤:(1)将印尼语用户查询通过机器翻译模块翻译为中文查询式,并提交到搜索引擎在互联网中初步检索,得到初检结果文档集;(2)提取跨语言初检结果文档集前列r篇中文文档提交给用户;(3)用户对跨语言初检结果文档集的中文文档进行判断得到用户反馈相关文档集,文档集中的文档总篇数设为n;(4)预处理用户反馈相关文档集,即进行中文分词、去除停用词、计算特征词权值和提取特征词的预处理操作,构建初检相关文档数据库;(5)扫描初检相关文档数据库,挖掘完全加权特征词1_候选项集C1,计算C1权值w(C1),统计C1以外的项目的最大权值maxCwi(!C1)和C1的支持计数nc1,ms为最小支持度阈值,计算KIWT(1,2)的值,KIWT(1,2)的计算公式是:KIWT(1,2)=n×1×ms-nC1×maxCwi(!C1);(6)计算C1的支持度FTISup(C1),如果FTISup(C1)≧ms,则从1_候选项集C1挖掘1_频繁项集L1,并加到完全加权特征词频繁项集集合L,FTISup(C1)的计算公式是:(7)挖掘k_项集,其中所述的k≧2,包括步骤(7.1)至(7.7):(7.1)比较候选(k-1)_项集Ck-1权值和KIWT(k-1,k)值,剪除其W(Ck-1)<KIWT(k-1,k)的候选项集Ck-1;(7.2)将余下的进行候选(k-1)项集Ck-1进行Aproiri连接,得到Ck;(7.3)当k=2时,剪除不含查询项的候选2_项集;(7.4)扫描初检相关文档数据库,统计Ck以外的项目的最大权值maxCwi(!Ck)和Ck的支持计数nck,计算Ck权值w(Ck)和KIWT(k-1,k)的值,KIWT(k-1,k)的计算公式是:KIWT(k-1,k)=n×k×ms-nck×maxCwi(!Ck);(7.5)剪除nck为0的候选项集Ck;(7.6)对余下的候选k_项集Ck,计算Ck支持度FTISup(Ck),如果FTISup(Ck)≧ms,则从候选k_项集Ck中挖掘k_频繁项集Lk,并加到完全加权特征词频繁项集集合L,FTISup(Ck)的计算公式是:(7.7)若k大于候选项集长度阈值或者候选k_项集为空集,则挖掘结束,否则,继续循环步骤(7.1)至(7.6);(8)从完全加权特征词频繁项集集合L中挖掘含有查询词项的特征词完全加权关联规则,构建完全加权关联规则库;(9)从完全加权关联规则库中提取与原查询相关的跨语言扩展词,构建扩展词库;(10)将原查询和扩展词组合提交到搜索引擎再次检索得到最终检索结果中文文档;(11)将最终检索结果中文文档提交机器翻译模块翻译为印尼语文档,最后将最终检索结果中文文档和最终检索结果印尼语文档返回给用户。2.根据权利要求1所述的融合关联模式和用户反馈的印尼汉跨语言检索方法,其特征在于,步骤(4)中所述的特征词权值的计算采用tf-idf方法,其计算公式是:其中,tfm,n表示特征词tm在文档dn中的出现次数,dfm表示含有特征词tm的文档数量,N表示文档集合中总的文档数量。3.根据权利要求1所述的融合关联模式和用户反馈的印尼汉跨语...

【专利技术属性】
技术研发人员:黄名选
申请(专利权)人:广西财经学院
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1