基于词间加权关联模式的越英跨语言文本检索方法及系统技术方案

技术编号：14514882 阅读：60 留言：0更新日期：2017-02-01 16:18

本发明专利技术公开了一种基于词间加权关联模式的越英跨语言文本检索方法及系统，利用机器翻译模块将越南语用户查询翻译为英语查询式提交给文本检索模块检索英文文档，利用用户相关反馈信息提取模块进行相关性判断得到用户反馈英文相关文档集，使用英文文档预处理模块进行预处理得到初检英文相关文档库，使用加权关联模式挖掘模块构建英文特征词加权关联规则库,利用扩展词生成模块建立英文扩展词库，利用查询扩展实现模块将组合后的新查询再次提交文本检索模块检索得到最终检索结果英文文档，并通过最终结果显示模块翻译为越南语文档返回给用户。本发明专利技术能有效地提高和改善跨语言检索性能，有较好的实际应用价值和推广前景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于文本信息检索领域，具体是一种基于词间加权关联模式的越英跨语言文本检索方法及系统，适用于采用越南语查询检索英文文档的跨语言文本信息检索等领域。
技术介绍
跨语言信息检索指的是以一种语言的查询检索其他语言的信息资源的技术。越英跨语言信息检索方法是用越南语查询检索英文文档的跨语言检索问题，其中，表达查询的越南语言称为源语言，所检索的文档的英文语言称为目标语言。随着中国和东盟国家交流越来越密切，面向东盟国家语言的跨语言信息检索方法研究显得迫切和重要。世界各地学者从不同的角度和方向对跨语言信息检索方法及系统进行了深入探讨和研究，取得了丰富的成果，然而，当前跨语言信息检索研究所存在的问题还没有完全解决，该领域亟待解决和关注度比较高的问题之一是跨语言信息检索过程中存在的严重查询主题漂移问题，面临着比单语言检索更为严重的词不匹配问题，这些问题常常导致跨语言检索性能低下，不如单语言检索性能。针对上述问题，近年来，基于查询扩展的跨语言信息检索研究得到了更多的关注和讨论，其研究主要集中在基于相关反馈的(PartonK,GaoJ.CombiningSignalsforCross-Lingua本文档来自技高网...

【技术保护点】
一种基于词间加权关联模式的越英跨语言文本检索方法，其特征在于，包括如下步骤：(1)将越南语用户查询通过机器翻译模块翻译为英文查询式检索英文文档；(2)提取跨语言初步检索结果前列r篇英文文档提交给用户，让用户对初步检索文档进行相关性判断；(3)根据用户的相关性判断确定初检英文相关文档，构建用户反馈英文相关文档集，文档集中的文档数设为n；(4)预处理用户反馈英文相关文档集，即进行去除停用词、英文词干提取、计算特征词权值和提取特征词的预处理操作，构建初检英文相关文档库；(5)扫描初检英文相关文档库，首先计算初检英文相关文档库中所有特征项权值总和W，然后挖掘加权特征词1_候选项集C1，计算C1权值w(...

【技术特征摘要】
1.一种基于词间加权关联模式的越英跨语言文本检索方法，其特征在于，包括如下步骤：(1)将越南语用户查询通过机器翻译模块翻译为英文查询式检索英文文档；(2)提取跨语言初步检索结果前列r篇英文文档提交给用户，让用户对初步检索文档进行相关性判断；(3)根据用户的相关性判断确定初检英文相关文档，构建用户反馈英文相关文档集，文档集中的文档数设为n；(4)预处理用户反馈英文相关文档集，即进行去除停用词、英文词干提取、计算特征词权值和提取特征词的预处理操作，构建初检英文相关文档库；(5)扫描初检英文相关文档库，首先计算初检英文相关文档库中所有特征项权值总和W，然后挖掘加权特征词1_候选项集C1，计算C1权值w(C1)，统计C1以外的项目的最大权值maxCwi(！C1)和C1的支持计数nc1，ms为最小支持度阈值，计算KIWT(1,2)的值，KIWT(1,2)的计算公式是：KIWT(1,2)＝n×1×ms-nc1×maxCwi(！C1)；(6)计算C1的加权支持度ftwISup(C1)，如果加权支持度ftwISup(C1)≧ms，则从1_候选项集C1挖掘1_频繁项集L1，并加到特征词加权频繁项集集合L，ftwISup(C1)的计算公式是：(7)挖掘k_项集，其中所述的k≧2，包括步骤(7.1)至(7.7)：(7.1)比较候选(k-1)_项集Ck-1权值W(Ck-1)和KIWT(k-1,k)值，剪除其W(Ck-1)<KIWT(k-1,k)的候选项集Ck-1；(7.2)将余下的进行候选(k-1)_项集Ck-1进行Aproiri连接，得到候选k_项集Ck；(7.3)当k＝2时，剪除不含查询项的候选2_项集；(7.4)扫描初检英文相关文档库，统计Ck以外的项目的最大权值maxCwi(！Ck)和Ck的支持计数nck，计算Ck权值w(Ck)和KIWT(k-1,k)的值，KIWT(k-1,k)的计算公式是：KIWT(k-1,k)＝n×k×ms-nck×maxCwi(！Ck)；(7.5)剪除nck为0的候选项集Ck；(7.6)对余下的候选k_项集Ck，计算Ck支持度ftwISup(Ck)，如果ftwISup(Ck)≧ms，则从候选k_项集Ck中挖掘k_频繁项集Lk，并加到特征词加权频繁项集集合L，ms为最小支持度阈值，ftwISup(Ck)的计算公式是：ftwISup(Ck)=w(Ck)W×k;]]>(7.7)若k大于候选项集长度阈值或者候选k_项集为空集，则挖掘结束，否则，继续循环步骤(7.1)至(7.6)；(8)从特征词加权频繁项集集合L中挖掘含有查询词项的英文特征词加权关联规则，构建英文特征词加权关联规则库；(9)从英文特征词加权关联规则库中提取与原查询相关的英文扩展词，构建英文扩展词库；(10)将原查询和扩展词组合成新查询再次检索英文文档，得到最终检索结果英文文档；(11)将最终检索结果英文文档经机器翻译模块翻译为越南语文档，最后将最终检索结果英文文档和最终检索结果越南语文档返回给用户。2.根据权利要求1所述的基于词间加权关联模式的越英跨语言文本检索方法，其特征在于，所述步骤(4)中特征词权值的计算采用tf-idf方法，其计算公式是：其中，tfm,n表示特征词tm在文档dn中的出现次数，dfm表示含有特征词tm的文档数量，N表示文档集合中总的文档数量。3.根据权利要求1所述的基于词间加权关联模式的越英跨语言文本检索方法，其特征在于，所述步骤(8)的方法包括步骤(8.1)至(8.2)：(8.1)从特征词加权频繁项集集合L中提取某一加权i_频繁项集ftwIi，找出ftwIi的所有真子集，进行步骤(8.1.1)至(8.1.4)的操作：(8.1.1)从ftwIi的真子集集合中任意取出两个真子集ftwI1和ftwI2，当并且ftwI1∪ftwI2＝ftwIi；(8.1.2)计算规则(ftwI1→ftwI2)以及(ftwI2→ftwI1)的英文特征项关联规则条件概率比ftARCPIR及其兴趣度ftARI值；ftARCPIR(f...

【专利技术属性】
技术研发人员：黄名选，
申请(专利权)人：广西财经学院，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人