基于矩阵加权关联规则的中英跨语言查询前件扩展方法技术

技术编号：18165699 阅读：89 留言：0更新日期：2018-06-09 11:34

本发明专利技术公开了基于矩阵加权关联规则的中英跨语言查询前件扩展方法，首先借助机器翻译将中文查询式翻译为英文并检索英文文档，用户对初检前列英文文档进行相关性判断得到初检相关英文文档集，采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度‑置信度‑兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则，从这些关联规则中提取其前件作为跨语言译后扩展词实现中英跨语言查询译后前件扩展。实验结果表明，本发明专利技术能有效地减少跨语言信息检索中长期存在的查询主题严重漂移和词不匹配等问题，提高和改善跨语言信息检索性能，具有很好的应用价值和推广前景。

Chinese and English cross language query extension method based on matrix weighted association rules

The invention discloses a Chinese English and cross language query precursor extension method based on matrix weighted association rules. First, the Chinese query formula is translated into English and English documents are retrieved with the help of Machine Translation. Matrix weighted association model support degree calculation method and matrix weighted association pattern mining method based on the degree of support degree of interest based on the degree of support. The ex - English translation of Chinese and English cross - language query is extended. The experimental results show that the invention can effectively reduce the long-standing problem of serious drift and mismatch of query topics in cross language information retrieval, and improve and improve the performance of cross language information retrieval. It has good application value and promotion prospect.

全部详细技术资料下载

【技术实现步骤摘要】
基于矩阵加权关联规则的中英跨语言查询前件扩展方法
本专利技术属于网络信息检索领域，具体是一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
技术介绍
随着互联网技术的普及，具有多语言性特点的网络信息资源迅猛增长，成为了隐含巨大的经济价值和研究价值的网络大数据。如何以用户熟悉的查询语言表达式在大数据资源中检索其他语言的信息资源，以满足更多的信息需求，促使跨语言信息检索技术成为当前网络用户急需的技术。跨语言信息检索过程比单语言检索复杂，遇到的问题更严重，主要表现为：受翻译质量的影响，查询主题严重漂移，词不匹配以及查询项翻译歧义和多义性尤为严重，等等。跨语言查询扩展是解决上述问题的关键技术之一。多年来，各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论，取得了丰富的理论成果，但还没有最终完全解决跨语言信息检索中查全率和查准率问题。鉴于此，本专利技术提出了一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
技术实现思路
本专利技术提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法，适用于跨语言信息检索领域，能有效地减少跨语言信息检索中查询主题漂移和词不匹配等问题，提高和改善跨语言检索性能。本专利技术采用如下技术方案解决上述技术问题：基于矩阵加权关联规则的中英跨语言查询前件扩展方法，首先借助机器翻译将中文查询翻译为英文查询并检索英文文档，用户对初检前列英文文档进行相关性判断得到初检相关英文文档集，对初检相关英文文档集进行预处理，构建初检英文文档库和特征词库；采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权...
基于矩阵加权关联规则的中英跨语言查询前件扩展方法

【技术保护点】
基于矩阵加权关联规则的中英跨语言查询前件扩展方法，其特征在于，首先借助机器翻译将中文查询翻译为英文查询并检索英文文档，用户对初检前列英文文档进行相关性判断得到初检相关英文文档集，对初检相关英文文档集进行预处理，构建初检英文文档库和特征词库；采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度‑置信度‑兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则，从所述关联规则中提取其前件作为中英跨语言译后扩展词。

【技术特征摘要】
1.基于矩阵加权关联规则的中英跨语言查询前件扩展方法，其特征在于，首先借助机器翻译将中文查询翻译为英文查询并检索英文文档，用户对初检前列英文文档进行相关性判断得到初检相关英文文档集，对初检相关英文文档集进行预处理，构建初检英文文档库和特征词库；采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则，从所述关联规则中提取其前件作为中英跨语言译后扩展词。2.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法，其特征在于：所述检索英文文档为采用向量空间模型进行检索得到英文文档集。3.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法，其特征在于，所述对初检相关英文文档集进行预处理的方法为：去除英文停用词，采用Porter程序进行英文特征词词干提取，计算英文特征词权值；然后构建初检英文文档库和特征词库；所述计算英文特征词权值按如下公式(1)进行计算：式(1)中，N表示初检相关文档集中总的文档数量，wij表示初检相关英文文档di中特征词tj的权值，dfj表示含有英文特征词tj的英文文档数量，tfj,i表示英文特征词tj在文档di中的出现次数，即词频，max(tfi)表示初检相关英文文档di中最大的词频值，即文档di的所有英文特征词词频中的最大者，函数lg(N)代表N的对数，lg(dfj)代表dfj的对数。4.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法，其特征在于，所述采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则的具体步骤如下：(1)挖掘英文特征词矩阵加权频繁1_项集L1：从特征词库中提取英文特征词作为英文特征词候选1_项集C1，计算C1的矩阵加权支持度mwSup(C1)，如果mwSup(C1)≥支持度阈值ms，则C1为矩阵加权频繁1_项集L1，并将L1添加到矩阵加权频繁项集集合mwPIS；mwSup(C1)计算公式如式(2)所示：式(2)中，n为初检英文文档库中英文文档总篇数，W为初检英文文档库中所有英文特征词权值的累加总和值，为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值，为英文特征词候选1_项集C1在初检英文文档库中出现的频度；(2)挖掘英文特征词矩阵加权频繁k_项集Lk，所述的k≥2，具体步骤：(2.1)英文特征词矩阵加权频繁(k-1)_项集Lk-1进行Apriori连接生成英文特征词矩阵加权候选k_项集Ck，所述的k≥2；(2.2)当k＝2时，删除不含译后原查询词项的英文特征词候选2_项集C2，保留含有译后原查询词项的候选2_项集C2；(2.3)累加英文特征词候选k_项集Ck在初检英文文档库中的项集权值统计Ck在初检英文文档库中的项集频度计算Ck的矩阵加权支持度mwSup(Ck)；式(3)中，n为初检英文文档库中英文文档...

【专利技术属性】
技术研发人员：黄名选，
申请(专利权)人：广西财经学院，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人