基于矩阵加权关联规则的中英跨语言查询前件扩展方法技术

技术编号:18165699 阅读:89 留言:0更新日期:2018-06-09 11:34
本发明专利技术公开了基于矩阵加权关联规则的中英跨语言查询前件扩展方法,首先借助机器翻译将中文查询式翻译为英文并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度‑置信度‑兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从这些关联规则中提取其前件作为跨语言译后扩展词实现中英跨语言查询译后前件扩展。实验结果表明,本发明专利技术能有效地减少跨语言信息检索中长期存在的查询主题严重漂移和词不匹配等问题,提高和改善跨语言信息检索性能,具有很好的应用价值和推广前景。

Chinese and English cross language query extension method based on matrix weighted association rules

The invention discloses a Chinese English and cross language query precursor extension method based on matrix weighted association rules. First, the Chinese query formula is translated into English and English documents are retrieved with the help of Machine Translation. Matrix weighted association model support degree calculation method and matrix weighted association pattern mining method based on the degree of support degree of interest based on the degree of support. The ex - English translation of Chinese and English cross - language query is extended. The experimental results show that the invention can effectively reduce the long-standing problem of serious drift and mismatch of query topics in cross language information retrieval, and improve and improve the performance of cross language information retrieval. It has good application value and promotion prospect.

【技术实现步骤摘要】
基于矩阵加权关联规则的中英跨语言查询前件扩展方法
本专利技术属于网络信息检索领域,具体是一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
技术介绍
随着互联网技术的普及,具有多语言性特点的网络信息资源迅猛增长,成为了隐含巨大的经济价值和研究价值的网络大数据。如何以用户熟悉的查询语言表达式在大数据资源中检索其他语言的信息资源,以满足更多的信息需求,促使跨语言信息检索技术成为当前网络用户急需的技术。跨语言信息检索过程比单语言检索复杂,遇到的问题更严重,主要表现为:受翻译质量的影响,查询主题严重漂移,词不匹配以及查询项翻译歧义和多义性尤为严重,等等。跨语言查询扩展是解决上述问题的关键技术之一。多年来,各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论,取得了丰富的理论成果,但还没有最终完全解决跨语言信息检索中查全率和查准率问题。鉴于此,本专利技术提出了一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
技术实现思路
本专利技术提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法,适用于跨语言信息检索领域,能有效地减少跨语言信息检索中查询主题漂移和词不匹配等问题,提高和改善跨语言检索性能。本专利技术采用如下技术方案解决上述技术问题:基于矩阵加权关联规则的中英跨语言查询前件扩展方法,首先借助机器翻译将中文查询翻译为英文查询并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,对初检相关英文文档集进行预处理,构建初检英文文档库和特征词库;采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从所述关联规则中提取其前件作为中英跨语言译后扩展词。所述检索英文文档为采用向量空间模型进行检索得到英文文档集。所述对初检相关英文文档集进行预处理的方法为:去除英文停用词,采用Porter程序进行英文特征词词干提取,计算英文特征词权值;然后构建初检英文文档库和特征词库;所述计算英文特征词权值按如下公式(1)进行计算:式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,函数lg(N)代表N的对数,lg(dfj)代表dfj的对数。所述采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则的具体步骤如下:(1)挖掘英文特征词矩阵加权频繁1_项集L1:从特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的矩阵加权支持度mwSup(C1),如果mwSup(C1)≥支持度阈值ms,则C1为矩阵加权频繁1_项集L1,并将L1添加到矩阵加权频繁项集集合mwPIS;mwSup(C1)计算公式如式(2)所示:式(2)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,为英文特征词候选1_项集C1在初检英文文档库中出现的频度;(2)挖掘英文特征词矩阵加权频繁k_项集Lk,所述的k≥2,具体步骤:(2.1)英文特征词矩阵加权频繁(k-1)_项集Lk-1进行Apriori连接生成英文特征词矩阵加权候选k_项集Ck,所述的k≥2;(2.2)当k=2时,删除不含译后原查询词项的英文特征词候选2_项集C2,保留含有译后原查询词项的候选2_项集C2;(2.3)累加英文特征词候选k_项集Ck在初检英文文档库中的项集权值统计Ck在初检英文文档库中的项集频度计算Ck的矩阵加权支持度mwSup(Ck);式(3)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,为英文特征词矩阵加权候选k_项集Ck的项集长度;(2.4)如果mwSup(Ck)≥ms,则Ck就是英文特征词矩阵加权频繁k_项集Lk,添加到矩阵加权频繁项集集合mwPIS;(2.5)若英文特征词矩阵加权频繁k_项集Lk不为空集,则k加1后转入步骤(2.1)继续循环,否则,矩阵加权频繁项集挖掘结束,转入以下步骤(3);(3)挖掘后件是译后原查询词项的英文特征词矩阵加权关联规则:对于矩阵加权频繁项集集合mwPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘后件是译后原查询词项的英文特征词矩阵加权关联规则,步骤如下:(3.1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;(3.2)取出Lk真子集项集集合中任意两个真子集项集Et和Eqt,且Et∪Eqt=Lk,QEn为译后原查询词项集合;(3.3)计算英文特征词矩阵加权兴趣度EMInt(Et,Eqt),如果EMInt(Et,Eqt)≥最小兴趣度阈值mi,则计算英文特征词矩阵加权置信度EMConf(Et→Eqt),若EMConf(Et→Eqt)≥最小置信度阈值mc,则关联规则Et→Eqt是强英文特征词矩阵加权关联规则,并加入到英文特征词矩阵加权关联规则集合EMAR;EMInt(Et,Eqt)和EMConf(Et→Eqt)的计算公式分别如式(4)和式(5)所示:式(4)和(5)中,k1、k2项k12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)的项集长度,n1、n2和n12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中出现的频度,w1、w2和w12分别为英文特征词矩阵加权项集Et、Eqt以及项集(Et,Eqt)在初检英文文档库中的项集权值累加所得的总和值;(3.4)返回步骤(3.2),直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从矩阵加权频繁项集集合mwPIS中重新取出新的频繁k_项集Lk,转入步骤(3.1)进行新一轮矩阵加权关联规则挖掘,直到mwPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间矩阵加权关联规则挖掘结束。所述从所述关联规则中提取其前件作为中英跨语言译后扩展词的具体方法为:从英文特征词矩阵加权关联规则集合中提取每个关联规则Et→Eqt的前件Et作为跨语言查询译后扩展词,计算所述扩展词的权值Wexp,将扩展词与译后原查询词组合为新查询再次检索,实现中英跨语言查询译后前件扩展;权值Wexp计算公式如式(6)所示:式(6)中,max(EMConf(Et→Eqt))和max(EMInt(Et,Eqt))表示:当扩展词重复出现在多个关联规则Et→Eqt时,就会存在多个置信度和兴趣度,这时取置信度的最大值max(EMConf(Et→Eqt))和兴趣度的最大值max(EMInt(Et,Eqt))参与扩展词权值计算。本专利技术与现有技术相比,具有以下有益效果:(1)本专利技术提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。该专利技术方法采用基于项频度和权值的矩阵本文档来自技高网...
基于矩阵加权关联规则的中英跨语言查询前件扩展方法

【技术保护点】
基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于,首先借助机器翻译将中文查询翻译为英文查询并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,对初检相关英文文档集进行预处理,构建初检英文文档库和特征词库;采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度‑置信度‑兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从所述关联规则中提取其前件作为中英跨语言译后扩展词。

【技术特征摘要】
1.基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于,首先借助机器翻译将中文查询翻译为英文查询并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,对初检相关英文文档集进行预处理,构建初检英文文档库和特征词库;采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从所述关联规则中提取其前件作为中英跨语言译后扩展词。2.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于:所述检索英文文档为采用向量空间模型进行检索得到英文文档集。3.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于,所述对初检相关英文文档集进行预处理的方法为:去除英文停用词,采用Porter程序进行英文特征词词干提取,计算英文特征词权值;然后构建初检英文文档库和特征词库;所述计算英文特征词权值按如下公式(1)进行计算:式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,函数lg(N)代表N的对数,lg(dfj)代表dfj的对数。4.如权利要求1所述的基于矩阵加权关联规则的中英跨语言查询前件扩展方法,其特征在于,所述采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则的具体步骤如下:(1)挖掘英文特征词矩阵加权频繁1_项集L1:从特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的矩阵加权支持度mwSup(C1),如果mwSup(C1)≥支持度阈值ms,则C1为矩阵加权频繁1_项集L1,并将L1添加到矩阵加权频繁项集集合mwPIS;mwSup(C1)计算公式如式(2)所示:式(2)中,n为初检英文文档库中英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,为英文特征词候选1_项集C1在初检英文文档库中出现的频度;(2)挖掘英文特征词矩阵加权频繁k_项集Lk,所述的k≥2,具体步骤:(2.1)英文特征词矩阵加权频繁(k-1)_项集Lk-1进行Apriori连接生成英文特征词矩阵加权候选k_项集Ck,所述的k≥2;(2.2)当k=2时,删除不含译后原查询词项的英文特征词候选2_项集C2,保留含有译后原查询词项的候选2_项集C2;(2.3)累加英文特征词候选k_项集Ck在初检英文文档库中的项集权值统计Ck在初检英文文档库中的项集频度计算Ck的矩阵加权支持度mwSup(Ck);式(3)中,n为初检英文文档库中英文文档...

【专利技术属性】
技术研发人员:黄名选
申请(专利权)人:广西财经学院
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1