The invention discloses a method for mining weighted association rules of English feature words based on item weight ranking. Firstly, the English document to be mined is preprocessed and the index database of English document is constructed. Then, the item weight ranking item set is constructed by item weight ranking, and the candidate item set of English feature words is pruned. According to the occurrence times of the item set and the weight value, the support degree of the item set is calculated, and the weighting of English feature words is mined. Frequent itemsets are constructed, and the weighted frequent itemsets database of English feature words is constructed. The weighted association rules model of English feature words is mined from the weighted frequent itemsets database of English feature words by using the framework of confidence and correlation coefficient evaluation, and the weighted association rules model database of English feature words is constructed. The invention overcomes the shortcomings of the existing weighted association rules mining technology, and uses the support calculation method to mine more practical, more reasonable and more reflective weighted association rules patterns between English feature words. These patterns have better application value and broad popularization prospects in the field of natural language processing such as information retrieval, recommendation system and so on.
【技术实现步骤摘要】
基于项权值排序的英文特征词加权关联规则挖掘方法
本专利技术属于文本挖掘
,具体是基于项权值排序的英文特征词加权关联规则挖掘方法。
技术介绍
现有文本挖掘中,关联模式支持度的计算方法有以下4种:第一种是无加权支持度计算方法(R.Agrawal,T.Imielinski,A.Swami.Miningassociationrulesbetweensetsofitemsinlargedatabase[C].Proceedingof1993ACMSIGMODInternationalConferenceonManagementofData,WashingtonD.C.,1993,(5):207-216.),该方法将关联模式在事务文档中发生的概率作为该模式的支持度,只考虑项集出现的频度,不考虑项权值,导致冗余关联规则增多,挖掘效率不高;第二种方法是项权值固定的加权关联模式支持度计算方法(C.H.Cai,A.da,W.C.Fu,etal.MiningAssociationRuleswithWeightedItems[C].ProceedingsofIEEEInternat ...
【技术保护点】
1.基于项权值排序的英文特征词加权关联规则挖掘方法,其特征在于,包括下列步骤:步骤1:对英文文档去除停用词、词干提取和特征词权值计算的预处理,构建英文文档索引库;步骤2:挖掘英文特征词加权1_频繁项集L1,添加L1到英文特征词加权频繁项集集合FIS;步骤3:构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出英文特征词加权k_频繁项集Lk;所述k≥2;添加Lk到英文特征词加权频繁项集集合FIS;步骤4:对于英文特征词加权频繁项集集合FIS中每一个加权k_频繁项集Lk,采用置信度‑相关系数评价框架从所述加权k_频繁项集Lk中挖掘英文特征词加权关联规则模式,所述k≥2。
【技术特征摘要】
1.基于项权值排序的英文特征词加权关联规则挖掘方法,其特征在于,包括下列步骤:步骤1:对英文文档去除停用词、词干提取和特征词权值计算的预处理,构建英文文档索引库;步骤2:挖掘英文特征词加权1_频繁项集L1,添加L1到英文特征词加权频繁项集集合FIS;步骤3:构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出英文特征词加权k_频繁项集Lk;所述k≥2;添加Lk到英文特征词加权频繁项集集合FIS;步骤4:对于英文特征词加权频繁项集集合FIS中每一个加权k_频繁项集Lk,采用置信度-相关系数评价框架从所述加权k_频繁项集Lk中挖掘英文特征词加权关联规则模式,所述k≥2。2.如权利要求1所述的基于项权值排序的英文特征词加权关联规则挖掘方法,其特征在于,所述步骤1所述特征词权值计算公式如式(1):其中,wij表示英文文档di中特征词tj的权值,tfj,i表示英文特征词tj在文档di中的出现次数,dfj表示含有英文特征词tj的文档数量,N表示英文文档索引库中总的文档数量。3.如权利要求1所述的基于项权值排序的英文特征词加权关联规则挖掘方法,其特征在于,所述步骤2挖掘英文特征词加权1_频繁项集L1的具体步骤如下:(1)从英文文档索引库中提取英文特征词作为1_候选项集C1;(2)扫描所述英文文档索引库,分别统计其中的文档总数n并累加所有英文特征词权值的总和W,统计英文特征词1_候选项集C1在英文文档索引库的权值及其出现次数按公式(2)计算英文特征词候选1_项集C1的加权支持度wSup(C1):(3)如果wSup(C1)≥ms,其中ms为最小支持度阈值;则英文特征词候选1_项集C1就是英文特征词加权1_频繁项集L1,将L1添加到英文特征词加权频繁项集集合FIS。4.如权利要求1所述的基于项权值排序的英文特征词加权关联规则挖掘方法,其特征在于,所述步骤3构建权值排序k_候选项集,对k_候选项集进行剪枝,挖掘出英文特征词加权k_频繁项集Lk,具体步骤为:(1)采用Aproiri连接方法将英文特征词加权(k-1)_频繁项集Lk-1进行自连接得到k_候选项集Ck,所述k≥2;(2)分别统计k_候选项集Ck在英文文档索引库的项权值(w1,w2,…,wk),并且按降序排序,使得w1≥w2≥…≥wk,这样就得到英文特征词权值排序k_候选项集Ck=(i1,i2,…,ik);所述k≥2;(3)分别对英文特征词权值排序k_候选项集Ck=(i1,i2,…,ik)的子项集C1=(i1),C12=(i1,i2),C123=(i1,i2,i3),…,C123…k-1=(i1,i2,…,ik-1)进行考察,如果存在某个子项集是非频繁的,则该项集Ck是非频繁的,剪除该项集Ck;所述k≥2;(4)对于余下的权值排序k_候选项集Ck,如果则该项集Ck是非频繁的,剪除该项集Ck,所述为权值排序k_候选项集Ck在英文文档索引库中的出现次数,所述n为英文文档索引库中的文档总数,所述W为在英文文档索引库中累加所有英文特征词权值的总和;所述k≥2;(5)对剪枝后余下的权值排序k_候选项集Ck,根据权值排序k_候选项集Ck在英文文档索引库中的出现次数和所述Ck的权值计...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。