基于相关系数的中文词间加权正负模式挖掘方法及系统技术方案

技术编号:10790765 阅读:166 留言:0更新日期:2014-12-17 19:50
一种基于相关系数的中文词间加权正负模式挖掘方法及系统,利用中文文本信息预处理模块进行中文文本预处理;利用中文特征词候选项集生成模块生成特征词候选1-项集,从i项集(i≥2)起,由候选(i-1)-项集产生候选i-项集,计算其支持度,得到频繁项集和负项集,根据项集的关联度进行项集剪枝,得到有趣的特征词频繁项集和负项集;利用中文特征词正负关联规则产生及结果显示模块计算关联规则兴趣度和置信度,从频繁项集和负项集中挖掘有趣的特征词正负关联规则模式,显示给用户。本发明专利技术能避免无效和无趣的中文特征词关联模式出现,挖掘效率得到很大提高,其关联规则模式运用于中文文本信息检索领域实现查询扩展,提高信息检索查询性能。

【技术实现步骤摘要】
基于相关系数的中文词间加权正负模式挖掘方法及系统
本专利技术属于文本挖掘领域,具体是一种基于相关系数的中文词间加权正负模式挖掘方法及其挖掘系统,适用于中文文本挖掘中特征词关联模式发现以及中文文本信息检索查询扩展、跨语言信息检索等领域。本专利技术的特征词正负关联模式应用于百度、谷歌等web搜索引擎实现查询扩展,有助于提高其查询性能,满足用户查询信息需要。
技术介绍
近20年来,关联模式挖掘研究取得了显著的成果,这些成果可以归纳为无加权正负关联模式挖掘技术、加权正负关联模式挖掘技术和矩阵加权(也称完全加权)正负关联模式挖掘技术等三大类。关联模式挖掘研究始于1993年Agrawal等(AGRAWALR,IMIELINSKIT,SWAMIA.Miningassociationrulesbetweensetsofitemsinlargedatabase[C]//Proceedingsof1993ACMSIGMODInternationalConferenceonManagementofData,WashingtonD.C.:ACMPress,1993:207-216.)提出的项无加权关联模式挖掘方法,即Apriori方法。在此基础上,学者们从不同角度和方法提出改进的无加权关联模式挖掘方法。无加权正负关联模式挖掘的缺陷是:没有考虑项目之间具有不同重要性以及项目在事务数据库中具有不同权值的情况,导致大量无效的、冗余的和无趣的关联模式出现。项加权关联模式挖掘技术克服了上述传统挖掘技术的一些缺陷,即考虑项目之间具有不同重要性而引入项目权值。项加权关联模式挖掘研究起于1998年,其典型方法是Cai等(CAICH,DAA,FUWC,etal.Miningassociationruleswithweighteditems[C]//ProceedingsofIEEEInternationaldatabaseEngineeringandApplicationSymposiums.WashingtonD.C.:IEEEComputerSociety,1998:68-77.)提出的加权关联规则挖掘方法。此后,出现了一些其改进方法,例如,Vo等(VOB,COENENF,LEB.AnewmethodforminingFrequentWeightedItemsetsbasedonWIT-trees[J].ExpertSystemswithApplications,2013(40):1256–1264.)构造一种加权树和加权闭项集树,提出基于加权树的加权频繁项集挖掘方法。项加权正负关联模式挖掘存在的缺陷是:忽略了项目权值在事务数据库中具有不同权值的情况。项矩阵加权关联模式挖掘技术重视矩阵加权数据固有的特点,即考虑了项目在数据库各个事务记录中具有不同权值的情况,克服了上述加权关联模式挖掘的缺陷。通常将项目权值客观分布于事务记录并随记录变化而变化的数据称为矩阵加权数据,也称完全加权数据。矩阵加权关联模式挖掘研究始于2003年,其典型方法是谭义红等(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)提出的完全加权关联规则挖掘方法。这些方法有效地挖掘出矩阵加权关联规则,但不能挖掘矩阵加权负关联模式。随着矩阵加权数据(如网络文本数据等)的迅猛增长,矩阵加权正负关联模式挖掘技术在文本信息检索、文本挖掘等领域具有越来越高的应用价值,其关联规则后件或者件可作为信息检索查询扩展词的来源。针对这些问题,本专利技术提出一种基于相关系数的中文词间加权正负模式挖掘方法及系统。实验结果表明,该专利技术提出的特征词挖掘方法能有效地减少特征词候选项集数量和挖掘时间,其挖掘性能优于现有无加权正负关联模式挖掘方法,其特征词关联模式可为web搜索引擎等检索系统提供可靠的查询扩展词来源,以提高其查询性能,因此,该专利技术方法在文本挖掘、信息检索等领域具有重要的应用价值和广阔的应用前景。
技术实现思路
本专利技术的目的在于,针对中文文本特征词关联模式挖掘进行深入探索,提出一种基于相关系数的中文词间加权正负模式挖掘方法及系统,提高中文文本挖掘效率,应用于web搜索引擎实现查询扩展,可以提高检索性能,应用于中文文本挖掘,能够发现更加实际合理的中文特征词关联模式,从而提高文本聚类和分类的精度。本专利技术所采取的技术方案是:一种基于相关系数的中文词间加权正负模式挖掘方法,包括如下步骤:(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库。文本特征词权值计算公式是:wij=(1+ln(tfij))×idfi,其中,wij为第i个特征词在第j篇文档的权值,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量,tfij为第i个特征词在第j篇文档的词频;(2)挖掘中文特征词矩阵加权频繁1-项集L1:从项目库中取出候选1-项集C1,累加C1项集权值w(C1),计算其支持度mwS(C1),与ms比较,从C1中挖掘矩阵加权频繁1-项集L1加入mwPIS。候选1-项集C1支持度mwS(C1)公式如下:其中,n为文本信息数据库的记录总数。(3)挖掘有趣的中文特征词矩阵加权频繁i-项集Li和负i-项集Ni(所述的i≥2),包括以下(3.1)步至(3.3)步:(3.1)频繁(i-1)-项集Li-1进行Apriori连接生成候选i_项集Ci,累加Ci的权值w(Ci)以及计算其支持度mwS(Ci)。mwS(Ci)计算公式如下:(3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,即mwS(Ci)≥ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr(即mwFIR(Ci)≥mFr)的有趣矩阵加权频繁i-项集Li加入频繁项集集合mwPIS。频繁项集关联度mwFIR(Ci)计算公式如下:其中,为Ci的子项集集合。(3.3)若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,即mwS(Ci)<ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr(即mwNIR(Ci)≥mNr)的有趣矩阵加权负i-项集Ni加入负项集集合mwNIS。mwNIR(Ci)计算公式如下:其中,为Ci的子项集集合。(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式,包括以下(4.1)步至(4.6)步:(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集.(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于ms,即mwS(I1)≥ms,mwS(I2)≥ms,并且I1∪I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)。mwS(I1)、mwS(I2)和mwPCC(I1,I2)的计算公式如下:其中,i1和i2为I本文档来自技高网
...
基于相关系数的中文词间加权正负模式挖掘方法及系统

【技术保护点】
一种基于相关系数的中文词间加权正负模式挖掘方法,其特征在于,包括如下步骤:(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库;(2)挖掘中文特征词矩阵加权频繁1‑项集L1:从项目库中取出候选1‑项集C1,累加C1项集权值,计算其支持度mwS(C1),与ms比较,从C1中挖掘矩阵加权频繁1‑项集L1加入mwPIS;(3)挖掘有趣的中文特征词矩阵加权频繁i‑项集Li和负i‑项集Ni(所述的i≥2),包括以下(3.1) 步至(3.3) 步:(3.1)频繁(i‑1)‑项集Li‑1进行Apriori连接生成候选i_项集Ci,累加Ci的权值以及计算其mwS(Ci); (3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i‑项集Li加入频繁项集集合mwPIS;(3.3) 若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr的有趣矩阵加权负i‑项集Ni加入负项集集合mwNIS;(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式,包括以下(4.1) 步至(4.6) 步:(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集;(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS (I1)和 mwS (I2)都大于或等于ms,并且I1I2=, I1I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2);(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值时,即mwPCC(I1,I2)≥,计算VMWAR(I1,I2, mc, mi)的值,若其值等于1,则得出矩阵加权中文特征词强关联规则I1→I2 ,加入mwPAR;计算VMWAR(﹁I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2 ,加入mwNAR;(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于‑时,即,mwPCC(I1,I2)≤-,计算VMWAR(I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2 ,加入mwNAR; (4.5) 继续(4.2)步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;(4.6) 继续(4.1)步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式,包括以下(5.1) 步至(5.6) 步:(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni,找出Ni的所有真子集;(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS (I1)和 mwS (I2)都大于或等于ms,并且I1I2=, I1I2=Ni,计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2);(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值时,即mwPCC(I1,I2)≥,计算VMWAR(﹁I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2 ,加入mwNAR;(5.4)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)小于或等于‑时,即,mwPCC(I1,I2)≤-,计算VMWAR(I1,﹁I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入mwNAR;计算VMWAR(﹁I1,I2, mc, mi) 的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2 ,加入mwNAR;所述的ms为最小支持度阈值,mc为最小置信度阈值,mi为最小兴趣度阈值;(5.5) 继续(5.2)步骤,当特征词负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;(5.6) 继续(5.1)步骤,当特征词频繁...

【技术特征摘要】
1.一种基于相关系数的中文词间加权正负模式挖掘方法,其特征在于,包括如下步骤:(1)中文文本预处理:将待处理的中文文本信息数据进行预处理:中文文本分词去除停用词、提取特征词及其权值计算,构建基于向量空间模型的文本信息数据库和特征词项目库;(2)挖掘中文特征词矩阵加权频繁1-项集L1:从项目库中取出候选1-项集C1,累加C1项集权值,计算其支持度mwS(C1),与最小支持度阈值ms比较,从C1中挖掘矩阵加权频繁1-项集L1加入频繁项集集合mwPIS;(3)挖掘有趣的中文特征词矩阵加权频繁i-项集Li和负i-项集Ni,包括以下(3.1)步至(3.3)步;所述的i≥2,(3.1)频繁(i-1)-项集Li-1进行Apriori连接生成候选i_项集Ci,累加Ci的权值以及计算其mwS(Ci);(3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms,计算频繁项集关联度mwFIR(Ci),将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i-项集Li加入频繁项集集合mwPIS;(3.3)若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms,计算负项集关联度mwNIR(Ci),将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr的有趣矩阵加权负i-项集Ni加入负项集集合mwNIS;(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式,包括以下(4.1)步至(4.6)步:(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li,找出Li的所有真子集;(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于ms,并且I1∪I2=Li,计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2);(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时,即mwPCC(I1,I2)≥β,计算有效的矩阵加权关联规则I1→I2评估值即VMWAR(I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强关联规则I1→I2,加入矩阵加权正关联规则集合mwPAR;计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(﹁I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于或者等于-β时,即,mwPCC(I1,I2)≤-β,计算有效的矩阵加权负关联规则I1→﹁I2评估值即VMWAR(I1,﹁I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则I1→﹁I2,加入矩阵加权负关联规则集合mwNAR;计算有效的矩阵加权负关联规则﹁I1→I2评估值即VMWAR(﹁I1,I2,mc,mi)的值,若其值等于1,则得出矩阵加权中文特征词强负关联规则﹁I1→I2,加入矩阵加权负关联规则集合mwNAR;(4.5)继续(4.2)步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;(4.6)继续(4.1)步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式,包括以下(5.1)步至(5.6)步:(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni,找出Ni的所有真子集;(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于最小支持度阈值ms,并且I1∪I2=Ni,计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2);(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时,即mwPCC(I1,I2)≥β,计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(...

【专利技术属性】
技术研发人员:黄名选兰慧红
申请(专利权)人:广西教育学院
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1