基于相关系数的中文词间加权正负模式挖掘方法及系统技术方案

技术编号：10790765 阅读：166 留言：0更新日期：2014-12-17 19:50

一种基于相关系数的中文词间加权正负模式挖掘方法及系统，利用中文文本信息预处理模块进行中文文本预处理；利用中文特征词候选项集生成模块生成特征词候选1-项集，从i项集(i≥2)起，由候选(i-1)-项集产生候选i-项集，计算其支持度，得到频繁项集和负项集，根据项集的关联度进行项集剪枝，得到有趣的特征词频繁项集和负项集；利用中文特征词正负关联规则产生及结果显示模块计算关联规则兴趣度和置信度，从频繁项集和负项集中挖掘有趣的特征词正负关联规则模式，显示给用户。本发明专利技术能避免无效和无趣的中文特征词关联模式出现，挖掘效率得到很大提高，其关联规则模式运用于中文文本信息检索领域实现查询扩展，提高信息检索查询性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于相关系数的中文词间加权正负模式挖掘方法及系统
本专利技术属于文本挖掘领域，具体是一种基于相关系数的中文词间加权正负模式挖掘方法及其挖掘系统，适用于中文文本挖掘中特征词关联模式发现以及中文文本信息检索查询扩展、跨语言信息检索等领域。本专利技术的特征词正负关联模式应用于百度、谷歌等web搜索引擎实现查询扩展，有助于提高其查询性能，满足用户查询信息需要。
技术介绍
近20年来，关联模式挖掘研究取得了显著的成果，这些成果可以归纳为无加权正负关联模式挖掘技术、加权正负关联模式挖掘技术和矩阵加权(也称完全加权)正负关联模式挖掘技术等三大类。关联模式挖掘研究始于1993年Agrawal等(AGRAWALR,IMIELINSKIT,SWAMIA.Miningassociationrulesbetweensetsofitemsinlargedatabase[C]//Proceedingsof1993ACMSIGMODInternationalConferenceonManagementofData,WashingtonD.C.:ACMPress,1993:207-216.)提出的项无加权关联模式挖掘方法，即Apriori方法。在此基础上，学者们从不同角度和方法提出改进的无加权关联模式挖掘方法。无加权正负关联模式挖掘的缺陷是：没有考虑项目之间具有不同重要性以及项目在事务数据库中具有不同权值的情况，导致大量无效的、冗余的和无趣的关联模式出现。项加权关联模式挖掘技术克服了上述传统挖掘技术的一些缺陷，即考虑项目之间具有不同重要性而引入项目权值。项加权关联模式挖掘研究起于1998...
基于相关系数的中文词间加权正负模式挖掘方法及系统

【技术保护点】
一种基于相关系数的中文词间加权正负模式挖掘方法，其特征在于，包括如下步骤：（1）中文文本预处理：将待处理的中文文本信息数据进行预处理：中文文本分词去除停用词、提取特征词及其权值计算，构建基于向量空间模型的文本信息数据库和特征词项目库；（2）挖掘中文特征词矩阵加权频繁1‑项集L1：从项目库中取出候选1‑项集C1，累加C1项集权值，计算其支持度mwS(C1)，与ms比较，从C1中挖掘矩阵加权频繁1‑项集L1加入mwPIS;（3）挖掘有趣的中文特征词矩阵加权频繁i‑项集Li和负i‑项集Ni(所述的i≥2)，包括以下(3.1) 步至(3.3) 步：(3.1)频繁(i‑1)‑项集Li‑1进行Apriori连接生成候选i_项集Ci，累加Ci的权值以及计算其mwS(Ci)； (3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms，计算频繁项集关联度mwFIR(Ci)，将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i‑项集Li加入频繁项集集合mwPIS；(3.3) 若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms，计算负项集关联度m...

【技术特征摘要】
1.一种基于相关系数的中文词间加权正负模式挖掘方法，其特征在于，包括如下步骤：(1)中文文本预处理：将待处理的中文文本信息数据进行预处理：中文文本分词去除停用词、提取特征词及其权值计算，构建基于向量空间模型的文本信息数据库和特征词项目库；(2)挖掘中文特征词矩阵加权频繁1-项集L1：从项目库中取出候选1-项集C1，累加C1项集权值，计算其支持度mwS(C1)，与最小支持度阈值ms比较，从C1中挖掘矩阵加权频繁1-项集L1加入频繁项集集合mwPIS；(3)挖掘有趣的中文特征词矩阵加权频繁i-项集Li和负i-项集Ni，包括以下(3.1)步至(3.3)步；所述的i≥2，(3.1)频繁(i-1)-项集Li-1进行Apriori连接生成候选i_项集Ci，累加Ci的权值以及计算其mwS(Ci)；(3.2)若候选i_项集Ci支持度mwS(Ci)大于或等于最小支持度阈值ms，计算频繁项集关联度mwFIR(Ci)，将其关联度mwFIR(Ci)大于或者等于最小频繁关联度阈值mFr的有趣矩阵加权频繁i-项集Li加入频繁项集集合mwPIS；(3.3)若候选i_项集Ci支持度mwS(Ci)小于最小支持度阈值ms，计算负项集关联度mwNIR(Ci)，将其关联度mwNIR(Ci)大于或者等于最小负项集关联度阈值mNr的有趣矩阵加权负i-项集Ni加入负项集集合mwNIS；(4)从中文特征词频繁项集集合mwPIS中挖掘有效的中文特征词矩阵加权正负关联规则模式，包括以下(4.1)步至(4.6)步：(4.1)从中文特征词频繁项集集合mwPIS中取出特征词频繁项集Li，找出Li的所有真子集；(4.2)从Li的真子集集合中任意取出两个真子集I1和I2，当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于ms，并且I1∪I2＝Li，计算矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)；(4.3)当矩阵加权频繁项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时，即mwPCC(I1,I2)≥β，计算有效的矩阵加权关联规则I1→I2评估值即VMWAR(I1,I2,mc,mi)的值，若其值等于1，则得出矩阵加权中文特征词强关联规则I1→I2，加入矩阵加权正关联规则集合mwPAR；计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(﹁I1,﹁I2,mc,mi)的值，若其值等于1，则得出矩阵加权中文特征词强负关联规则﹁I1→﹁I2，加入矩阵加权负关联规则集合mwNAR；(4.4)当矩阵加权项集(I1,I2)的相关系数mwPCC(I1,I2)小于或者等于-β时，即，mwPCC(I1,I2)≤－β，计算有效的矩阵加权负关联规则I1→﹁I2评估值即VMWAR(I1,﹁I2,mc,mi)的值，若其值等于1，则得出矩阵加权中文特征词强负关联规则I1→﹁I2，加入矩阵加权负关联规则集合mwNAR；计算有效的矩阵加权负关联规则﹁I1→I2评估值即VMWAR(﹁I1,I2,mc,mi)的值，若其值等于1，则得出矩阵加权中文特征词强负关联规则﹁I1→I2，加入矩阵加权负关联规则集合mwNAR；(4.5)继续(4.2)步骤，当特征词频繁项集Li的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(4.6)步；(4.6)继续(4.1)步骤，当特征词频繁项集集合中每个频繁项集Li都被取出一次，而且仅能取出一次，则(4)步运行结束，转入(5)步；(5)从负项集集合mwNIS中挖掘有效的中文特征词矩阵加权负关联规则模式，包括以下(5.1)步至(5.6)步：(5.1)从中文特征词负项集集合mwNIS中取出特征词负项集Ni，找出Ni的所有真子集；(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2，当I1和I2的支持度mwS(I1)和mwS(I2)都大于或等于最小支持度阈值ms，并且I1∪I2＝Ni，计算矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)；(5.3)当矩阵加权负项集(I1,I2)的相关系数mwPCC(I1,I2)大于或等于相关系数阈值β时，即mwPCC(I1,I2)≥β，计算有效的矩阵加权负关联规则﹁I1→﹁I2评估值即VMWAR(...

【专利技术属性】
技术研发人员：黄名选，兰慧红，
申请(专利权)人：广西教育学院，
类型：发明
国别省市：广西;45

全部详细技术资料下载我是这个专利的主人