基于关联规则挖掘技术挖掘建设法规领域数据的方法技术

技术编号:3785444 阅读:290 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于关联规则挖掘技术挖掘建设法规领域数据的方法,第一步生成建设法规文本向量空间模型,第二步生成建设法规数据向量空间模型:第三步由建设法规数据向量空间模型转置生成建设法规数据特征向量空间模型,即生成频繁特征集,第四步进行建设法规数据关联度计算并输出关联规则。该方法可对建设法规领域数据进行挖掘,为用户对数据的查询提供较高的查全率和推荐相关联的查询内容,解决了现有关联分析技术不能对离群数据的关联分析的技术难题。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域中对文本特征进行数据挖掘的方法,属于国际专利分类(IPC)的子类G06F17/27,特别涉及基于关联规则挖掘技术 挖掘建设法规领域数据的方法。
技术介绍
建设法规数据是非结构化数据,面向建设法规数据的挖掘技术属于文本 挖掘技术的研究范畴。所谓文本挖掘(TextMining)是指利用数据挖掘技术 从大量非结构化的、异构的文本集合中发现新颖的、潜在可用的及最终可以 理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程。 文本数据有比数值性的结构化数据更加丰富复杂的内涵,文本挖掘研究的主 要任务是分析文本的内容,发现文本数据集的特征、文本之间的相互关系和 相互作用。采用的挖掘技术主要有分词、特征选择、降维、关联分析、分 类、聚类、推技术及文本自动摘要,它涉及多个交叉学科,包括机器学习、 统计学、模式识别、数据分析和Web信息搜索等。Agrawal等,于1993年首先提出了挖掘顾客交易数据库中项集间的关 联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研 究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想 等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖 掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 1、关联规则挖掘过程、分类及其相关算法 1.1关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段第一阶段必须先从资料集合中找出所有的高频项目组(Frequent ltemsets),第二阶段再由这些高频项目组 中产生关联规贝U (Association Rules)。关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组 (Large ltemsets)。高频的意思是指某一项目组出现的频率相对于所有记 录而言,必须达到某一水平。 一项目组出现的频率称为支持度(Support), 以一个包含A与B两个项目的2-itemset为例,我们可以经由公式S叩阔A,争原,=,=}, (1)原始资料集z^含的事物总量求得包含(A, B)项目组的支持度,若支持度大于等于所设定的最小支持度 (Minimum Support)门槛值时,则(A, B)称为高频项目组。 一个满足最小 支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset), 一般表 示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1 , 直到无法再找到更长的高频项目组为止。关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从 高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在 最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信 赖度满足最小信赖度,称此规则为关联规则。例如经由高频k-项目组(A,B〉 所产生的规则AB,其信赖度可经由公式r ",ad、"中包含AB的事物总量 。、Confidenc(AB)= 丄^入-上l士仏"B "JD中包含(A,B)的事物总量求得,若信赖度大于等于最小信赖度,则称AB为关联规则。关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始 数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的 数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是 数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘 结果。1.2关联规则的分类按照不同情况,关联规则可以进行分类如下-1. 2. 1基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之 间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对 数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处 理,当然数值型关联规则中也可以包含种类变量。例如性别="女"=>职业 ="秘书",是布尔型关联规则;性别?女"》avg (收入)=2300,涉及的收入 是数值类型,所以是一个数值型关联规则。1.2.2基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个 不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的 考虑。例如旧M台式机-〉Sony打印机,是一个细节数据上的单层关联规 则;台式机-〉Sony打印机,是一个较高层次和细节层次之间的多层关联规 则。1.2.3基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的: 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品; 而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单 维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之 间的某些关系。例如啤酒=>尿布,这条规则只涉及到用户的购买的物品; 性别="女"=>职业="秘书",这条规则就涉及到两个字段的信息,是两个维上 的一条关联规则。 1.3关联规则挖掘的相关算法1.3.1 Apriori算法使用候选项集找频繁项集Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单 层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项 集,简称频集。该算法的基本思想是算法根据频繁项集的概念,首先寻找1-频繁项集A,利用l-频繁项集A两两组合产生2-候选项集q,在q中寻找2-频繁 项集A,再利用2-频繁项集^中有重叠部分的两频繁项集的两两组合产生 3-候选项集q,依次下去直到某个C^为空。算法引入修剪技术来减少侯选 集G的大小,即如果&中某个侯选集有一个)t-l子集不属于A,则这个项集 可以被修剪掉不再考虑,由此显著地改进了生成频繁项集算法的性能。然后 利用置信度给出关联规则。Apriori算法存在的主要缺陷是在寻找频繁项集的过程中(1)最小支持度阈值的确定比较困难可能会导致大量候选集的产生;(2)需要重复的扫 描数据库W欠。优点是在阈值不太低时算法是快速有效的,由此该算法在关 联分析中目前仍占据着主流地位。 1.3.2基于划分的算法Savasere等,设计了一个基于划分的算法。这个算法先把数据库从逻 辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频 集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集 的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段 只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块 中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某 一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信 来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶 颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。 1.3.3 FP-树频集算法FP-growth算法的基本思想算法采用分而治之的策略,在经过第一遍 扫描之后,把数据库本文档来自技高网...

【技术保护点】
基于关联规则挖掘技术挖掘建设法规领域数据的方法,具体包含以下步骤: 步骤一,生成建设法规文本向量空间模型,该建设法规文本向量空间模型定义为: d↓[i]=((t↓[1],w↓[i1]),(t↓[2],w↓[i2]),…,(t↓[ n],w↓[in])) (1) 步骤二,生成建设法规数据向量空间模型,建设法规数据的第i(i=k+1,k+2,…,n)个特征词的向量空间模型为: t↓[i]=(w↓[i1],w↓[i2],…,w↓[im]) (2) 公 式(1)和(2)中,t为特征词,k为文本向量空间分量中与同义词和近义词词典中相对应,权值被赋予1的特征词的个数;w↓[ij]表示第i个特征词在第j(j=1,2,…,m)个文本的向量空间模型式中出现的情况,w↓[ij]的取值为1或0,w↓[ij]=1表示特征词t↓[i]在第j个文本的特征中出现,w↓[ij]=0表示特征词ti在第j个文本的特征中未出现; 步骤三,将建设法规数据向量空间模型转置得到建设法规数据特征向量空间模型,即生成了建设法规数据频繁特征项集G,G={t↓[ i]|i=k+1,k+2,…,n}; 步骤四,输出建设法规数据关联规则,输出建设法规数据关联规则流程包括如下步骤: 第(1)步,顺序提取频繁特征项集中的一对特征,计算特征间的关联度ε↓[ij]; 第(2)步,判断ε↓[ij ]是否大于等于0.6;若ε↓[ij]大于等于0.6,可得关联规则“t↓[i]*t↓[j]”;则输出关联规则到W3词表中,并转到第(4)步; 第(3)步,若ε↓[ij]小于0.6,则进行第(4)步; 第(4)步,判断是否到频繁特征 项集尾部,若是则结束,否则转到第(1)步。...

【技术特征摘要】

【专利技术属性】
技术研发人员:苏变萍金维兴董丽丽侯筱婷
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:87[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1