基于关联规则挖掘技术挖掘建设法规领域数据的方法技术

技术编号：3785444 阅读：290 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于关联规则挖掘技术挖掘建设法规领域数据的方法，第一步生成建设法规文本向量空间模型，第二步生成建设法规数据向量空间模型：第三步由建设法规数据向量空间模型转置生成建设法规数据特征向量空间模型，即生成频繁特征集，第四步进行建设法规数据关联度计算并输出关联规则。该方法可对建设法规领域数据进行挖掘，为用户对数据的查询提供较高的查全率和推荐相关联的查询内容，解决了现有关联分析技术不能对离群数据的关联分析的技术难题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域中对文本特征进行数据挖掘的方法，属于国际专利分类(IPC)的子类G06F17/27，特别涉及基于关联规则挖掘技术挖掘建设法规领域数据的方法。
技术介绍
建设法规数据是非结构化数据，面向建设法规数据的挖掘技术属于文本挖掘技术的研究范畴。所谓文本挖掘(TextMining)是指利用数据挖掘技术从大量非结构化的、异构的文本集合中发现新颖的、潜在可用的及最终可以理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的过程。文本数据有比数值性的结构化数据更加丰富复杂的内涵，文本挖掘研究的主要任务是分析文本的内容，发现文本数据集的特征、文本之间的相互关系和相互作用。采用的挖掘技术主要有分词、特征选择、降维、关联分析、分类、聚类、推技术及文本自动摘要，它涉及多个交叉学科，包括机器学习、统计学、模式识别、数据分析和Web信息搜索等。Agrawal等，于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。 1、关联规则挖掘过程、分类及其相关算法 1.1关联规则挖掘的过程关联规则挖掘过程主要包含两个阶段第一阶段必须先从资料集合中找出所有的高频项目组(Frequent ltemsets)，第二阶段再由这些高频项目组中产生关联规贝U (Association Rul...

【技术保护点】
基于关联规则挖掘技术挖掘建设法规领域数据的方法，具体包含以下步骤：　步骤一，生成建设法规文本向量空间模型，该建设法规文本向量空间模型定义为：　ｄ↓［ｉ］＝（（ｔ↓［１］，ｗ↓［ｉ１］），（ｔ↓［２］，ｗ↓［ｉ２］），…，（ｔ↓［ｎ］，ｗ↓［ｉｎ］））　（１）　步骤二，生成建设法规数据向量空间模型，建设法规数据的第ｉ（ｉ＝ｋ＋１，ｋ＋２，…，ｎ）个特征词的向量空间模型为：　ｔ↓［ｉ］＝（ｗ↓［ｉ１］，ｗ↓［ｉ２］，…，ｗ↓［ｉｍ］）　（２）　公式（１）和（２）中，ｔ为特征词，ｋ为文本向量空间分量中与同义词和近义词词典中相对应，权值被赋予１的特征词的个数；ｗ↓［ｉｊ］表示第ｉ个特征词在第ｊ（ｊ＝１，２，…，ｍ）个文本的向量空间模型式中出现的情况，ｗ↓［ｉｊ］的取值为１或０，ｗ↓［ｉｊ］＝１表示特征词ｔ↓［ｉ］在第ｊ个文本的特征中出现，ｗ↓［ｉｊ］＝０表示特征词ｔｉ在第ｊ个文本的特征中未出现；　步骤三，将建设法规数据向量空间模型转置得到建设法规数据特征向量空间模型，即生成了建设法规数据频繁特征项集Ｇ，Ｇ＝｛ｔ↓［ ...

【技术特征摘要】

【专利技术属性】
技术研发人员：苏变萍，金维兴，董丽丽，侯筱婷，
申请(专利权)人：西安建筑科技大学，
类型：发明
国别省市：87[]

全部详细技术资料下载我是这个专利的主人