数据挖掘方法和装置制造方法及图纸

技术编号:13016060 阅读:64 留言:0更新日期:2016-03-16 15:31
本发明专利技术实施例公开了一种数据挖掘方法和装置。所述方法包括:获取数据挖掘模型,所述数据挖掘模型对应于与数据仓库中的数据表,并且所述数据表中记录有进行数据挖掘所依据的数据挖掘规则;根据所述数据挖掘规则对数据仓库中的事实数据进行挖掘。本发明专利技术实施例提供的数据挖掘方法和装置实现了在数据仓库系统中的自动数据挖掘。

【技术实现步骤摘要】

本专利技术实施例涉及数据仓库
,尤其涉及一种数据挖掘方法和装置
技术介绍
现代的商业智能应用集合了数据抽取(Extract-transform-load,ETL)、数据仓 库、数据挖掘、关键指标分析、数据展现等新一代数据库技术,是数据库应用领域的未来发 展方向和趋势。图1示出了商业智能应用的各个关键环节。参见图1,商业智能应用的目标 是将数据转换为知识,通过科学的分析方法,在海量数据中发现对企业具有决定性意义的 关键指标和数据。 在商业智能应用过程中,有一个环节是数据挖掘,就是要在大量的数据中,通过各 种方法找出有用的数据,并最终将数据转换为知识。我们知道,数据仓库本身集成了关于目 标对象的海量的数据资源。这些不同的数据项相互之间的逻辑关系纷繁复杂,难于理清。而 且,在数据挖掘应用的数据挖掘环节中,会涉及到对大量数据的识别、引用和聚合计算。这 些计算过程也就有比较大的难度。所以,在数据仓库这样的大数据系统中实现从数据到知 识的自动转换总体难度较高,难于实现。
技术实现思路
针对上述技术问题,本专利技术实施例提供了一种数据挖掘方法和装置,以实现在数 据仓库中自动的数据挖掘。 第一方面,本专利技术实施例提供了一种数据挖掘方法,所述方法包括: 获取数据挖掘模型,所述数据挖掘模型对应于与数据仓库中的数据表,并且所述 数据表中记录有进行数据挖掘所依据的数据挖掘规则; 根据所述数据挖掘规则对数据仓库中的事实数据进行挖掘。 第二方面,本专利技术实施例还提供了一种数据挖掘装置,所述装置包括: 模型获取模块,用于获取数据挖掘模型,所述数据挖掘模型对应于与数据仓库中 的数据表,并且所述数据表中记录有进行数据挖掘所依据的数据挖掘规则; 挖掘模块,用于根据所述数据挖掘规则对数据仓库中的事实数据进行挖掘。 本专利技术实施例提供的数据挖掘方法和装置,通过获取对应于其中存储有数据挖掘 规则的数据表的数据挖掘模型,并根据所述数据挖掘规则对数据仓库中的事实数据进行挖 掘,从而实现了在数据仓库系统中的自动数据挖掘。【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它 特征、目的和优点将会变得更明显: 图1是现有技术提供的商业智能应用的原理不意图;图2是本专利技术第一实施例提供的数据挖掘方法的流程图;图3是本专利技术第一实施例提供的数据挖掘模型的数据结构示意图;图4是本专利技术第一实施例提供的数据维度表的原理示意图;图5是本专利技术第一实施例提供的指标间的关系的原理示意图;图6是本专利技术第一实施例提供的指标的属性的原理示意图;图7是本专利技术第二实施例提供的数据挖掘方法中挖掘操作的流程图; 图8是本专利技术第二实施例提供的不同类型的数据表对应的类之间的继承关系示 意图; 图9是本专利技术第二实施例提供的维度管理器及维度模型之间的关系示意图; 图10是本专利技术第三实施例提供的挖掘操作中维度挖掘的流程图; 图11是本专利技术第三实施例提供的添加至语法解析链上的解释器之间的继承关系 图;图12是本专利技术第四实施例提供的挖掘操作中维度挖掘的流程图;图13是本专利技术第五实施例提供的挖掘操作中指标挖掘的流程图;图14是本专利技术第六实施例提供的数据挖掘装置的结构图。【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。 第一实施例 本实施例提供了数据挖掘方法的一种技术方案。所述数据挖掘方法由数据挖掘装 置执行。并且,所述数据挖掘装置集成在数据仓库的服务器内部,或者集成在于所述数据仓 库的服务器之间存在网络连接的另一台计算设备中。总之,集成有所述数据挖掘装置的设 备能够从数据仓库中读取数据。参见图1,所述数据挖掘方法包括:S11,获取数据挖掘模型,所述数据挖掘模型对应于与数据仓库中的数据表,并且 所述数据表中记录有进行数据挖掘所依据的数据挖掘规则。 传统的数据仓库中的数据处理一般是一些对数据的存储、管理等基本的数据处 理。通过这些基本的数据处理,数据仅仅是存储形式上的一些变化,不可能产生新的内容。 而商业智能应用则完全不同,通过对数据的钻取、统计、归类、聚合等操作,能够从原有的数 据中挖掘到新的知识,实现从数据到知识的转化。例如,在一个专门存储各个地区的发电量 数据的数据仓库中,通过对不同地区全年各个阶段的发电量的挖掘,可能会发现不同地区 之间的发电量之间存在的相互关系。这种相互关系就是商业智能应用挖掘到的知识。 本实施例中对数据仓库中的数据执行的挖掘操作是以一个数据挖掘模型为基础 的。图3示出了所述数据挖掘模型的数据结构。参见图3,所述数据挖掘模型包括:事实表 模型31、数据行表模型32、数据列表模型33、维度模型34以及指标模型35。更进一步的,所 述事实表模型31对应于数据仓库中的事实表;所述数据行表模型32对应于数据仓库中的 数据行表;所述数据列表模型33对应于数据仓库中的数据列表;所述维度模型34对应于 数据仓库中的维度定义表;所述指标模型35对应于数据仓库中的指标定义表。也就是说, 所述数据挖掘模型对应于所述数据仓库中的数据表。 所述事实表是用来记录数据仓库中最为基础的事实数据。这些数据也被称为来源 数据。所述数据行表用来记录所述事实表中的数据行名称以及维度名称。所述数据列表用 来记录所述事实表中的数据列名称以及指标名称。 在传统的关系型数据库中,一般采用实体-关系模型(E-Rmodel)对数据进行建 模。采取这种建模方法,每一张数据表对应于一个具体的业务。这种建模方式的优点是数 据冗余量小,针对具体业务的可操作性强。但同时也存在缺点,这些缺点主要体现在数据的 可读性差,对其中存储的数据执行数据分析十分困难。 为了方便数据分析,在本实施例中采用数据维度的方式对数据进行建模。在这种 建模方式下,数据仓库中不仅存储用于记录数据事实的事实表,还存储用于描述数据维度 的维度定义表。 所谓维度,是对问题进行观察的一个角度,它提供了对问题进行解构的一种分析 手段。比如,在一个专门存储各个地区的发电量数据的数据仓库中,地区就可以是这个数据 仓库中的一个维度。 同一个事实表可能对应于多个维度定义表。图4给出了一个事实表对应于多个维 度定义表的一个示例。参见图4,事实表一一元数据定义表41同时对应于地区维度定义表 42、时间维度定义表43、产品维度定义表44以及用户维度定义表45。这种一个事实表对应 于多个维度定义表的模式被称为星型模式。另外,除了星型模式,事实表与维度定义表之间的对应模式还可以是事实星座模 式,或者雪花模式。在事实星座模式下,多个不同的事实表可以对应于同一个维度定义表。 在雪花模式下,一个主维度表可以还有自己的子维度表,甚至于子维度表也可以有自己的 下一级子维度表。 具体的,在本实施例中,所述数据维度表包括:主维度表、子维度表、维度值枚举表 以及维度值集合表。主维度表表示一类范围维度。比如地区定义在主维度表里是一个主维 度,表示可以把地区划分不同地区。主维度表定义的意义必须是清晰的、经过提炼的,数据 经过不同维度的计算、聚合后需要准确地反映出定义的维度意义,在逻辑表述本文档来自技高网...

【技术保护点】
一种数据挖掘方法,其特征在于,包括:获取数据挖掘模型,所述数据挖掘模型对应于与数据仓库中的数据表,并且所述数据表中记录有进行数据挖掘所依据的数据挖掘规则;根据所述数据挖掘规则对数据仓库中的事实数据进行挖掘。

【技术特征摘要】

【专利技术属性】
技术研发人员:方铸万月亮火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1