一种数据挖掘和建模的方法及系统技术方案

技术编号:2834439 阅读:272 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数据挖掘方法,A.预先设置数据抽取规则,根据所述数据抽取规则,从数据源中抽取建模数据和评分数据;B.选择算法,对所述建模数据进行建模;C.利用所述建立的模型,对所述评分数据进行评分;D.输出评分结果。本发明专利技术还公开了一种建模方法、建模系统及数据挖掘系统。使用本发明专利技术通过设置和执行数据抽取规则,设置和执行数据建模流程,实现动态变化数据的建模。

【技术实现步骤摘要】

本专利技术涉及数据挖掘技术,具体涉及一种数据挖掘和建模的方法及系统
技术介绍
凄史据库知识发现(KDD, Knowledge Discovery In Database)是人工智 能、机器学习与数据库技术等多种学科相结合的产物,是从大量数据中提取 出可信、新颖、有用并能被人理解的模式的高级处理过程。这里的模式就是 知识,或者说是隐藏在数据背后的规律、关系或规则。图1所示为现有技术KDD处理过程,如图l所示,KDD处理过程主要 包括数据选择、数据预处理、数据转换、数据挖掘和模式解释/知识评价五 个步骤。数据挖掘(DM, Data Mining)是KDD中的一个重要步骤,用于 发现转换后的数据中存在的关系和规则,下文用数据挖掘来指代KDD的整 个分析过程。图2为现有技术中基于操作的数据挖掘方法流程图。如图2所示,该方 法包括以下步骤步骤210:建模数据处理,手工使用挖掘工具,建立数据挖掘模型。 本步骤包括搜集与整理与建模目标相关的历史数据,从中选择确定不 变的目标数据表,例如选择一个数据库的数据表作为建模数据,并转换为数 据挖掘需要的格式;选择某种挖掘算法,对确定的建模数据进行建模,获得 模型;重复选择算法的操作,对相同的建模数据进行建模,获得另外一个模 型步骤220:评估数据处理。该步骤可与步骤210并列执行,或在步骤210之前或之后执行。本步骤包括搜集与预测问题相关的历史数据,从中选择评估数据,并转换为数据挖掘需要的格式。步骤221及步骤211:手工使用挖掘工具进行模型评估,得到评估报告, 根据评估报告确定最优模型。本步骤包括利用步骤220准备好的评估数据,对步骤210建立的多个 模型进行评估,即利用建立好的模型对历史数据进行预测,将预测的结果与 历史数据中对应的结果最接近的模型,确定为最优模型。步骤230:评分数据处理。该步骤可与步骤210、步骤220及步骤221 并列,或在步骤210、步骤220及步骤221之前或之后执行。本步骤包括搜集与预测问题相关的数据,转换为数据挖掘需要的格式。步骤231:手工使用挖掘工具,进行评分处理。本步骤包括手工使用挖掘工具,利用步骤211建立好的模型,对步骤 230准备好的评分数据进行处理,得到预测结果,如数据的未来发展趋势。例如,在客户流失模型中,评分结果反映的是客户流失可能性的大小, 一般用0~ 1之间的一个数值表示,此值越接近1说明客户流失的可能性越 大。如本步骤评分处理后得到某些或某个客户的预测结果是0.8,可以理解 为该批客户或该客户的流失可能性为80%。步骤232:手工使用挖掘工具导出预测结果。本步骤包括将步骤231计算出的预测结果从数据挖掘工具导入到数据 库中。步骤233:在数据库中对预测结果进行分析,以便对不同特征的数据采 取不同的措施。例如,在客户流失模型中得到某些客户流失的可能性为80%,即客户流 失的可能性比较大,则运营商可以针对该批客户采取一些挽留的措施,以保 证该批客户继续为运营商带来利润。如果需要对多个数据源进行数据挖掘,则重复以上描述的步骤。由上述描述可知,现有技术中无法实现动态变化数据的建模,每一次建 模只能从确定的一个数据源中获取确定的数据。当建模的数据源或数据源中 的数据表有所变化时,每次建模都需要手工进行重新选择需要的已经确定的 数据。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据挖掘方法,实现动态变化数据的建模及数据挖掘。该方法包括a、预先设置数据抽取规则;根据所述数据抽取规则,从数据源中抽取 建模数据和评分数据;b、选择算法,对所述建模数据进行建模;c、利用 所述建立的模型,对所述评分数据进行评分;d、输出评分结果。本专利技术实施例还提供一种建模方法,实现动态变化数据的建模。该方法 包括根据预设的数据抽取规则,从数据源中抽取建模数据;选择算法,对 所述建模数据进行建模。本专利技术实施例还提供一种数据挖掘系统,实现了动态变化数据的建模及 数据挖掘。该系统包括数据获取模块、建模模块、结果应用模块及展现模块,所述数据获取模块,用于保存设置的数据抽取规则,根据所述数据抽取规 则从数据源抽取建模数据和评分数据;所述建模模块,用于选择算法,对所述数据获取模块获取的建模数据建立 模型;所述结果应用模块,用于利用所述冲莫型,对所述评分数据进行评分; 所述展现模块,用于输出评分结果。本专利技术实施例还提供一种建模系统,实现了动态变化数据的建模。该系统 包括数据获取模块和建模模块,所述数据获取模块,用于保存设置的数据抽取 规则,根据所述规则从数据源抽取建模数据;所述建模模块,用于选择算法, 对所述数据获取模块获取的建模数据进行建模。与现有技术相比,本专利技术实施例所提供的技术方案,通过执行预先设置的数据抽取规则,从数据源中抽取建模数据和评分数据,然后根据选择的算 法对抽取的建模数据进行建模;利用建立的模型对抽取的评分数据进行评 分,从而可以通过灵活设置数据抽取规则,实现动态变化数据的建模。附图说明图1为现有技术中KDD处理过程;图2为现有技术中基于操作的数据挖掘方法流程图3为本专利技术实施例中用于数据挖掘的工作流示意图4为本专利技术实施例中数据建模方法流程图5为本专利技术实施例中数据建模结果应用方法流程图6为本专利技术实施例中数据挖掘系统结构图。具体实施例方式下面结合附图及具体实施例对本专利技术进行详细说明。本专利技术实施例中的数据挖掘方法,预先设置数据抽取规则,根据所述数 据抽取规则,从数据源中抽取建模数据和评分数据;选择算法,对所述建模 数据进行建模;利用所述建立的模型,对所述评分数据进行评分;输出评分 结果。从而可以通过设置数据抽取规则从数据源中抽取符合条件的数据,从 而使得建模数据抽取不受数据源或数据源中的数据表变化的影响,实现动态 变化数据的建模。该方法进一步通过设置工作流和控制工作流实现数据挖掘的自动进行。工作流即自动运作的业务流程的部分或整体,表现为各业务流程对文 件、信息或任务控制规程采取行动,并令其在各业务流程之间传递。图3为本专利技术实施例中的用于数据挖掘的工作流示意图。如图3所示, 本专利技术实施例中设置的用于数据挖掘的工作流包括数据获取流程、建模流 程、结果应用流程及展现流程。其中,数据获取流程通过预先设置的数据抽取规则,从数据源抽取建模数据和评分数据,还可以对目标数据进行分析、预处理等操作。建模流程选 择算法,对建模数据进行建模。结果应用流程利用建模流程建立的模型,对 数据获取流程获取的评分数据进行评分。展现流程输出评分结果。如果只需进行建模,则本专利技术实施例设置的用于建模的工作流只包括数 据获取流程和建模流程。通过使用工作流进行数据挖掘,在数据获取的过程中,通过设置工作流 的数据抽取规则,也可以设置多次抽取数据或一次抽取多个数据源,解决了动态变化数据的建模问题;同时,本专利技术实施例在工作流设置完成后,通过 启动工作流可以实现自动建模,不需要人工干预,从而加快了每次建模的反应速度,提高了建模效率,实现了数据挖掘的自动化运行。以下对本专利技术实施例中数据挖掘方法进行详细说明。图4为本专利技术实施例中数据建模方法流程图。如图4所示,该方法包括 以下步骤数据获取流程包括步骤400和步骤401。 步骤400:根据预先设置的数据抽取规则获取建模数据。 本专利技术实施例中,通过规则本文档来自技高网
...

【技术保护点】
一种数据挖掘方法,其特征在于,该方法包括:A、预先设置数据抽取规则;根据所述数据抽取规则,从数据源中抽取建模数据和评分数据;B、选择算法,对所述建模数据进行建模;C、利用所述建立的模型,对所述评分数据进行评分;   D、输出评分结果。

【技术特征摘要】
1、一种数据挖掘方法,其特征在于,该方法包括A、预先设置数据抽取规则;根据所述数据抽取规则,从数据源中抽取建模数据和评分数据;B、选择算法,对所述建模数据进行建模;C、利用所述建立的模型,对所述评分数据进行评分;D、输出评分结果。2、 如权利要求1所述的数据挖掘方法,其特征在于,该方法进一步包括 预先设置包括数据获取流程、建模流程、结果应用流程及展现流程的工作流;所述步骤A在所述数据获取流程中执行;所述步骤B在所述建模流程中执 行;所述步骤C在所述结果应用流程中执行;所述步骤D在所述展现流程中执行。3、 如权利要求1或2所述的数据挖掘方法,其特征在于,所述步骤A进 一步包括对所述建模数据和评分数据进行预处理。4、 如权利要求1或2所述的数据挖掘方法,其特征在于,所述步骤B进一 步包括根据预先设置的模型评估规则,对建立的模型进行评估,确定最优的模型。5、 如权利要求1或2所述的数据挖掘方法,其特征在于,所述设置数据抽 取规则包括设置数据抽取的条件,以及设置多次抽取数据,或从单个或多个 数据源中抽取多个数据。6、 一种建模方法,其特征在于,该方法包括 根据预设的数据抽取规则,从数据源中抽取建模数据; 选择算法,对所述建模数据进行建模。7、 如权利要求6所述的建模方法,其特征在于,该方法进一步包括 预先设置包括数据获取流程和建模流程的工作流; 所述步骤A在所述数据获取流程中执行;所述步骤B在所述建模流程中执行。8、 如权利要求6或7所述的建模方法,其特征在于,所述步骤A进一步 包括对所述抽取的建模数据进行预处理。9、 如权利要求6或7所述的建模方法,其特征在于,所述方法进一步包括 根据预先设置的模型评估规则,对建立的模型进行评估,确定最优的模型。10、 如权利要求6或7所述的建模方法,其特征在于,所述设置数据抽取 规则包括设置数据抽取的条件,以及设置多次抽取数据,或者从单个或多个 数据源中抽取多个数据。11、 一种数据挖掘系统,其特征在于,该系统包括数据获取模块、建模模 块、结果应用模块及展现模块,所述数据获取模块,用于保存设置的数据抽取规则,根据所述数据抽取规 则从数据源...

【专利技术属性】
技术研发人员:劳玮闫延涛
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1