多数据源协同条件下的数据挖掘和知识发现方法技术

技术编号:2855459 阅读:328 留言:0更新日期:2012-04-11 18:40
一种多数据源协同条件下的数据挖掘和知识发现方法,包括如下步骤:步骤1,建立元数据存储器;步骤2,在元数据管理器中将算法进行注册,产生相应的执行模块描述元数据保存在元数据存储器中;步骤3、通过图形界面进行处理流程定义,产生的处理流程定义通过终端用户访问接口保存在元数据存储器中;步骤4、元数据管理器根据通过算法接口调用相关的处理算法进行数据处理;步骤5、数据处理过程相关信息通过元数据管理器保存在元数据存储器中。该方法能够很好地解决了企业现有系统中数据预处理过程、数据挖掘、数据统计、以及多数据源的协同处理等过程中的难于表示、维护、交换和处理的问题。

【技术实现步骤摘要】

本专利技术涉及一种。
技术介绍
随着企业信息化的加速,针对目前企业遗留系统多、缺乏统一商务智能分析平台,作为商务智能系统中的核心技术,数据挖掘自九十年代以来就已成为计算机、统计学等领域的研究热点。目前已开发出一大批数据挖掘算法,然而它们多注重于算法的有效性和性能,并不能满足复杂的实际应用的需求。九十年代中期,一些研究机构开发了集成的数据挖掘系统,例如QUEST(IBMAlmaden实验室)、DBMiner(加拿大Simon Fraser大学)等。然而,这些产品在标准化、易用性、稳定性、可扩展性等方面仍存在问题,尚处于实验室阶段。近两年,一些软件厂商和数据挖掘研发组织开始着手制订数据挖掘操作的标准接口,其中影响较广的有Microsoft公司制订的OLE-DB for DataMining标准和DMG组织制订的基于XML标准的PMML预测模型描述标准。它们的共同特点是面向独立的数据挖掘操作,操作之间缺乏交互性和互操作性。
技术实现思路
本专利技术所要解决的技术问题是提供一种。该方法能够很好地解决了企业现有系统中数据预处理过程、数据挖掘、数据统计、以及多数据源的协同处理等过程中的难于表示、维护、交换和处理的问题。为了解决上述技术问题,本专利技术的,包括如下步骤步骤1,建立元数据存储器,选定或定义一种元数据管理标准,建立元数据管理器,选定适合的元数据存储方式,根据元数据管理标准和元数据存储器定义元数据访问接口,包括终端用户访问接口中、算法接口和存储接口;步骤2,根据算法接口,对已用算法进行改写;或者按算法接口的要求重新编写新的算法,在元数据管理器中将这些算法进行注册,产生相应的执行模块描述元数据保存在元数据存储器中;步骤3、用户通过终端界面访问元数据管理器,从元数据存储器中获取算法描述、数据描述等相关信息,通过图形界面进行处理流程定义,产生的处理流程定义通过终端用户访问接口保存在元数据存储器中;步骤4、元数据管理器根据元数据存储器中保存的处理流程定义,产生数据处理执行计划,并通过算法接口调用相关的处理算法进行数据处理;步骤5、数据处理过程相关信息通过元数据管理器保存在元数据存储器中。为了实现上述实施步骤,本专利技术提供了四种处理引擎1、元数据驱动的数据预处理引擎,2、多功能数据挖掘引擎,3、多功能统计分析引擎,4、多数据源协同条件下的工作引擎。本专利技术的优点和技术上的进步1、可以方便地实现数据预处理算法、数据挖掘和统计分析算法的扩充和升级。在我们的方法架构中,各类算法通过注册的方式加入到系统中。因此当我们需要对已有的算法进行更新或升级时,或者需要扩充新的算法时,只需要对相关的算法模块进行注册。2、能够与系统中其它模块或其它系统方便地进行元数据交换。在创建元数据存储器的过程中,用户可以根据应用领域或行业标准来选择不同的元数据管理标准作为元数据存储器的规范。目前已有的元数据管理规范,如CWM,对元数据的交换都有明确的标准,因此我们可以很方便地和使用同一规范的其它系统进行元数据交换。3、多功能数据挖掘引擎在我们的方法架构中,集成了当今国际主流的全部数据挖掘算法,涉及分类算法、聚类算法、关联规则算法、决策树算法、时序模式发现多个领域,提供给用户进行选择和设置。数据挖掘算法操作之间的有机结合。不同的数据挖掘操作或算法是针对不同种类的数据、不同种类的知识发现任务而开发的。我们的方法架构中保证了这些数据挖掘操作能够在统一的体系结构中良好地相互协作。参数自调整的数据挖掘算法功能。很多数据挖掘算法需要用户设定繁琐的参数,这些参数往往是不容易理解,同时,对于同一种数据挖掘任务往往存在不同的算法以供选择,这些算法针对不同的应用和数据各有千秋。为了减轻用户的负担,并提高数据挖掘技术的可用性,提高数据挖掘模块的集成度,系统具有自调节能力的数据挖掘方法,对于不同参数实现自调整的功能。4、可以实现处理流程定义和处理过程的分离。在我们提出的方法架构中,用户终端界面并不和具体的处理算法直接交互,这样可以实现处理流程定义和处理过程的分离。用户可以根据在注册的处理算法来进行定义,而不必关系这些算法在系统中具体是如何实现的;开发人员在进行处理算法的开发过程中主要考虑和元数据管理器的交互,从而避免了过多考虑用户行为的算法使用的影响。此外,通过定义和处理的分离,用户还可以在算法没有完全实现的情况下来进行处理流程定义。5、为软件系统的执行效率、兼容性和可靠性提供了保障。在我们的方法架构中,算法的执行不需要考虑终端用户的行为,因此系统可以最大限度地进行执行效率的优化;方便的元数据交换在一定程度上提高了软件系统的兼容性;流程定义和处理过程的分离为软件系统的可靠性提供了保障。附图说明图1是本专利技术的有工作流程图。图2是通过图形界面进行处理流程定义的示意图。具体实施例方式1、建立元数据存储器。根据行业特点和相关的行业规范,选定一种元数据管理标准,在本具体实施例中,我们采用OMG组织的CWM(Common Warehouse Metamodel)通用数据仓库元模型标准;或者定义自己的元数据管理标准。根据软件系统的规模,选定适合的元数据存储方式,如文本文件、XML文件、关系数据库、专用存储器等。根据元数据管理标准和元数据存储器定义元数据访问接口,包括终端用户访问接口、算法接口和存储接口。在以上工作的基础上为软件系统创建元数据存储器。2、各类数据预处理算法、数据挖掘算法、统计分析算法、在元数据管理器中注册。根据元数据管理提供的算法接口,对已有的数据预处理算法、数据挖掘算法、统计分析算法进行改写,即按照算法接口的要求将已有算法的输入参数、输入数据格式和输出数据格式重新定义,以适应元数据管理器的要求。例如在分析连铸的质量工艺参数性能时,系统为元数据给出定义编号001,在分析轧制的质量工艺参数性能时,系统为元数据则从新定义编号002。或者按照算法接口中对算法输入参数和数据格式的要求编写新的数据预处理算法,并对这些算法进行模块化。然后再元数据管理器中将这些算法进行注册,产生相应的执行模块描述元数据保存在元数据存储器中,作为用户定义处理流程和系统进行数据处理的依据。3、用户通过界面定义数据预处理流程、数据挖掘流程、统计分析流程,并在元数据管理器中保存。用户通过终端界面访问元数据管理器,从元数据存储器中获取算法描述、数据描述等相关的信息,通过图形界面进行处理流程定义(如附图2所示)。处理流程定义实例根据业务分析需要,先选择待分析对象的数据源,(如选ODBC),再选择数据预处理,(如选排序),再选择数据挖掘算法(如选神经网络预测算法),这样组成一个数据分析处理流。产生的处理流程定义通过终端用户访问接口保存在元数据存储器中,作为系统进行数据处理的依据。4、元数据管理器驱动各类算法进行数据分析。元数据管理器根据元数据存储器中保存的处理流程定义,产生数据处理执行计划。一个处理流程都会分配到一个唯一的ID,根据这个ID就可以按顺序找到流程内部的每个处理步骤,而根据每个步骤处理的先后逻辑、触发事件和调度时间,可以生成数据处理执行计划,并通过算法接口调用相关的处理算法进行数据处理。数据处理可以包括过滤、映射、聚合、行列转换、重复元组检测、数据挖掘、统计分析等常用处理。5、数据处理过程相关信息通过元数本文档来自技高网...

【技术保护点】
一种多数据源协同条件下的数据挖掘和知识发现方法,其特征在于,包括如下步骤:步骤1,建立元数据存储器,选定或定义一种元数据管理标准,建立元数据管理器,选定适合的元数据存储方式,根据元数据管理标准和元数据存储器定义元数据访问接口,包括终 端用户访问接口中、算法接口和存储接口;步骤2,根据算法接口,对已用算法进行改写;或者按算法接口的要求重新编写新的算法,在元数据管理器中将这些算法进行注册,产生相应的执行模块描述元数据保存在元数据存储器中;步骤3、用户通过终端 界面访问元数据管理器,从元数据存储器中获取算法描述、数据描述等相关信息,通过图形界面进行处理流程定义,产生的处理流程定义通过终端用户访问接口保存在元数据存储器中;步骤4、元数据管理器根据元数据存储器中保存的处理流程定义,产生数据处理 执行计划,并通过算法接口调用相关的处理算法进行数据处理;步骤5、数据处理过程相关信息通过元数据管理器保存在元数据存储器中。

【技术特征摘要】
1.一种多数据源协同条件下的数据挖掘和知识发现方法,其特征在于,包括如下步骤步骤1,建立元数据存储器,选定或定义一种元数据管理标准,建立元数据管理器,选定适合的元数据存储方式,根据元数据管理标准和元数据存储器定义元数据访问接口,包括终端用户访问接口中、算法接口和存储接口;步骤2,根据算法接口,对已用算法进行改写;或者按算法接口的要求重新编写新的算法,在元数据管理器中将这些算法进行注册,产生相应的执行模块描述元数据保存在元数据存储器中;步骤3、用户通过终端界面访问元数据管理器,从元数据存储器中获取算法描述、数据描述等相关信息,通过图形界面进行处理流程定义,产生的处理流程定义通过终端用户访问接口保存在元数据存储器中;步骤4、元数据管理器根据元数据存储器中保存的处理流程定义,产生数据处理执行计划,并通过算法接口调用相关的处理算法进行数据处理;步骤5、数据处理过程相关信息通过元数据管理器保存在元数据存储器中。2.根据权利要求1所述的多数据源协同条件下的数据挖掘和知识发现方法,其特征在于,所述的元数据管理标准为CWM标准。3.根据权利要求1所述的多数据源协同条件下的数据挖掘和知识发现方法,其特征在于,所述的根据算法接口,对已用算法进行改写的具体方法为按照算法接口的要求将已有算法的输入...

【专利技术属性】
技术研发人员:胡大斌郭烨汪恒杰冯安平邵旭俊董武军邵婷朱彭生
申请(专利权)人:上海宝信软件股份有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1