分布式数据挖掘方法及系统技术方案

技术编号:15956328 阅读:64 留言:0更新日期:2017-08-08 09:55
本发明专利技术提供一种分布式数据挖掘方法及系统。所述系统包括:第一服务器及分布式集群组,分布式集群组包括多个第二服务器。第一服务器获取用户在浏览器界面选择的挖掘数据信息。第一服务器基于挖掘数据信息进行变量定义,以便进行模型运算。第一服务器获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的模型信息发送给分布式集群组。分布式集群组接收第一服务器发送的挖掘数据信息及选择的模型信息,根据用户选择的模型进行模型运算及挖掘分析。由此,通过采用分布式架构横向扩展了数据的处理规模,优化了对数据模型的定义,不需要高度专业化的客户端,减轻对技术人员的专业要求,降低了学习成本。

【技术实现步骤摘要】
分布式数据挖掘方法及系统
本专利技术涉及计算机
,具体而言,涉及一种分布式数据挖掘方法及系统。
技术介绍
在现有的数据挖掘技术中,通常只配置一台服务器对数据进行处理,数据处理量小,服务器负担重。并且需要在高度专业化的客户端界面上进行模型定义,需要通过专业的编程语言来实现。由此,进行数据挖掘的技术人员需要具备较高水平的专业技术,增加了相应的技术学习成本。
技术实现思路
为了克服现有技术中的上述不足,本专利技术提供一种分布式数据挖掘方法及系统,其采用分布式架构,可横向扩展数据的处理规模,优化了对数据模型的定义,减轻对技术人员的专业要求,降低了学习成本。本专利技术的第一目的在于提供一种分布式数据挖掘方法,所述方法应用于分布式数据挖掘系统,所述分布式数据挖掘系统包括:第一服务器及分布式集群组,所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器,所述方法包括:第一服务器获取用户在浏览器界面选择的挖掘数据信息;第一服务器基于所述挖掘数据信息进行变量定义,以便进行模型运算;第一服务器获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的所述模型信息发送给分布式集群组;分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息,根据用户选择的模型进行模型运算及挖掘分析。本专利技术的第二目的在于提供一种分布式数据挖掘系统,所述分布式数据挖掘系统包括:第一服务器及分布式集群组,所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器,其中:所述第一服务器,用于获取用户在浏览器界面选择的挖掘数据信息;所述第一服务器,还用于基于所述挖掘数据信息进行变量定义,以便进行模型运算;所述第一服务器,还用于获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的所述模型信息发送给分布式集群组;所述分布式集群组,用于接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息,根据用户选择的模型进行模型运算及挖掘分析。相对于现有技术而言,本专利技术具有以下有益效果:本专利技术提供一种分布式数据挖掘方法及系统。所述分布式数据挖掘系统包括:第一服务器及分布式集群组,所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器。第一服务器获取用户在浏览器界面选择的挖掘数据信息。第一服务器基于所述挖掘数据信息进行变量定义,以便进行模型运算。第一服务器获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的所述模型信息发送给分布式集群组。分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息,根据用户选择的模型进行模型运算及挖掘分析。由此,通过采用分布式架构横向扩展了数据的处理规模,优化了对数据模型的定义,不需要高度专业化的客户端,减轻对技术人员的专业要求,降低了学习成本。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术较佳实施例提供的分布式数据挖掘系统的方框示意图。图2是本专利技术较佳实施例提供的图1所示的第一服务器的方框示意图。图3是本专利技术较佳实施例提供的图1所示的第二服务器的方框示意图。图4是本专利技术较佳实施例提供的分布式数据挖掘方法的步骤流程图之一。图5是本专利技术较佳实施例提供的图4所示的步骤S110的子步骤流程图。图6是本专利技术较佳实施例提供的图4所示的步骤S130的子步骤流程图。图7是本专利技术较佳实施例提供的分布式数据挖掘方法的步骤流程图之二。图标:10-分布式数据挖掘系统;100-第一服务器;110-第一存储器;120-第一处理器;130-第一网络模块;200-分布式集群组;210-第二服务器;212-第二存储器;214-第二处理器;216-第二网络模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本专利技术提供一种分布式数据挖掘系统。请参照图1,图1是本专利技术较佳实施例提供的分布式数据挖掘系统10的方框示意图。所述分布式数据挖掘系统10包括相互通信连接的第一服务器100及分布式集群组200。所述分布式集群组200包括多个第二服务器210。在本实施例中,所述第一服务器100负责响应用户在浏览器界面进行的相关操作,以及执行数据挖掘的相关业务并对数据挖掘业务进行管理。所述分布式集群组200专门负责对数据进行运算。所述分布式集群组200通过多个第二服务器210实现数据的分布式运算,以对数据的处理规模进行扩展。在本实施例中,所述分布式数据挖掘系统10采用B/S架构(Browser/Server,浏览器/服务器模式),B/S是Web兴起后的一种网络结构模式,Web浏览器是客户端最主要的应用软件。这种模式统一了客户端,将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。客户端上只要安装一个浏览器,如NetscapeNavigator或InternetExplorer,服务器安装SQLServer、Oracle、MYSQL等数据库,浏览器通过WebServer同数据库进行数据交互。由此,不需要依靠高度专业化的客户端来进行模型的定义操作,易于对系统进行扩展,也降低了成本。在本实施例中,所述分布式数据挖掘系统10采用分布式架构进行数据处理,通过将需要进行大量计算的数据分区成小块,由多台服务器分别进行计算,计算后再将结果统一合并得出数据结论。采用分布式架构的系统更易于对数据处理规模进行扩展,以对大量数据进行运算。请参照图2,图2是本专利技术较佳实施例提供的图1所示的第一服务器100的方框示意图。所述第一服务器100包括第一存储器110、第一处理器120及第一网络模块130。所述第一存储器110、第一处理器120及第一网络模块130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线或信号线实现电性连接。第一存储器110中存储有多个软件功能模块,所述第一处理器120通过运行存储在第一存储器110内的软件程序以及模块,从而执行各种功能应用以及数据处理。其中,所述第一存储器110可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只本文档来自技高网...

【技术保护点】
一种分布式数据挖掘方法,其特征在于,所述方法应用于分布式数据挖掘系统,所述分布式数据挖掘系统包括:第一服务器及分布式集群组,所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器,所述方法包括:第一服务器获取用户在浏览器界面选择的挖掘数据信息;第一服务器基于所述挖掘数据信息进行变量定义,以便进行模型运算;第一服务器获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的所述模型信息发送给分布式集群组;分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息,根据用户选择的模型进行模型运算及挖掘分析。

【技术特征摘要】
1.一种分布式数据挖掘方法,其特征在于,所述方法应用于分布式数据挖掘系统,所述分布式数据挖掘系统包括:第一服务器及分布式集群组,所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器,所述方法包括:第一服务器获取用户在浏览器界面选择的挖掘数据信息;第一服务器基于所述挖掘数据信息进行变量定义,以便进行模型运算;第一服务器获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的所述模型信息发送给分布式集群组;分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息,根据用户选择的模型进行模型运算及挖掘分析。2.根据权利要求1所述的方法,其特征在于,所述第一服务器获取用户在浏览器界面选择的挖掘数据信息的步骤包括:获取用户在浏览器界面选择的需要进行挖掘分析的交换服务信息及数据字段信息;分别响应用户对所述交换服务信息及数据字段信息进行关联设置的操作,并获取经过关联设置的交换服务信息及数据字段信息;当用户需要对交换服务中的数据进行过滤时,响应用户对数据进行过滤条件设置的操作,以对所述数据进行过滤。3.根据权利要求2所述的方法,其特征在于,所述第一服务器基于所述挖掘数据信息进行变量定义,以便进行模型运算的步骤包括:响应用户对需要进入模型运算的数据字段进行参数配置的操作;将需要进行模型运算的数据字段进行转换定义,转换为可带入模型中进行运算的变量。4.根据权利要求3所述的方法,其特征在于,所述第一服务器响应用户对需要进入模型运算的数据字段进行参数配置的操作的步骤包括:基于获取的数据字段信息进行字段类型定义,并根据数据字段类型配置默认的变量数据类型;响应用户对不同类型的数据字段进行离散化设置的操作,以便对所述数据字段进行分类,其中,所述离散化设置包括:分段设置、归类设置及标签设置;响应用户对插补数据进行类型选择的操作,当数据字段中存在缺失数据时,服务器基于用户选择的插补数据类型对缺失数据进行插补取值。5.根据权利要求4所述的方法,其特征在于,所述第一服务器获取用户在浏览器界面选择的模型信息,并将挖掘数据信息及选择的所述模型信息发送给分布式集群组的步骤包括:获取用户在浏览器界面选择的模型信息;基于用户选择的模型信息配置相应的挖掘算法,并通过浏览器显示给用户;为每种模型配置默认的分析参数,并通过浏览器显示给用户;响应用户对...

【专利技术属性】
技术研发人员:李存昌
申请(专利权)人:四川九鼎瑞信软件开发有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1