分布式数据挖掘方法及系统技术方案

技术编号：15956328 阅读：64 留言：0更新日期：2017-08-08 09:55

本发明专利技术提供一种分布式数据挖掘方法及系统。所述系统包括：第一服务器及分布式集群组，分布式集群组包括多个第二服务器。第一服务器获取用户在浏览器界面选择的挖掘数据信息。第一服务器基于挖掘数据信息进行变量定义，以便进行模型运算。第一服务器获取用户在浏览器界面选择的模型信息，并将挖掘数据信息及选择的模型信息发送给分布式集群组。分布式集群组接收第一服务器发送的挖掘数据信息及选择的模型信息，根据用户选择的模型进行模型运算及挖掘分析。由此，通过采用分布式架构横向扩展了数据的处理规模，优化了对数据模型的定义，不需要高度专业化的客户端，减轻对技术人员的专业要求，降低了学习成本。

全部详细技术资料下载

【技术实现步骤摘要】
分布式数据挖掘方法及系统
本专利技术涉及计算机
，具体而言，涉及一种分布式数据挖掘方法及系统。
技术介绍
在现有的数据挖掘技术中，通常只配置一台服务器对数据进行处理，数据处理量小，服务器负担重。并且需要在高度专业化的客户端界面上进行模型定义，需要通过专业的编程语言来实现。由此，进行数据挖掘的技术人员需要具备较高水平的专业技术，增加了相应的技术学习成本。
技术实现思路
为了克服现有技术中的上述不足，本专利技术提供一种分布式数据挖掘方法及系统，其采用分布式架构，可横向扩展数据的处理规模，优化了对数据模型的定义，减轻对技术人员的专业要求，降低了学习成本。本专利技术的第一目的在于提供一种分布式数据挖掘方法，所述方法应用于分布式数据挖掘系统，所述分布式数据挖掘系统包括：第一服务器及分布式集群组，所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器，所述方法包括：第一服务器获取用户在浏览器界面选择的挖掘数据信息；第一服务器基于所述挖掘数据信息进行变量定义，以便进行模型运算；第一服务器获取用户在浏览器界面选择的模型信息，并将挖掘数据信息及选择的所述模型信息发送给分布式集群组；分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息，根据用户选择的模型进行模型运算及挖掘分析。本专利技术的第二目的在于提供一种分布式数据挖掘系统，所述分布式数据挖掘系统包括：第一服务器及分布式集群组，所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器，其中：所述第一服务器，用于获取用户在浏览器界面选择的挖掘数据信息；所述第一服务器，还用于基于所述挖掘数据信息...

【技术保护点】
一种分布式数据挖掘方法，其特征在于，所述方法应用于分布式数据挖掘系统，所述分布式数据挖掘系统包括：第一服务器及分布式集群组，所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器，所述方法包括：第一服务器获取用户在浏览器界面选择的挖掘数据信息；第一服务器基于所述挖掘数据信息进行变量定义，以便进行模型运算；第一服务器获取用户在浏览器界面选择的模型信息，并将挖掘数据信息及选择的所述模型信息发送给分布式集群组；分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息，根据用户选择的模型进行模型运算及挖掘分析。

【技术特征摘要】
1.一种分布式数据挖掘方法，其特征在于，所述方法应用于分布式数据挖掘系统，所述分布式数据挖掘系统包括：第一服务器及分布式集群组，所述分布式集群组包括多个用于进行模型运算及挖掘分析的第二服务器，所述方法包括：第一服务器获取用户在浏览器界面选择的挖掘数据信息；第一服务器基于所述挖掘数据信息进行变量定义，以便进行模型运算；第一服务器获取用户在浏览器界面选择的模型信息，并将挖掘数据信息及选择的所述模型信息发送给分布式集群组；分布式集群组接收所述第一服务器发送的所述挖掘数据信息及选择的模型信息，根据用户选择的模型进行模型运算及挖掘分析。2.根据权利要求1所述的方法，其特征在于，所述第一服务器获取用户在浏览器界面选择的挖掘数据信息的步骤包括：获取用户在浏览器界面选择的需要进行挖掘分析的交换服务信息及数据字段信息；分别响应用户对所述交换服务信息及数据字段信息进行关联设置的操作，并获取经过关联设置的交换服务信息及数据字段信息；当用户需要对交换服务中的数据进行过滤时，响应用户对数据进行过滤条件设置的操作，以对所述数据进行过滤。3.根据权利要求2所述的方法，其特征在于，所述第一服务器基于所述挖掘数据信息进行变量定义，以便进行模型运算的步骤包括：响应用户对需要进入模型运算的数据字段进行参数配置的操作；将需要进行模型运算的数据字段进行转换定义，转换为可带入模型中进行运算的变量。4.根据权利要求3所述的方法，其特征在于，所述第一服务器响应用户对需要进入模型运算的数据字段进行参数配置的操作的步骤包括：基于获取的数据字段信息进行字段类型定义，并根据数据字段类型配置默认的变量数据类型；响应用户对不同类型的数据字段进行离散化设置的操作，以便对所述数据字段进行分类，其中，所述离散化设置包括：分段设置、归类设置及标签设置；响应用户对插补数据进行类型选择的操作，当数据字段中存在缺失数据时，服务器基于用户选择的插补数据类型对缺失数据进行插补取值。5.根据权利要求4所述的方法，其特征在于，所述第一服务器获取用户在浏览器界面选择的模型信息，并将挖掘数据信息及选择的所述模型信息发送给分布式集群组的步骤包括：获取用户在浏览器界面选择的模型信息；基于用户选择的模型信息配置相应的挖掘算法，并通过浏览器显示给用户；为每种模型配置默认的分析参数，并通过浏览器显示给用户；响应用户对...

【专利技术属性】
技术研发人员：李存昌，
申请(专利权)人：四川九鼎瑞信软件开发有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人