一种基于云服务的大数据收集方法及系统技术方案

技术编号:16216574 阅读:75 留言:0更新日期:2017-09-15 22:46
本发明专利技术实施例公开了一种基于云服务的大数据收集方法及系统,所述系统包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集。利用本发明专利技术实施例,用户可以根据自身需要预设不同的行业数据,如银行数据、基因序列、金融控制等,数据挖掘应用服务器再根据用户的预设条件进行针对性分析处理,结构简单、目的明确、效率高。

Method and system for collecting large data based on cloud service

The embodiment of the invention discloses a method and system for collecting data based on cloud service, the system includes an information system for receiving and processing user preset conditions in the industry data; data filtering for user preset industry data, got a complete and not repeat the industry data; data mining application server is used for filtering get the complete and not repeat the industry data for data extraction, transformation and loading, and the storage of data mining results into the database, the realization of data collection. The embodiment of the invention, the user can according to their own need to know the different industry data, such as data bank, gene sequence, financial control, data mining application server according to the preset conditions of the user for the analysis processing, simple structure, high efficiency, clear purpose.

【技术实现步骤摘要】
一种基于云服务的大数据收集方法及系统
本专利技术涉及数据收集
,特别涉及一种基于云服务的大数据收集方法及系统。
技术介绍
数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析总结,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据挖掘可帮助人们作出判断,以便采取适当行动。数据挖掘的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据挖掘得以推广。数据挖掘是数学与计算机科学相结合的产物。数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据。据相关数据统计,每秒钟人们发送290封电子邮件;亚马逊处理72.9笔订单;每分钟人们在YouTube上传20小时的视频;每月人们总共在facebook(脸书)上浏览7000亿分钟。目前的数据挖掘面临的问题是数据量大、多种结构形式和实时性等多样化要求,这些问题增加了数据挖掘和整合困难,传统数据挖掘系统的架构设计结构复杂、效率低、针对性不强。
技术实现思路
本专利技术实施例的目的在于提供一种基于云服务的大数据收集方法及系统,对数据进行针对性采集和整合,结构简单、目的性强。为达到上述目的,本专利技术实施例公开了一种基于云服务的大数据收集方法,方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集。为达到上述目的,本专利技术实施例公开了一种基于云服务的大数据收集方法,方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入行业客户端进行存储,实现数据收集。可选的,所述方法还包括:所述行业客户端为用户提供自身存储的分析处理后的最终数据。可选的,所述针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据,包括:利用Hadoop分布式模式,针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据。可选的,所述数据库为:关系数据库。为达到上述目的,本专利技术实施例公开了一种基于云服务的大数据收集系统,其特征在于,包括:信息系统、数据过滤模块、数据挖掘应用服务器和数据库;所述信息系统用于接收和处理用户预设条件的行业数据;所述数据过滤模块用于针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;所述数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集;所述数据库用于为用户提供自身存储的分析处理后的最终数据。为达到上述目的,本专利技术实施例公开了一种基于云服务的大数据收集系统,其特征在于,包括:信息系统、数据过滤模块、数据挖掘应用服务器和行业客户端;所述信息系统用于接收和处理用户预设条件的行业数据,并通过总线接入该系统中;所述数据过滤模块,用于针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;所述数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入行业客户端进行存储,实现数据收集;所述行业客户端用于为用户提供自身存储的分析处理后的最终数据。可选的,所述信息系统包括:管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统。可选的,所述数据挖掘应用服务器包括:探索数据仓库、数据挖掘算法库和模型库;所述探索数据仓库用于读取所述管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统中的数据;所述数据挖掘算法库用于根据模型库和探索数据仓库的信息对数据进行挖掘计算并将计算结果导入行业客户端。可选的,所述行业客户端包括:知识储存端和客户应用端;所述知识储存端用于接收所述数据挖掘算法库导入的数据并储存;所述客户应用端用于读取知识储存端的数据并供客户查询。可见,用户可以根据自身需要预设不同的行业数据,数据挖掘应用服务器再根据用户的预设条件进行针对性分析处理,结构简单、目的明确、效率高;数据挖掘算法库采用统计分析、决策树、粗糙集、模糊集、基于范例的理、神经网络等数据挖掘方法对信息数据集中的海量数据进行分析、处理、推理、预测、最终根据用户设定的条件,实现最优方案的自动推送。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的基于云服务的大数据收集方法的一种流程示意图。图2为本专利技术实施例提供的基于云服务的大数据收集方法的另一种流程示意图。图3为本专利技术实施例提供的基于云服务的大数据收集系统的一种结构示意图。图4为本专利技术实施例提供的基于云服务的大数据收集系统的另一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的基于云服务的大数据收集方法的一种流程示意图,可以包括如下步骤:S101,信息系统接收和处理用户预设条件的行业数据;具体的,所述信息系统包括:管理信息系统、企业资源计划系统、客户关系管理系统和电子商务系统。其中,管理信息系统(ManagementInformationSystem,简称MIS)是一个以人为主导,利用计算机硬件、软件、网络通信设备以及其他办公设备,进行信息的收集、传输、加工、储存、更新、拓展和维护的系统。管理信息系统(ManagementInformationSystems简称MIS)是一个不断发展的新型学科,MIS的定义随着计算机技术和通讯技术的进步也在不断更新,在现阶段普遍认为管理信息系统MIS、是由人和计算机设备或其他信息处理手段、组成并用于管理信息的系统。管理信息由信息的采集、信息的传递、信息的储存、信息的加工、信息的维护和信息的使用六个方面组成。完善的管理信息系统MIS具有以下四个标准:确定的信息需求、信息的可采集与可加工、可以通过程序为管理人员提供信息、可以对信息进行管理。具有统一规划的数据库是MIS成熟的重要标志,它象征着管理信息系统MIS是软件工程的产物.、管理信息系统MIS是一个交叉性综合性学科,组成部分有:计算机学科(网络通讯、数据库、计算机语言等)、数学(统计学、运筹学、线性规划等)、管理学、仿真等多学科。信息是管理上的一项极为重要的资源,管理工作的成败取决于能否做出有效的决策,而决策的正确程度则在很大程度上取决于信息的质量。所以能否有效的管理信息成为企业的首要问本文档来自技高网...
一种基于云服务的大数据收集方法及系统

【技术保护点】
一种基于云服务的大数据收集方法,其特征在于,所述方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集。

【技术特征摘要】
1.一种基于云服务的大数据收集方法,其特征在于,所述方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集。2.一种基于云服务的大数据收集方法,其特征在于,所述方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入行业客户端进行存储,实现数据收集。3.根据权利要求2所述的方法,所述方法还包括:所述行业客户端为用户提供自身存储的分析处理后的最终数据。4.根据权利要求1或2所述的方法,所述针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据,包括:利用Hadoop分布式模式,针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据。5.根据权利要求1所述的方法,所述数据库为:关系数据库。6.一种基于云服务的大数据收集系统,其特征在于,包括:信息系统、数据过滤模块、数据挖掘应用服务器和数据库;所述信息系统用于接收和处理用户预设条件的行业数据;所述数据过滤模块用于针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;所述数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、...

【专利技术属性】
技术研发人员:陈彬强蔡勇
申请(专利权)人:肇庆市智高电机有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1