The embodiment of the invention discloses a method and system for collecting data based on cloud service, the system includes an information system for receiving and processing user preset conditions in the industry data; data filtering for user preset industry data, got a complete and not repeat the industry data; data mining application server is used for filtering get the complete and not repeat the industry data for data extraction, transformation and loading, and the storage of data mining results into the database, the realization of data collection. The embodiment of the invention, the user can according to their own need to know the different industry data, such as data bank, gene sequence, financial control, data mining application server according to the preset conditions of the user for the analysis processing, simple structure, high efficiency, clear purpose.
【技术实现步骤摘要】
一种基于云服务的大数据收集方法及系统
本专利技术涉及数据收集
,特别涉及一种基于云服务的大数据收集方法及系统。
技术介绍
数据挖掘是指用适当的统计分析方法对收集来的大量数据进行分析总结,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据挖掘可帮助人们作出判断,以便采取适当行动。数据挖掘的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据挖掘得以推广。数据挖掘是数学与计算机科学相结合的产物。数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据。据相关数据统计,每秒钟人们发送290封电子邮件;亚马逊处理72.9笔订单;每分钟人们在YouTube上传20小时的视频;每月人们总共在facebook(脸书)上浏览7000亿分钟。目前的数据挖掘面临的问题是数据量大、多种结构形式和实时性等多样化要求,这些问题增加了数据挖掘和整合困难,传统数据挖掘系统的架构设计结构复杂、效率低、针对性不强。
技术实现思路
本专利技术实施例的目的在于提供一种基于云服务的大数据收集方法及系统,对数据进行针对性采集和整合,结构简单、目的性强。为达到上述目的,本专利技术实施例公开了一种基于云服务的大数据收集方法,方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载 ...
【技术保护点】
一种基于云服务的大数据收集方法,其特征在于,所述方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集。
【技术特征摘要】
1.一种基于云服务的大数据收集方法,其特征在于,所述方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入数据库进行存储,实现数据收集。2.一种基于云服务的大数据收集方法,其特征在于,所述方法包括:信息系统接收和处理用户预设条件的行业数据;针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、转换和装载,并将数据挖掘结果导入行业客户端进行存储,实现数据收集。3.根据权利要求2所述的方法,所述方法还包括:所述行业客户端为用户提供自身存储的分析处理后的最终数据。4.根据权利要求1或2所述的方法,所述针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据,包括:利用Hadoop分布式模式,针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据。5.根据权利要求1所述的方法,所述数据库为:关系数据库。6.一种基于云服务的大数据收集系统,其特征在于,包括:信息系统、数据过滤模块、数据挖掘应用服务器和数据库;所述信息系统用于接收和处理用户预设条件的行业数据;所述数据过滤模块用于针对用户所预设的行业数据进行数据过滤,得到完整且不重复的行业数据;所述数据挖掘应用服务器用于针对过滤得到的完整且不重复的行业数据进行数据抽取、...
【专利技术属性】
技术研发人员:陈彬强,蔡勇,
申请(专利权)人:肇庆市智高电机有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。