一种大数据的分析系统技术方案

技术编号:18445146 阅读:16 留言:0更新日期:2018-07-14 10:28
本发明专利技术实施例提供了一种大数据的分析系统,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;对所述K类数据采用预设聚类模型进行聚类,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。应用本发明专利技术的实施例,可以提高数据分析的有效性。

A large data analysis system

The embodiment of the invention provides an analysis system for large data, which includes steps: collecting web data according to preset data collection rules, filtering and normalization of collected web data, obtaining screening data, and classifying the selected data by a preset classification model. The K class data after classification are obtained, and the K class data are clustered by default clustering model. According to the classification and clustering results, the data are stored and indexed in a unified way to form a large database. By applying the embodiment of the invention, the validity of data analysis can be enhanced.

【技术实现步骤摘要】
一种大数据的分析系统
本专利技术涉及电子
,尤其涉及一种大数据的分析系统。
技术介绍
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。2016年,我国大数据产业保持高速发展态势,各级政府和企业大力推进,技术创新取得明显突破,大数据应用推进势头良好,产业体系初具雏形,支撑能力日益增强。展望2017年,大数据产业发展将迎来“黄金期”,产业集聚将进一步特色化发展,创新驱动仍将是产业发展主基调,大数据融合应用进程加速,为做大做强数字经济、带动传统产业转型升级提供新动力。大数据应用及未来展望,紧跟互联网+,便捷未来人们的生活,方便用户。畅想未来人与人之间的联系,从社交网络、社区文化,到“六度空间”;展望教育对于国家的希望,大数据和教育整合、合理的早教,对个人的帮助,对社会和国家的贡献;帮助病人的控制病情,并发病等,结合医疗平台,预测依照现有的生活方式,对个人的影响度,精确医疗救助,帮助老人送诊就医;减少自然灾害对人类,对生态环境的影响,“蝴蝶效应”预测自然灾害的发生;从开发者角度,整合用户数据,适应市场变化,用户需求,猜“你”喜欢,开发出满足用户需求的应用;大数据和人脸识别的结合应用,人脸分析,动态推送广告,全“自动”,非“手动”应用,强调人和人之间的猜“你”喜欢的全新的社交方式。大数据在未来的应用必将更加广泛,如何获取大数据,掌握大数据,提取大数据,整合大数据,关系到人们未来生活的方方面面,谁掌握了大数据,就掌握了未来。信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。信息抽取(InformationExtraction:IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库。在日益信息化和网络化的当代社会中,如何找到所需要的信息并把有用的信息归类、过滤或提取出来一直是一个比较紧迫的实际问题。相应地,各种帮助人们查找、分类和存储信息的理论、技术、应用工具和系统始终在不断地发展和更新,并保持着旺盛的活力。近年来,一种叫做信息提取的技术逐渐受到了人们的关注。它有望成为一种广受欢迎的实用信息技术,在人们的日常工作和生活中发挥极大的效用。近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查和比较。信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查和比较。在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式也各不相同,现有技术中,很难将预期的网页数据挖掘完全。另外,互联网上,信息转载频繁,如何实现重复信息的归一化,也是一项关键。
技术实现思路
本专利技术实施例的目的在于提供一种大数据的分析系统,提高数据分析的有效性。为了达到上述目的,本专利技术实施例提供了一种大数据的分析系统,包括:收集模块,用于根据预设的数据采集规则,收集网页数据;筛选模块,用于对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;分类模块,用于采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;分析模块,通过对K类数据进行分析计算,并且所述收集模块进行反馈收集数据规则,并利用大数据分析计算结果生成的所述推送模式方案。可选的,所述收集模块,具体用于:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。可选的,所述系统还包括:编码模块,用于对所述筛选数据的每一段文本进行编码,根据编码进行分段对比,判断数据重复程度;将重复数据归一化,筛选数据。可选的,所述筛选方法是采用标准量化参数动态筛选数据的方法,这种方法充分考虑和应用了数据数量化、动态化以及符合统计学概率分布的特点,能够从海量量化数据中筛选出符合标准量化参数筛选条件的数据。可选的,所述分类模块,具体用于:根据分类以及聚类结果,对K类数据进行分类,对每一个数据类内所包含的数据进行聚类,将数据统一存储并建立索引,形成大数据库。可选的,所述根据分类结果,数据库分为话题、数据类两个级别,在此基础上进行的两种聚类分析。可选的,所述根据分类结果,可将数据库细分为话题、话题簇、数据类、数据类簇四个级别,在此基础上进行的四种聚类分析。可选的,所述收集模块,包括:采用布隆过滤器,对所收集到的网页数据进行过滤。有益效果:本专利技术实施例提供一种大数据的分析系统,包括收集模块,用于根据预设的数据采集规则,收集网页数据;筛选模块,用于对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;分类模块,用于采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;分析模块,通过对K类数据进行分析计算,并且所述收集模块进行反馈收集数据规则,并利用大数据分析计算结果生成的所述推送模式方案。因此,可以提高数据分析的有效性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅本文档来自技高网
...

【技术保护点】
1.一种大数据的分析系统,其特征在于,包括:收集模块,用于根据预设的数据采集规则,收集网页数据;筛选模块,用于对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;分类模块,用于采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;分析模块,通过对K类数据进行分析计算,并且所述收集模块进行反馈收集数据规则,并利用大数据分析计算结果生成的所述推送模式方案。

【技术特征摘要】
1.一种大数据的分析系统,其特征在于,包括:收集模块,用于根据预设的数据采集规则,收集网页数据;筛选模块,用于对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;分类模块,用于采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;分析模块,通过对K类数据进行分析计算,并且所述收集模块进行反馈收集数据规则,并利用大数据分析计算结果生成的所述推送模式方案。2.根据权利要求1所述的一种大数据的分析系统,其特征在于,所述收集模块,具体用于:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。3.根据权利要求1所述的一种大数据的分析系统,其特征在于,所述系统还包括:编码模块,用于对所述筛选数据的每一段文本进行编码,根据编码进行分段对比,判断数据重复程度;将重复数据归一化,筛选数据。4.根据权利要求1所述的一种大数据的分析系统,其特征在于...

【专利技术属性】
技术研发人员:李永敢
申请(专利权)人:佛山市聚成知识产权服务有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1