一种大数据处理方法技术

技术编号:17032890 阅读:34 留言:0更新日期:2018-01-13 19:23
本发明专利技术提供了一种大数据处理方法,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;对所述K类数据采用预设聚类模型进行聚类,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。本发明专利技术提供的一种大数据处理方法,可有效抽取网页数据,并对重复信息进行归一化,方便用户对网页数据的有效利用。

【技术实现步骤摘要】
一种大数据处理方法
本专利技术属于大数据处理
,特别是涉及一种大数据处理方法。
技术介绍
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。2016年,我国大数据产业保持高速发展态势,各级政府和企业大力推进,技术创新取得明显突破,大数据应用推进势头良好,产业体系初具雏形,支撑能力日益增强。展望2017年,大数据产业发展将迎来“黄金期”,产业集聚将进一步特色化发展,创新驱动仍将是产业发展主基调,大数据融合应用进程加速,为做大做强数字经济、带动传统产业转型升级提供新动力。大数据应用及未来展望,紧跟互联网+,便捷未来人们的生活,方便用户。畅想未来人与人之间的联系,从社交网络、社区文化,到“六度空间”;展望教育对于国家的希望,大数据和教育整合、合理的早教,对个人的帮助,对社会和国家的贡献;帮助病人的控制病情,并发病等,结合医疗平台,预测依照现有的生活方式,对个人的影响度,精确医疗救助,帮助老人送诊就医;减少自然灾害对人类,对生态环境的影响,“蝴蝶效应”预测自然灾害的发生;从开发者角度,整合用户数据,适应市场变化,用户需求,猜“你”喜欢,开发出满足用户需求的应用;大数据和人脸识别的结合应用,人脸分析,动态推送广告,全“自动”,非“手动”应用,强调人和人之间的猜“你”喜欢的全新的社交方式。大数据在未来的应用必将更加广泛,如何获取大数据,掌握大数据,提取大数据,整合大数据,关系到人们未来生活的方方面面,谁掌握了大数据,就掌握了未来。信息抽取领域是一项新兴的研究领域,一般是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。信息抽取(InformationExtraction:IE)是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,那将是有益的。由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大的数据库。在日益信息化和网络化的当代社会中,如何找到所需要的信息并把有用的信息归类、过滤或提取出来一直是一个比较紧迫的实际问题。相应地,各种帮助人们查找、分类和存储信息的理论、技术、应用工具和系统始终在不断地发展和更新,并保持着旺盛的活力。近年来,一种叫做信息提取的技术逐渐受到了人们的关注。它有望成为一种广受欢迎的实用信息技术,在人们的日常工作和生活中发挥极大的效用。近年来,随着网络的发展,互联网上的信息越来越多。几乎所有的网上信息都是以结构化或者半结构化文本的形式呈现给用户的。网页信息抽取就是把网页中包含的有关信息抽取出来并进行结构化处理,使之变成表格一样的组织形式。网页信息的主要任务就是把预定的信息点从各种各样的网页中抽取出来,然后以统一的形式集成在一起,方便检查和比较。在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式也各不相同,现有技术中,很难将预期的网页数据挖掘完全。另外,互联网上,信息转载频繁,如何实现重复信息的归一化,也是一项关键。
技术实现思路
本专利技术的目的在于提供一种大数据处理方法,可有效抽取网页数据,并对重复信息进行归一化,方便用户对网页数据的有效利用。为了达到上述目的,本专利技术提供了一种大数据处理方法,所述方法包括步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;对所述K类数据采用预设聚类模型进行聚类,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。优选的,所述根据预设的数据采集规则,收集网页数据,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。优选的,所述根据预设的数据采集规则,收集网页数据,包括:根据预设数据特征信息可以与动态网页数据的特征信息发生比对,获得需要的网页数据。优选的,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据,包括:采用预设过滤条件过滤采集到的网页数据,将过滤后的网页数据分发至多个处理节点进行筛选。优选的,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据,包括:所述筛选方法是采用标准量化参数动态筛选数据的方法,这种方法充分考虑和应用了数据数量化、动态化以及符合统计学概率分布的特点,能够从海量量化数据中筛选出符合标准量化参数筛选条件的数据。优选的,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据步骤之后,所述方法还包括:对所述筛选数据的每一段文本进行编码,根据编码进行分段对比,判断数据重复程度;将重复数据归一化,筛选数据。优选的,所述根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库,包括:根据分类以及聚类结果,对K类数据进行分类,对每一个数据类内所包含的数据进行聚类,将数据统一存储并建立索引,形成大数据库。优选的,所述对所收集到的网页数据进行过滤,包括:采用布隆过滤器,对所收集到的网页数据进行过滤。与现有技术相比,本专利技术的有益效果在于:本专利技术提供一种大数据的处理方法,该方法抽取网页数据的方式,效率高,查全率好,避免信息遗漏;能够有效消除重复信息,大大减少了数据所占空间,消除冗余,减小了后续处理的负荷量,提高数据处理效率;预制分类模型和聚类算法,对数据进行分类和聚类分析,数据统一存储建立数据库并建立数据库索引,方便用户对抽取数据的管理、检索和利用。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是大数据处理方法的第一种流程示意图。图2是大数据处理方法的第二种流程示意图。图3是大数据处理方法的第三种流程示意图。具体实施方式下面将结合本专利技术中本文档来自技高网
...
一种大数据处理方法

【技术保护点】
一种大数据处理方法,其特征在于,所述方法包括以下步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;对所述K类数据采用预设聚类模型进行聚类,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。

【技术特征摘要】
1.一种大数据处理方法,其特征在于,所述方法包括以下步骤:根据预设的数据采集规则,收集网页数据;对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据;采用预设分类模型,对所获得的筛选数据进行分类,获得分类后的K类数据;对所述K类数据采用预设聚类模型进行聚类,根据分类以及聚类结果,将数据统一存储并建立索引,形成大数据库。2.根据权利要求1所述的一种大数据处理方法,其特征在于,所述根据预设的数据采集规则,收集网页数据,包括:根据预期目标定制数据采集网页;根据网页结构,确定网页主体数据区块,自动生成网页数据抽取模板抽取网页数据。3.根据权利要求1所述的一种大数据处理方法,其特征在于,所述根据预设的数据采集规则,收集网页数据,包括:根据预设数据特征信息可以与动态网页数据的特征信息发生比对,获得需要的网页数据。4.根据权利要求1所述的一种大数据处理方法,其特征在于,所述对所收集到的网页数据进行过滤以及归一化处理,获得筛选数据,包括:采用预设过滤条件过滤采集到的网页数据,将过滤后的网页数据分发至多个处理节点进行筛选。5.根据...

【专利技术属性】
技术研发人员:郑英
申请(专利权)人:佛山市高研信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1