一种大数据的处理方法、装置及终端制造方法及图纸

技术编号:14202420 阅读:50 留言:0更新日期:2016-12-17 18:53
本发明专利技术公开了一种大数据的处理方法、装置及终端,该方法包括:采集互联网中的大数据;对所述大数据进行结构化处理;对所述结构化处理得到的结构化数据进行使用。本发明专利技术的方案,可以克服现有技术中处理难度大、占用空间大和利用率低等缺陷,实现处理难度小、占用空间小和利用率高的有益效果。

Method, device and terminal for processing large data

The invention discloses a processing method, device and data terminal, the method includes: data acquisition in the Internet; the data structure of the structured processing; the structured data were obtained using. The proposal of the invention can overcome the defects of the prior art that the processing difficulty is large, the occupied space is large, and the utilization rate is low, and the utility model has the advantages of small processing difficulty, small occupied space and high utilization rate.

【技术实现步骤摘要】

本专利技术属于数据处理
,具体涉及一种大数据的处理方法、装置及终端,尤其涉及一种互联网非结构化数据命名实体的提取和建模方法、与该方法对应的装置、以及具有该装置的终端。
技术介绍
目前,互联网技术高速发展,堆积在互联网中的数据呈爆炸性的指数型增长,21世纪初以来,因为网络硬件设施的快速发展以及存储介质愈来愈廉价,互联网中数据的存储量更是达到了前所未有的巨大,世界中几乎每一个人都为其源源不断的贡献着数据资源。大数据是近年来IT行业的热点之一,其在各个行业的应用逐渐变得广泛起来。大数据又称巨量资料,指的是所涉及的数据资料量级规模已巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的拥有巨大价值的资讯。在这种背景下,技术、商业、管理以及金融等领域都在悄然的发生着巨大的变化,人们的思潮也开始了新一轮的变革,正在迎接着“大数据”时代的来临,正在体验和适应着“大数据”时代带给生活方式乃至思考方式的大变革。然而,如此大量的数据更多的是以非结构化的、多种多样的、离散的形态游离在广阔的网络世界中,如果没有科学的方法和技术去“挖掘”其中所蕴含的知识,则这笔巨大的数据财富将无任何的用武之地。现有技术中,存在处理难度大、占用空间大和利用率低等缺陷。
技术实现思路
本专利技术的目的在于,针对上述缺陷,提供一种大数据的处理方法、装置及终端,以解决现有技术中互联网中数据的存储量大但无实际利用的问题,达到提升利用率的效果。本专利技术提供一种大数据的处理方法,包括:采集互联网中的大数据;对所述大数据进行结构化处理;对所述结构化处理得到的结构化数据进行使用。可选地,采集互联网中的大数据,包括:通过网络爬虫技术,获取互联网中以非结构化互联网文本为主的数据;基于获取的所述数据,构建非结构化资料库。可选地,对所述大数据进行结构化处理,包括:根据采集到的所述数据和预设的结构化数据目标,创建数据模型;通过所述数据模型,抽取所述数据中的非结构化数据,并对所述非结构化数据进行初步格式化处理;对所述初步结构化处理后的非结构化数据进行数据清洗和统一编码处理,得到所需的结构化数据。可选地,对所述结构化处理得到的结构化数据进行使用,包括:根据预设增益率,对所述结构化数据进行信息增益度量属性选择,选择信息增益度量属性超过所述增益率的属性进行分裂;对分裂后颗粒度满足低于预设细度的结构化数据进行多维度汇总处理,并提取得到满足预设维度的结构化数据。可选地,对所述结构化处理得到的结构化数据进行使用,还包括:对所述提取得到的所述结构化数据,进行多维度的封装和展现的至少一种操作。与上述方法相匹配,本专利技术另一方面提供一种大数据的处理装置,包括:采集单元,用于采集互联网中的大数据;结构化单元,用于对所述大数据进行结构化处理;配置单元,用于对所述结构化处理得到的结构化数据进行使用。可选地,采集单元,包括:获取模块,用于通过网络爬虫技术,获取互联网中以非结构化互联网文本为主的数据;存储模块,用于基于获取的所述数据,构建非结构化资料库。可选地,结构化单元,包括:创建模块,用于根据采集到的所述数据和预设的结构化数据目标,创建数据模型;格式化模块,用于通过所述数据模型,抽取所述数据中的非结构化数据,并对所述非结构化数据进行初步格式化处理;清洗及编码模块,用于对所述初步结构化处理后的非结构化数据进行数据清洗和统一编码处理,得到所需的结构化数据。可选地,配置单元,包括:分裂模块、提取模块、应用模块的至少之一;其中,所述分裂模块,用于根据预设增益率,对所述结构化数据进行信息增益度量属性选择,选择信息增益度量属性超过所述增益率的属性进行分裂;所述提取模块,用于对分裂后颗粒度满足低于预设细度的结构化数据进行多维度汇总处理,并提取得到满足预设维度的结构化数据;所述应用模块,用于对所述提取得到的所述结构化数据,进行多维度的封装和展现的至少一种操作。与上述装置相匹配,本专利技术再一方面提供一种终端,包括:以上所述的大数据的处理装置。本专利技术的方案,通过互联网非结构化数据命名实体的提取和建模技术,可以实现对大数据的处理,进而使得大数据得以利用,资源利用率高,环保性好。进一步,本专利技术的方案,通过运用该技术设计的互联网非结构化数据命名实体的提取和建模方法及其应用系统,可以将大数据进行结构化,进而减小存储空间,节约存储资源。进一步,本专利技术的方案,通过适用于互联网非结构化文本数据的基于自然语言处理(例如:隐马尔可夫模型、词语共现图法和ID3算法)的命名实体提取和建模方法及应用系统,同时结合了Hadoop(即是一个由Apache基金会所开发的分布式系统基础架构)分布式技术,从而能够更好的适应互联网巨大的、离散的数据特点和保持灵活的扩展性。由此,本专利技术的方案,通过采集互联网中的数据,并对采集到的数据进行结构化处理,解决现有技术中互联网中数据的存储量大但无实际利用的问题,从而,克服现有技术中处理难度大、占用空间大和利用率低的缺陷,实现处理难度小、占用空间小和利用率高的有益效果。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术的大数据的处理方法的一实施例的流程示意图;图2为本专利技术的装置中采集处理的一实施例的流程示意图;图3为本专利技术的装置中结构化处理的一实施例的流程示意图;图4为本专利技术的装置中使用处理的一实施例的流程示意图;图5为本专利技术的大数据的处理装置的一实施例的结构示意图;图6为本专利技术的终端的一实施例的Scrapy爬虫框架的结构示意图;图7为本专利技术的终端的一实施例的总体原理示意图。结合附图,本专利技术实施例中附图标记如下:102-采集单元;1022-获取模块;1024-存储模块;104-结构化单元;1042-创建模块;1044-格式化模块;1046-清洗及编码模块;106-配置单元;1062-分裂模块;1064-提取模块;1066-应用模块。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术具体实施例及相应的附图对本专利技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。根据本专利技术的实施例,提供了一种大数据的处理方法,如图1所示本专利技术的方法的一实施例的流程图。该大数据的处理方法可以包括:在步骤S110处,采集互联网中的大数据。例如:面向互联网这些海量的、离散的、形态各异的文本数据。可选地,可以结合图2所示本专利技术的装置中采集处理的一实施例的流程示意图,进一步说明步骤S110中采集互联网中的大数据的具体过程。步骤S210,通过网络爬虫技术,获取互联网中以非结构化互联网文本为主的数据。例如:可以对海量以非结构化互联网文本为主的数据获取可以利用当前成熟的爬虫技术,互联网爬虫通过对由网站内的链接组成的网络进行广泛遍历,连续的获得大量所需的信息,利用当前成熟的网络爬虫理论可以构建出高效的网络爬虫。步骤S220,基于获取的所述数据,构建非结构化资料库。例如:形成非结构化资料库,在确本文档来自技高网...
一种大数据的处理方法、装置及终端

【技术保护点】
一种大数据的处理方法,其特征在于,包括:采集互联网中的大数据;对所述大数据进行结构化处理;对所述结构化处理得到的结构化数据进行使用。

【技术特征摘要】
1.一种大数据的处理方法,其特征在于,包括:采集互联网中的大数据;对所述大数据进行结构化处理;对所述结构化处理得到的结构化数据进行使用。2.根据权利要求1所述的方法,其特征在于,采集互联网中的大数据,包括:通过网络爬虫技术,获取互联网中以非结构化互联网文本为主的数据;基于获取的所述数据,构建非结构化资料库。3.根据权利要求1或2所述的方法,其特征在于,对所述大数据进行结构化处理,包括:根据采集到的所述数据和预设的结构化数据目标,创建数据模型;通过所述数据模型,抽取所述数据中的非结构化数据,并对所述非结构化数据进行初步格式化处理;对所述初步结构化处理后的非结构化数据进行数据清洗和统一编码处理,得到所需的结构化数据。4.根据权利要求1-3之一所述的方法,其特征在于,对所述结构化处理得到的结构化数据进行使用,包括:根据预设增益率,对所述结构化数据进行信息增益度量属性选择,选择信息增益度量属性超过所述增益率的属性进行分裂;对分裂后颗粒度满足低于预设细度的结构化数据进行多维度汇总处理,并提取得到满足预设维度的结构化数据。5.根据权利要求4所述的方法,其特征在于,对所述结构化处理得到的结构化数据进行使用,还包括:对所述提取得到的所述结构化数据,进行多维度的封装和展现的至少一种操作。6.一种大数据的处理装置,其特征在于,包括:采集单元,用于采集互联网中的大...

【专利技术属性】
技术研发人员:杨志敏
申请(专利权)人:星河互联集团有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1