一种大数据的处理方法、装置及终端制造方法及图纸

技术编号：14202420 阅读：61 留言：0更新日期：2016-12-17 18:53

本发明专利技术公开了一种大数据的处理方法、装置及终端，该方法包括：采集互联网中的大数据；对所述大数据进行结构化处理；对所述结构化处理得到的结构化数据进行使用。本发明专利技术的方案，可以克服现有技术中处理难度大、占用空间大和利用率低等缺陷，实现处理难度小、占用空间小和利用率高的有益效果。

Method, device and terminal for processing large data

The invention discloses a processing method, device and data terminal, the method includes: data acquisition in the Internet; the data structure of the structured processing; the structured data were obtained using. The proposal of the invention can overcome the defects of the prior art that the processing difficulty is large, the occupied space is large, and the utilization rate is low, and the utility model has the advantages of small processing difficulty, small occupied space and high utilization rate.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理
，具体涉及一种大数据的处理方法、装置及终端，尤其涉及一种互联网非结构化数据命名实体的提取和建模方法、与该方法对应的装置、以及具有该装置的终端。
技术介绍
目前，互联网技术高速发展，堆积在互联网中的数据呈爆炸性的指数型增长，21世纪初以来，因为网络硬件设施的快速发展以及存储介质愈来愈廉价，互联网中数据的存储量更是达到了前所未有的巨大，世界中几乎每一个人都为其源源不断的贡献着数据资源。大数据是近年来IT行业的热点之一，其在各个行业的应用逐渐变得广泛起来。大数据又称巨量资料，指的是所涉及的数据资料量级规模已巨大到无法通过人脑甚至主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的拥有巨大价值的资讯。在这种背景下，技术、商业、管理以及金融等领域都在悄然的发生着巨大的变化，人们的思潮也开始了新一轮的变革，正在迎接着“大数据”时代的来临，正在体验和适应着“大数据”时代带给生活方式乃至思考方式的大变革。然而，如此大量的数据更多的是以非结构化的、多种多样的、离散的形态游离在广阔的网络世界中，如果没有科学的方法和技术去“挖掘”其中所蕴含的知识，则这笔巨大的数据财富将无任何的用武之地。现有技术中，存在处理难度大、占用空间大和利用率低等缺陷。
技术实现思路
本专利技术的目的在于，针对上述缺陷，提供一种大数据的处理方法、装置及终端，以解决现有技术中互联网中数据的存储量大但无实际利用的问题，达到提升利用率的效果。本专利技术提供一种大数据的处理方法，包括：采集互联网中的大数据；对所述大数据进行结构化处理；对所述结构化处理得到的结构化...
一种大数据的处理方法、装置及终端

【技术保护点】
一种大数据的处理方法，其特征在于，包括：采集互联网中的大数据；对所述大数据进行结构化处理；对所述结构化处理得到的结构化数据进行使用。

【技术特征摘要】
1.一种大数据的处理方法，其特征在于，包括：采集互联网中的大数据；对所述大数据进行结构化处理；对所述结构化处理得到的结构化数据进行使用。2.根据权利要求1所述的方法，其特征在于，采集互联网中的大数据，包括：通过网络爬虫技术，获取互联网中以非结构化互联网文本为主的数据；基于获取的所述数据，构建非结构化资料库。3.根据权利要求1或2所述的方法，其特征在于，对所述大数据进行结构化处理，包括：根据采集到的所述数据和预设的结构化数据目标，创建数据模型；通过所述数据模型，抽取所述数据中的非结构化数据，并对所述非结构化数据进行初步格式化处理；对所述初步结构化处理后的非结构化数据进行数据清洗和统一编码处理，得到所需的结构化数据。4.根据权利要求1-3之一所述的方法，其特征在于，对所述结构化处理得到的结构化数据进行使用，包括：根据预设增益率，对所述结构化数据进行信息增益度量属性选择，选择信息增益度量属性超过所述增益率的属性进行分裂；对分裂后颗粒度满足低于预设细度的结构化数据进行多维度汇总处理，并提取得到满足预设维度的结构化数据。5.根据权利要求4所述的方法，其特征在于，对所述结构化处理得到的结构化数据进行使用，还包括：对所述提取得到的所述结构化数据，进行多维度的封装和展现的至少一种操作。6.一种大数据的处理装置，其特征在于，包括：采集单元，用于采集互联网中的大...

【专利技术属性】
技术研发人员：杨志敏，
申请(专利权)人：星河互联集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人