【技术实现步骤摘要】
本专利技术涉及一种大数据分类预处理方法及系统,特别涉及一种互联网环境下大数据分类预处理方法,属于数据挖掘领域。
技术介绍
随着现代社会的不断进步,尤其是互联网的快速发展,各类网络资源数量呈现出数量巨大、种类繁多、变化迅速等特点。互联网已进入大数据时代。目前互联网应用环境中大数据除了数量庞大外,非结构化数据占的比重越来越大,资源数量线性增量增长。如此繁杂的网络资源中只有10%的数据是真正可以被利用的。因此,快速定位有效数据,实现对资源的自动分类,是解决该问题的关键方法之一。然而,传统的存储及分类算法无法满足互联网应用环境中大数据的分类要求。如何快速、准确地实现互联网应用环境中大数据的自动分类,已经成为当前数据技术研究的热点。而预处理技术是解决大数据分类问题的基础。本专利针对互联网应用环境中大数据自动分类的预处理问题进行研究。重点研究基于Hadoop平台的互联网应用环境中大数据的预处理技术。通过本专利的研究,不仅能实现互联网应用环境中大数据分类,还可以为互联网应用环境中大数据的信息检索和挖掘提供有效的基础技术。
技术实现思路
本专利技术的目的是提出了一种互联网环境下大数 ...
【技术保护点】
一种互联网环境下大数据分类预处理方法,其特征在于:其包括以下操作步骤:步骤一、互联网环境下大数据分类预处理方法的数据获取;对互联网中不同类型的网络数据进行采集,并进行降维处理;步骤二、互联网环境下大数据分类预处理方法的预处理,形成系统可以直接处理的数据;所述预处理包括除噪。
【技术特征摘要】
2015.12.25 CN 20151098852891.一种互联网环境下大数据分类预处理方法,其特征在于:其包括以下操作步骤:步骤一、互联网环境下大数据分类预处理方法的数据获取;对互联网中不同类型的网络数据进行采集,并进行降维处理;步骤二、互联网环境下大数据分类预处理方法的预处理,形成系统可以直接处理的数据;所述预处理包括除噪。2.一种互联网环境下大数据分类预处理系统,其特征在于:其包括:数据获取模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块和音频预处理模块;所述数据获取模块的主要功能是:对互联网中不同类型的网络数据进行采集,并进行降维处理;所述信息抽取模块的主要功能是:从输入的互联网中抽取出文本信息、图像信息、视频信息、音频信息;所述文本预处理模块的主要功能是:对文本信息进行分词、特征提...
【专利技术属性】
技术研发人员:张晓丹,梁冰,王莉,白海燕,
申请(专利权)人:中国科学技术信息研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。