一种大数据处理方法技术

技术编号：17032890 阅读：34 留言：0更新日期：2018-01-13 19:23

本发明专利技术提供了一种大数据处理方法，所述方法包括步骤：根据预设的数据采集规则，收集网页数据；对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据；采用预设分类模型，对所获得的筛选数据进行分类，获得分类后的K类数据；对所述K类数据采用预设聚类模型进行聚类，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库。本发明专利技术提供的一种大数据处理方法，可有效抽取网页数据，并对重复信息进行归一化，方便用户对网页数据的有效利用。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据处理方法
本专利技术属于大数据处理
，特别是涉及一种大数据处理方法。
技术介绍
随着云时代的来临，大数据（Bigdata）也吸引了越来越多的关注。大数据（Bigdata）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。2016年，我国大数据产业保持高速发展态势，各级政府和企业大力推进，技术创新取得明显突破，大数据应用推进势头良好，产业体系初具雏形，支撑能力日益增强。展望2017年，大数据产业发展将迎来“黄金期”，产业集聚将进一步特色化发展，创新驱动仍将是产业发展主基调，大数据融合应用进程加速，为做大做强数字经济、带动传统产业转型升级提供新动力。大数据应用及未来展望，紧跟互联网+，便捷未来人们的生活，方便用户。畅想未来人与人之间的联系，从社交网络、社区文化，到“六度空间”；展望教育对于国家的希望，大数据和教育整合、合理的早教，对个人的帮助，对社会和国家的贡献；帮助病人的控制病情，并发病等，结合医疗平台，预测依照现有的生活方式，对个人的影响度，精确医疗救助，帮助老人送诊就医；减少自然灾害对人类，对生态环境的影响，“蝴蝶效应”预测自然灾害的发生；从开发者角度，整合用户数据，适应市场变化，用户需求，猜“你”喜欢，开发出满足用户需求的应用；大数据和人脸识别的结合应用，人脸分析，动态推送广告，全“自动”，非“手动”应用，强调人和人之间的猜“你”喜欢的全新的社交...
一种大数据处理方法

【技术保护点】
一种大数据处理方法，其特征在于，所述方法包括以下步骤：根据预设的数据采集规则，收集网页数据；对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据；采用预设分类模型，对所获得的筛选数据进行分类，获得分类后的K类数据；对所述K类数据采用预设聚类模型进行聚类，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库。

【技术特征摘要】
1.一种大数据处理方法，其特征在于，所述方法包括以下步骤：根据预设的数据采集规则，收集网页数据；对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据；采用预设分类模型，对所获得的筛选数据进行分类，获得分类后的K类数据；对所述K类数据采用预设聚类模型进行聚类，根据分类以及聚类结果，将数据统一存储并建立索引，形成大数据库。2.根据权利要求1所述的一种大数据处理方法，其特征在于，所述根据预设的数据采集规则，收集网页数据，包括：根据预期目标定制数据采集网页；根据网页结构，确定网页主体数据区块，自动生成网页数据抽取模板抽取网页数据。3.根据权利要求1所述的一种大数据处理方法，其特征在于，所述根据预设的数据采集规则，收集网页数据，包括：根据预设数据特征信息可以与动态网页数据的特征信息发生比对，获得需要的网页数据。4.根据权利要求1所述的一种大数据处理方法，其特征在于，所述对所收集到的网页数据进行过滤以及归一化处理，获得筛选数据，包括：采用预设过滤条件过滤采集到的网页数据，将过滤后的网页数据分发至多个处理节点进行筛选。5.根据...

【专利技术属性】
技术研发人员：郑英，
申请(专利权)人：佛山市高研信息技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人