一种基于云服务器的大数据中心处理系统技术方案

技术编号：27204934 阅读：21 留言：0更新日期：2021-01-31 12:24

一种基于云服务器的大数据中心处理系统，属于数据处理技术领域，用以解决现有的数据处理系统不能解决对海量网络流量数据的分布式存储和高效准确的数据挖掘问题。本发明专利技术主要运用数据挖掘和云计算相关技术，建立了基于云计算的网站分类子系统和网站推荐子系统，网站分类子系统极大的降低了分析处理时间，扩充了流量信息中的用户网站偏好维度，具有高的扩展性，可以对任何字段进行网站分类并会根据分类结果扩充库识别模块，加快分类速度，还可以通过增加核心分类算法，完成对不同分类任务的支持；网站推荐子系统是基于移动互联网海量用户网站偏好数据，对用户偏好进行挖掘和推荐，具备较高的可靠性和算法有效性，可对多种推荐任务进行应对。务进行应对。务进行应对。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于云服务器的大数据中心处理系统

[0001]本专利技术涉及数据处理
，具体涉及一种基于云服务器的大数据中心处理系统。
技术背景
[0002]随着云时代的来临，大数据也吸引了越来越多的关注。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。随着宽带网络技术的发展，网络用户数量逐年增加；与此同时，借助于移动网络的升级和智能手机的推广，移动互联网也发展迅猛，用户增长强劲。网络已经成为了我们生活中不可缺少的一部分。网络是庞大的，更是复杂的，不论是对新兴的移动互联网还是不断升级的宽带网络都还有认识不全面之处。而网络流量监测技术则是一把打开网络流量分析大门的钥匙，将网络流量监控技术获取的海量网络流量信息，与云计算、数据挖掘技术相结合，可以深入分析和挖掘网络的流量特征和用户特征。基于网络流量日志的分析挖掘是反映网络状况，进行网络优化以及进行用户偏好分析的主要方法，但是在大数据时代，不论是在处理时间，还是在处理的数据量上，传统的针对网络流量日志的分析方法逐渐不能胜任，如何面对海量的移动互联网数据完成有效且高效的分析和挖掘是一项艰巨的任务。

技术实现思路

[0003]鉴于以上问题，本专利技术提出一种基于云服务器的大数据中心处理系统，用以解决现有的数据处理系统不能解决对海量网络流量数据的分布式存储和高效准确的数据挖掘问题。
[0004]该系统包括网站分类子系统和网站推荐子系统；
[0005]所述网站分类子系统包括数...

【技术保护点】

【技术特征摘要】
1.一种基于云服务器的大数据中心处理系统，其特征在于，包括网站分类子系统和网站推荐子系统；所述网站分类子系统包括数据导入模块、爬虫模块、库识别模块、机器学习识别模块和库更新模块；其中，所述数据导入模块用于连接外部数据和系统，包括数据预处理导入子模块和直接导入子模块；所述爬虫模块用于读入移动互联网流量记录，执行网页爬虫程序；所述库识别模块用于使用基于库的识别方法直接对URL进行识别，负责识别结果表和未识别结果表的更新和维护；所述机器学习识别模块用于将经过库识别分类的网页作为训练集，快速准确的对网站分类系统的分类模型进行建模，使用建立的模型对未识别URL进行分类；所述库更新模块用于基于机器学习识别结果，提取出正确分类的URL，对库识别中的库文件进行更新和扩充；所述网站推荐子系统包括数据预处理模块、推荐算法模块和上层模块；所述数据预处理模块用于对数据进行存储和预处理；所述推荐算法模块用于添加推荐引擎算法，获取推荐算法模型；所述上层模块用于网站推荐子系统结果的输出和展示。2.根据权利要求1所述一种基于云服务器的大数据中心处理系统，其特征在于，所述数据预处理导入子模块中对数据进行预处理包括组合、过滤和去重。3.根据权利要求1所述一种基于云服务器的大数据中心处理系统，其特征在于，所述机器学习识别模块包括中文分词子模块、特征选择子模块和机器学习算法子模块。4.根据权利要求3所述一种基于云服务器的大数据中心处理...

【专利技术属性】
技术研发人员：焦惠颖，
申请(专利权)人：黑龙江稻榛通网络技术服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人