一种基于云服务器的大数据中心处理系统技术方案

技术编号:27204934 阅读:21 留言:0更新日期:2021-01-31 12:24
一种基于云服务器的大数据中心处理系统,属于数据处理技术领域,用以解决现有的数据处理系统不能解决对海量网络流量数据的分布式存储和高效准确的数据挖掘问题。本发明专利技术主要运用数据挖掘和云计算相关技术,建立了基于云计算的网站分类子系统和网站推荐子系统,网站分类子系统极大的降低了分析处理时间,扩充了流量信息中的用户网站偏好维度,具有高的扩展性,可以对任何字段进行网站分类并会根据分类结果扩充库识别模块,加快分类速度,还可以通过增加核心分类算法,完成对不同分类任务的支持;网站推荐子系统是基于移动互联网海量用户网站偏好数据,对用户偏好进行挖掘和推荐,具备较高的可靠性和算法有效性,可对多种推荐任务进行应对。务进行应对。务进行应对。

【技术实现步骤摘要】
一种基于云服务器的大数据中心处理系统


[0001]本专利技术涉及数据处理
,具体涉及一种基于云服务器的大数据中心处理系统。
技术背景
[0002]随着云时代的来临,大数据也吸引了越来越多的关注。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。随着宽带网络技术的发展,网络用户数量逐年增加;与此同时,借助于移动网络的升级和智能手机的推广,移动互联网也发展迅猛,用户增长强劲。网络已经成为了我们生活中不可缺少的一部分。网络是庞大的,更是复杂的,不论是对新兴的移动互联网还是不断升级的宽带网络都还有认识不全面之处。而网络流量监测技术则是一把打开网络流量分析大门的钥匙,将网络流量监控技术获取的海量网络流量信息,与云计算、数据挖掘技术相结合,可以深入分析和挖掘网络的流量特征和用户特征。基于网络流量日志的分析挖掘是反映网络状况,进行网络优化以及进行用户偏好分析的主要方法,但是在大数据时代,不论是在处理时间,还是在处理的数据量上,传统的针对网络流量日志的分析方法逐渐不能胜任,如何面对海量的移动互联网数据完成有效且高效的分析和挖掘是一项艰巨的任务。

技术实现思路

[0003]鉴于以上问题,本专利技术提出一种基于云服务器的大数据中心处理系统,用以解决现有的数据处理系统不能解决对海量网络流量数据的分布式存储和高效准确的数据挖掘问题。
[0004]该系统包括网站分类子系统和网站推荐子系统;
[0005]所述网站分类子系统包括数据导入模块、爬虫模块、库识别模块、机器学习识别模块和库更新模块;其中,所述数据导入模块用于连接外部数据和系统,包括数据预处理导入子模块和直接导入子模块;所述爬虫模块用于读入移动互联网流量记录,执行网页爬虫程序;所述库识别模块用于使用基于库的识别方法直接对URL进行识别,负责识别结果表和未识别结果表的更新和维护;所述机器学习识别模块用于将经过库识别分类的网页作为训练集,快速准确的对网站分类系统的分类模型进行建模,使用建立的模型对未识别URL进行分类;所述库更新模块用于基于机器学习识别结果,提取出正确分类的URL,对库识别中的库文件进行更新和扩充;
[0006]所述网站推荐子系统包括数据预处理模块、推荐算法模块和上层模块;所述数据预处理模块用于对数据进行存储和预处理;所述推荐算法模块用于添加推荐引擎算法,获取推荐算法模型;所述上层模块用于网站推荐子系统结果的输出和展示。
[0007]进一步地,所述数据预处理导入子模块中对数据进行预处理包括组合、过滤和去重。
[0008]进一步地,所述机器学习识别模块包括中文分词子模块、特征选择子模块和机器学习算法子模块。
[0009]进一步地,所述机器学习算法子模块中包括三种分类模型组件和两种算法组件,其中,分类模型组件包括多类二值分类模型、与多类软分类模型和两两多类软分类模型;算法组件包括朴素贝叶斯组件和LDA组件。
[0010]进一步地,所述数据预处理模块对数据进行预处理包括数据清理、数据集成、数据转换和数据规约,其中,数据清理是清除噪声和处理不完整数据;数据集成包括实体识别、数据冗余和数据值冲突检测与处理;数据转换包括单位换算、数据泛化、规范化和属性构造;数据规约包括维度归约、数值归约、数据抽样和离散化。
[0011]进一步地,所述推荐算法模块包括数据挖掘子模块和推荐子模块,其中,所述数据挖掘子模块用于对预处理数据进行挖掘,挖掘用户兴趣和偏好特征;所述推荐子模块用于针对用户网站内容偏好和网站类别偏好基于关联规则算法或基于协同过滤算法进行推荐。
[0012]进一步地,所述数据挖掘子模块包括用户网站浏览内容分析组件、用户网站浏览类型分析组件和反馈推荐组件。
[0013]进一步地,所述基于协同过滤算法进行推荐的步骤包括,计算用户间的相似度;使用KNN算法找出K个与被推荐用户最相似的用户;通过K个最近邻的特征进行推荐。
[0014]本专利技术的有益技术效果是:移动互联网流量记录的爆炸式增长,带来了大数据,面对大数据,传统的流量分析方法和系统已不再适用。本专利技术主要运用数据挖掘和云计算相关技术,建立了基于云计算的网站分类子系统和网站推荐子系统,网站分类子系统极大的降低了分析处理时间,扩充了流量信息中的用户网站偏好维度,具有高的扩展性,可以对任何字段进行网站分类并会根据分类结果扩充库识别模块,加快分类速度,还可以通过增加核心分类算法,完成对不同分类任务的支持;网站推荐子系统是基于移动互联网海量用户网站偏好数据,对用户偏好进行挖掘和推荐,具备较高的可靠性和算法有效性,可对多种推荐任务进行应对。
附图说明
[0015]本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。
[0016]图1示出了根据本专利技术实施方式一种基于云服务器的大数据中心处理系统的示意性结构图。
[0017]图2示出了根据本专利技术实施方式一种基于云服务器的大数据中心处理系统的网站分类子系统性能测试比较图。
[0018]图3示出了根据本专利技术实施方式一种基于云服务器的大数据中心处理系统的网站推荐子系统中推荐算法性能测试比较图。
[0019]图4是应用和开发多种数学算法模型的示例。
[0020]图5是应用本系统进行电商大数据监测分析的示例。
具体实施方式
[0021]在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本
技术实现思路
的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。
[0022]如图1所示,一种基于云服务器的大数据中心处理系统,包括网站分类子系统1和网站推荐子系统2;所述网站分类子系统1包括数据导入模块11,用于连接外部数据和系统,所述数据导入模块11包括数据预处理导入子模块111和直接导入子模块112,数据预处理导入子模块111中对数据进行预处理包括组合、过滤和去重;爬虫模块12,用于读入移动互联网流量记录,是机器学习识别模块14的文本数据输入的基础,执行网页爬虫程序,将爬取的网页内容更新至网页爬取存储表中;库识别模块13,用于使用基于库的识别方法直接对URL进行识别,负责识别结果表和未识别结果表的更新和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于云服务器的大数据中心处理系统,其特征在于,包括网站分类子系统和网站推荐子系统;所述网站分类子系统包括数据导入模块、爬虫模块、库识别模块、机器学习识别模块和库更新模块;其中,所述数据导入模块用于连接外部数据和系统,包括数据预处理导入子模块和直接导入子模块;所述爬虫模块用于读入移动互联网流量记录,执行网页爬虫程序;所述库识别模块用于使用基于库的识别方法直接对URL进行识别,负责识别结果表和未识别结果表的更新和维护;所述机器学习识别模块用于将经过库识别分类的网页作为训练集,快速准确的对网站分类系统的分类模型进行建模,使用建立的模型对未识别URL进行分类;所述库更新模块用于基于机器学习识别结果,提取出正确分类的URL,对库识别中的库文件进行更新和扩充;所述网站推荐子系统包括数据预处理模块、推荐算法模块和上层模块;所述数据预处理模块用于对数据进行存储和预处理;所述推荐算法模块用于添加推荐引擎算法,获取推荐算法模型;所述上层模块用于网站推荐子系统结果的输出和展示。2.根据权利要求1所述一种基于云服务器的大数据中心处理系统,其特征在于,所述数据预处理导入子模块中对数据进行预处理包括组合、过滤和去重。3.根据权利要求1所述一种基于云服务器的大数据中心处理系统,其特征在于,所述机器学习识别模块包括中文分词子模块、特征选择子模块和机器学习算法子模块。4.根据权利要求3所述一种基于云服务器的大数据中心处理...

【专利技术属性】
技术研发人员:焦惠颖
申请(专利权)人:黑龙江稻榛通网络技术服务有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1