一种云计算平台及其调度、数据分析方法及系统技术方案

技术编号:25756481 阅读:25 留言:0更新日期:2020-09-25 21:05
本发明专利技术属于网络技术领域,公开了一种云计算平台及其调度、数据分析方法及系统,所述云计算平台及其调度、数据分析系统包括:数据采集模块、数据聚类模块、安全检测模块、数据传输模块、云计算平台、数据调度模块、数据分析模块、云存储模块、显示模块。本发明专利技术通过数据采集模块执行网页抓取和/或网站抓取,支持全网数据的抓取,具备极高地通用性,降低了维护和运营成本,提高了抓取有效数据的可靠性。通过安全检测模块对采集得到的数据集进行安全检测,保证了云计算平台的安全性;对云计算中心的数据存储方式和处理方式进行改进,提高了云计算平台中数据存储的可靠性,保证了云节点之间负载均衡,有效的提高了云计算平台的应用处理性能。

【技术实现步骤摘要】
一种云计算平台及其调度、数据分析方法及系统
本专利技术属于网络
,尤其涉及一种云计算平台及其调度、数据分析方法及系统。
技术介绍
目前,云计算是一种新兴的商业模式,它是分布式计算、并行计算、网格计算、虚拟化、负载均衡等技术融合发展的产物。云计算系统服务的实现主要依靠云数据中心完成,由于云计算技术的发展,对云数据中心的要求越来越复杂。云数据中心主要由数量巨大的服务器和网络设备组成,这些网络设备和服务器的异构性强,用户的需求复杂、要求高质量的服务、要求更合理的动态资源管理,因此对云数据中心提出了更高的要求。但是,现有的云计算平台对数据进行抓取时没有实现分布式化,仅仅基于单机或简单的同构集群,数据读取和解析效率低;同时,现有云计算平台无法处理吞吐量大、处理实时性要求高的数据。因此,亟需一种新的云计算平台。通过上述分析,现有技术存在的问题及缺陷为:现有的云计算平台对数据进行抓取时没有实现分布式化,仅仅基于单机或简单的同构集群,数据读取和解析效率低;同时,现有云计算平台无法处理吞吐量大、处理实时性要求高的数据。<br>
技术实现思路
<本文档来自技高网
...

【技术保护点】
1.一种云计算平台及其调度、数据分析方法,其特征在于,所述云计算平台及其调度、数据分析方法包括:/n步骤一,通过数据采集模块利用应用程序界面接口获取数据采集任务,并利用爬虫单元根据任务生成器生成的资源定位符采集对应的网站数据集和/或网页数据集;/n步骤二,通过数据聚类模块利用数据聚类程序利用模糊C均值聚类算法将采集的网站数据集和/或网页数据集进行划分、聚类;/n步骤三,通过安全检测模块利用安全检测程序对聚类后的网站数据集和/或网页数据集进行接收获取;扫描并识别获取的数据集中的敏感数据,并对数据集进行解析,提取所述数据集的源地址和业务类型标识;/n所述数据中的敏感数据扫描识别方法包括:/n3.1...

【技术特征摘要】
1.一种云计算平台及其调度、数据分析方法,其特征在于,所述云计算平台及其调度、数据分析方法包括:
步骤一,通过数据采集模块利用应用程序界面接口获取数据采集任务,并利用爬虫单元根据任务生成器生成的资源定位符采集对应的网站数据集和/或网页数据集;
步骤二,通过数据聚类模块利用数据聚类程序利用模糊C均值聚类算法将采集的网站数据集和/或网页数据集进行划分、聚类;
步骤三,通过安全检测模块利用安全检测程序对聚类后的网站数据集和/或网页数据集进行接收获取;扫描并识别获取的数据集中的敏感数据,并对数据集进行解析,提取所述数据集的源地址和业务类型标识;
所述数据中的敏感数据扫描识别方法包括:
3.1)扫描所述聚类后的网站数据集和/或网页数据集中的数据;
3.2)通过采用关键字、正则表达式、文件指纹或文件MD5识别所述数据中与预设敏感数据匹配的数据,并作为敏感数据保存;
3.3)识别所述数据中与预设敏感数据不匹配的数据,作为非敏感数据,并对非敏感数据进行销毁标签标识;
步骤四,获取与所述数据集的业务类型标识对应的TCP连接记录;
步骤五,根据所述获取到的TCP连接记录提取与所述源地址对应的TCP连接状态;
步骤六,判断所述TCP连接状态是否为正常,若是,则判定所述数据集为安全数据集;并获取所述TCP连接的源地址和业务类型标识,并将所述源地址添加到源地址白名单中,同时将该源地址的TCP连接状态设置为正常;
步骤七,通过数据传输模块利用数据传输设备将安全数据传输至云计算中心;通过云计算平台利用云计算中心控制所述云计算平台及其调度、数据分析系统各个模块的正常运行;
步骤八,通过数据调度模块利用数据调度程序接收待处理的网站数据集和/或网页数据集,基于读取命令根据第一双缓存中各缓存区的状态输出存储的数据集;
步骤九,采用sqoop程序将数据从数据库抽取到hadoop中,并利用SparkSQL读取抽取后的数据进行计算;
步骤十,对计算后的数据集进行格式化预处理,基于读取命令根据第二双缓存中各缓存区的状态输出存储的格式化预处理后的数据集;
步骤十一,对输出的格式化预处理后的数据集进行数据分发;并通过数据分析模块利用数据分析程序对调度处理后的网站数据集和/或网页数据集进行分析,并生成分析报告;
步骤十二,通过云存储模块利用解析单元根据预设解析算法对采集的网站数据集和/或网页数据集、安全数据及分析报告进行指定格式的转换,并将转换成所述指定格式的元素信息存储于云数据库服务器分布式存储节点;
步骤十三,通过显示模块利用显示器显示采集的网站数据集和/或网页数据集、安全数据及分析报告的实时数据。


2.如权利要求1所述云计算平台及其调度、数据分析方法,其特征在于,步骤二中,所述对采集的网站数据集和/或网页数据集进行划分、聚类的方法,包括:
采用模糊C均值聚类算法将采集的数据集划分为个子类,并给每一个子类定义一个聚类中心;
采用粒子群算寻找最优聚类中心。


3.如权利要求2所述云计算平台及其调度、数据分析方法,其特征在于,所述采用粒子群算寻找最优聚类中心的方法为:
设所述数据划分的类别集合为{C=c1,c2,...,cl},对应的聚类中心集合为{V=v1,v2,...,vl},则定义粒子群算法的适应度函数为:



式中,m是模糊指数,vj为类vj的聚类中心,uij为数据集中第i个数据样本在类别cj中的隶属度,n为数据集中的数据总数,l为聚类中心的个数;所述恶意数据检测部分用于判断各分类中的数据...

【专利技术属性】
技术研发人员:周康董岩闫强石凯武铁军
申请(专利权)人:中联云港数据科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1