一种计算机大数据的批处理方法技术

技术编号:20681657 阅读:73 留言:0更新日期:2019-03-27 19:07
本发明专利技术属于大数据批处理技术领域,公开了一种计算机大数据的批处理方法,通过数据输入模块利用数据输入设备输入客户数据;主控模块通过资源调度模块利用调度算法调度待处理的数据资源,资源调度模块采用大数据环境下负载调度算法中的Min‑Min调度算法,通过批处理执行模块利用批处理程序调度处理器批量处理待处理进程作业;通过加密模块利用加密程序对大数据进行加密操作;通过分析模块利用分析程序对大数据进行分析,通过数据存储模块利用存储器存储大数据资源;通过显示模块利用显示器显示大数据信息内容。本发明专利技术不需要到分布式数据库中海量的大数据中获取大数据,所以耗时短且易于实现。

【技术实现步骤摘要】
一种计算机大数据的批处理方法
本专利技术属于大数据批处理
,尤其涉及一种计算机大数据的批处理方法。
技术介绍
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。然而,传统大数据安全保护技术无法针对大数据平台内部的敏感信息和敏感数据实施保护;同时,大本文档来自技高网...

【技术保护点】
1.一种计算机大数据的批处理方法,其特征在于,所述计算机大数据的批处理方法包括:通过分析模块利用分析程序对大数据进行分析;具体有:对大数据的3V特性按如下的顺序处理:多样性→巨量性→高速性顺序处理;使用数据过滤和数据集成将分布式存储的多样、异质数据进行转换、抽取、粒化,得到较为规范的数据表,消除其中的不确定性;使用粒计算“大伞”下的具体模型和技术将原数据粒化为粒度大小合适的粒,降低数据规模,并构建相应的粒层及各粒层上的结构;在其他机器学习方法的辅助下,对信息粒进行数据挖掘或者机器学习;将用到的数据挖掘或者机器学习改造为分布式的、在线增量学习的版本以满足大数据处理的及时性要求;在处理大数据中,粒...

【技术特征摘要】
1.一种计算机大数据的批处理方法,其特征在于,所述计算机大数据的批处理方法包括:通过分析模块利用分析程序对大数据进行分析;具体有:对大数据的3V特性按如下的顺序处理:多样性→巨量性→高速性顺序处理;使用数据过滤和数据集成将分布式存储的多样、异质数据进行转换、抽取、粒化,得到较为规范的数据表,消除其中的不确定性;使用粒计算“大伞”下的具体模型和技术将原数据粒化为粒度大小合适的粒,降低数据规模,并构建相应的粒层及各粒层上的结构;在其他机器学习方法的辅助下,对信息粒进行数据挖掘或者机器学习;将用到的数据挖掘或者机器学习改造为分布式的、在线增量学习的版本以满足大数据处理的及时性要求;在处理大数据中,粒度的自由切换,需要多个粒度层次上粒的分解与合并,还有相应解的快速构建;对某些特定问题,需要多个粒度层次的信息,使用“跨粒度”机制求解;从整个处理过程中,分析原始数据是否具有合适的粒度,为是否需要调整及如何调整原始数据的产生或采集提供指导;借鉴深度学习思想,将关键的处理流程调整为多个层次,让具体参数在学习中得到优化,并优化最终学习结果。2.如权利要求1所述的计算机大数据的批处理方法,其特征在于,对大数据进行分析具体包括:数据获取→抽取/清洗→集成/表示→分析/建模→解释;其中:1)数据源选择与数据集成:对异构数据的处理利用降维、数据浓缩和数据封装进行数据源选择;2)面向领域的粒化:将问题的输入从最细粒度原始数据转换为信息粒表示,在保留数据中蕴含的信息和价值的前提下,大幅降低数据量;在具体数据分析需求提出之前,根据领域知识将原始数据先构建多粒度信息知识表达模型Multi-GranularInformation/KnowledgeRepresentationmodel,MGrIKR;粒化首先分析信息粒、粒层和整个粒结构的表示,然后针对表示方法进行构建;其中,信息粒的表示:采用三元组对信息粒进行形式化描述,IG=(KVS,GM,VM).KVS(KeyValuepairSet)表示描述信息粒的特征子向量,称为键值对集合,即KVS={〈key1,value1〉,…,〈keyn,valuen〉}.valuei表示信息粒中名为keyi的特征所取的值,i=1,2,…,n.GM表示该信息粒的粒度度量(GranularityMeasure),即信息粒的粗细程度.VM表示该信息粒的价值度量(ValueMeasure);粒层的表示:粒层由基于某种粒化准则得到的所有信息粒以及信息粒之间的关系构成;形式化表示为一个二元组,Layer=(IGS,Intra-LR);其中,IGS表示粒层中信息粒IG的集合(Informa-tionGranuleSet,IGS),IGS可表示为IGS={IG1,IG2,…,IGM};Intra-LR(Intra-LayerRelationships,Intra-LR)表示粒层中信息粒之间存在的关系,如果信息粒IGp与IGq存在关系,Intra-LR可表示为Intra-LR={E|E=(IGp,IGq),IGp,IGq∈IGS};粒结构的表示:MGrIKR中的粒结构由不同粒化准则得到的多个粒层、不同粒层中信息粒之间的相互关系以及同一粒层中信息粒之间的相互关系构成的拓扑结构;粒结构的形式化表示类似于信息粒IG和粒层Layer,用元组形式表示粒结构(GranularStructure,GS),GS=(LS,Inter-LR);其中,LS={Layer1,…,Layerm-1,Layerm}表示m个粒层集合(LayerSet,LS),其中粒层Layerj是粒结构中的一个粒层.Inter-LR(Inter-LayerRelation-ships,Inter-LR)表示某两粒层Layerj与Layerk的信息粒之间的转换关系集,Inter-LR表示为Inter-LR={r|r(Layerj,Layerk)},或者Inter-LR={r|r(IGj,IGk),IGj∈IGSj,IGk∈IGSk};r表示粒层Layerj与Layerk中信息粒之间满足的偏序关系,j,k=1,…,m.其中,r是相邻两粒层中信息粒之间的关系,或为跨层的信息粒之间的关系。3.如权利要求1所述的计算机大数据的批处理方法,其特征在于,所述计算机大数据的批处理方法具体包括:步骤一,通过数据输入模块利用数据输入设备输入客户数据;步骤二,主控模块通过资源调度模块利用调度算法调度待处理的数据资源,资源调度模块采用大数据环境下负载调度算法中的Min-Min调度算法,具体步骤为:(1)判断数据集合中的任务是否为空,不空则向下执行(2),否则到(6);(2)对于数据集合中的任务,分别求出他们映射到所有虚拟机上的与执行时间,得到一个矩阵;(3)根据(2)的...

【专利技术属性】
技术研发人员:张辉
申请(专利权)人:贵州斯曼特信息技术开发有限责任公司
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1