当前位置: 首页 > 专利查询>农怡琳专利>正文

一种海量数据综合管理系统与方法技术方案

技术编号:26170849 阅读:22 留言:0更新日期:2020-10-31 13:40
本发明专利技术提出一种海量数据综合管理系统和方法,在诸如路桥、市政等需要对系统和系统内微应用、多功能进行管理和操作过程中,基于对各种数据的管理策略,创新地考量数据结构体、使用数据结构体的相应应用以及操作者之间的三相关系,提出了tag化存储、标签化分类以及应用的数据关注和数据的应用关注逻辑,且双向关注并非是对等的,从而提升了应用与逻辑的自适应耦合,增强了在多应用的管理平台下数据的差异化管理精度,同时对数据映射提供了较好的追踪。

【技术实现步骤摘要】
一种海量数据综合管理系统与方法
本专利技术属于新一代计算机信息
,尤其涉及一种海量数据综合管理系统与方法。
技术介绍
信息时代为数据的综合管理带来了新的前景,同时引入了数据综合管理的更大挑战。对大数据在综合的、多应用的系统中如何依据不同的应用、不同的操作者进行差异化精细管理,是目前信息化数据管理中的重要问题。在实施系统综合管理的过程中,往往存在多个用户,且系统中普遍具有多种粒度的服务或应用功能,每个应用或功能、服务均具有不同的数据需求,且部分应用或服务对数据还有独占需求或副本需求。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。对海量数据的管理,既存在广泛的应用场景,也存在诸多问题。海量数据管理过程主要包括:数据转换、数据关联、数据丰富、数据操作以及数据保持。数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用。比如在数据采集阶段导入的原始数据,需要将其从字符串类型转换为浮点型,这样便于对该数据项进行求和。另外,也可能因为数据格式问题进行数据转换,比如原始数据为网页这样的半结构化数据,为了能够搜索到网页中的数据,往往需要将网页中的关键数据提取出来并做成标签,再把标签作为检索项,这样检索时就没有必要检索整个网页了,通过这样达到提高检索效率的目的。数据关联是按照需要,借助关联属性将多个分散的数据源关联在一起,就像用一根绳子将多个数据串接起来一样,目的是方便定位所需数据,同时便于从多个维度进行数据统计。比如,身份证号码、手机号码、终端设备号、网络编码等可以作为数据关联的外键,也可以根据分析需要构建多个数据表,以实现数据的关联。范式原则可以提高操作型数据模型对业务需求响应的灵活性,减少数据冗余,分析型数据模型则希望通过数据关联形成面向多个主题的数据模型,面向主题的数据模型更加接近于用户需求,便于多维度地分析和展现数据。数据丰富也是为了满足业务需求而对数据进行的完善,比如有一个学生,如果我们只知道她的姓名、性别信息,不知道她的生日信息,则我们就不能知道这个学生的年龄。再比如我们知道承载某个应用的IP地址及其产生的数据流量,如果我们再知道这个IP地址对应的URL,则我们可以就可以知道这个URL对应的数据流量。数据操作就是操作数据,包括数据联合、去重、排序、过滤、分组等,通过数据操作,实现数据的关联与组合,便于从不同视角对数据进行查看和统计。数据保存要考虑数据的存储策略,包括分散存储还是集中存储,采用原始表存储还是中间表存储,基于内存存储还是外存存储,存储周期多长,按月存储还是按年存储等。数据保持对于大数据存储管理非常重要,制定数据保持策略的参数包括数据价值高低、数据活跃度、存储策略、法规要求等。企业可以根据需要定义数据的价值,比如客户的身份证号码、出生年月、家庭关系、教育经历、偏好等数据的价值比较高并且这些属性比较稳定,而对于客户购买历史、支付历史等数据则相对要低一些,因此难于作为预测未来的数据基础。数据活跃度也是数据保持的一个重要指标,通常来说,数据存取频率高的数据的价值要高,如果数据超出一定的时间(比如一年)没有被存取,可以考虑将其转移到低价值的存储空间,以便提高数据的存取效率。企业可以根据数据的特点和用途,对数据的生命周期进行定义,比如电信运营商超过一年的账单数据可以存放到二级磁盘阵列,通常我们称之间面向客户查询的账详单数据存储在一级磁盘阵列。当然,有些存储策略并不是企业根据生产经营需要制定的,而是基于国家法律法规的要求制定的,比如,政府要求银行对储户的交易数据至少保留6年,要求电信运营商对用户的通话记录至少保留3年,等等。数据的存储周期越长,用于数据分析的样本数据就越多,越容易从长期的数据变化中发现规律。企业需要综合考虑数据分析实际需求、数据存储成本、数据管理成本等因素,实现企业成本效益的最大化。在海量数据管理过程中,专利技术人认识到,海量数据在综合的、多应用的系统中,依据不同的应用、不同的操作者进行差异化精细管理的程度普遍不高,导致目前信息化数据管理中的数据映射与数据综合管理方式不够健全,且无法依据应用和数据的相互关注关系,也即基于特定应用对特定数据的聚焦,或特定数据对特定应用的聚焦,提出个性本文档来自技高网...

【技术保护点】
1.一种海量数据综合管理系统,所述系统包括以下模块:/n第一应用入口,对所管理的应用进行筛选,将需要进行应用数据管理的活动应用执行系统准入;/n应用标签拆解模块,拆解应用标签为:/n·主标签,用于存储应用ID;/n·使用者标签,用于标识应用的使用者集合,所述使用者集合用于表征曾经操作过该应用的所有网管ID,所述使用者集合将随着应用的操作情况更新而更新;/n·数据结构体标签,用于标识应用的关注数据结构体,所述应用的关注数据结构体为本应用优先的数据结构体;/n应用标签拆解模块将如上标签组合为第一结构体传递至三元存储单元;/n第一数据入口,对所管理的数据进行准入,将符合标准数据格式的对象数据输入数据拆解模块;/n所述符合标准数据格式的对象数据具体为,该对象数据至少为一结构体,且其至少包含如下字段:/n·对象数据主标签字段,用于存储对象数据的数据结构体标签ID;/n·使用该数据的应用主标签字段,包含所有使用该数据的应用主标签;/n·关注应用字段,用于标识该数据对应的关注应用主标签;/n数据拆解模块,用于对所管理的数据进行拆解,将符合标准数据格式的对象数据至少拆解为对象数据主标签字段、使用该数据的应用主标签字段以及关注应用字段,将除对象数据主标签字段、使用该数据的应用主标签字段以及关注应用字段以外的其它数据字段保留,作为其它数据字段,与对象数据主标签字段、使用该数据的应用主标签字段以及关注应用字段一起组成新的第二结构体,传递至三元存储单元;/n第一网管入口,接收网管的登录信息并记录登录网管ID;/n网管辨识模块,存储各个网管ID及其相应的历史应用操作记录,在收到第一网管入口传递的网管ID后,查询tag映射库是否有相应网管ID的记录,若否,基于本地存储的各个网管ID及其相应的历史应用操作记录,将操作次数最多的前N个应用的主标签作为该网管ID的tag记录更新至tag映射库;/nTag映射库,存储了各个网管ID及其相应的tag,所述tag标记了网管最常使用的前N个应用ID,N为预设使用度阈值,表征网管的应用使用偏好,一个网管ID对应于N个tag,每个tag为每个应用的主标签;/nTag锚定模块,接收网管辨识模块传递的网管ID,并基于Tag映射库存储的各个网管ID及其相应的tag确定当前网管ID的对应tag;构造第三结构体,将网管ID作为第三结构体的第一字段,对应tag作为第三结构体的第二字段,将第三结构体传递至三元存储单元;/n三元存储单元,接收如下三元对应关系并存储:/n第一结构体,存储至第一存储分区;/n第二结构体,存储至第二存储分区;/n第三结构体,存储至第三存储分区。/n...

【技术特征摘要】
1.一种海量数据综合管理系统,所述系统包括以下模块:
第一应用入口,对所管理的应用进行筛选,将需要进行应用数据管理的活动应用执行系统准入;
应用标签拆解模块,拆解应用标签为:
·主标签,用于存储应用ID;
·使用者标签,用于标识应用的使用者集合,所述使用者集合用于表征曾经操作过该应用的所有网管ID,所述使用者集合将随着应用的操作情况更新而更新;
·数据结构体标签,用于标识应用的关注数据结构体,所述应用的关注数据结构体为本应用优先的数据结构体;
应用标签拆解模块将如上标签组合为第一结构体传递至三元存储单元;
第一数据入口,对所管理的数据进行准入,将符合标准数据格式的对象数据输入数据拆解模块;
所述符合标准数据格式的对象数据具体为,该对象数据至少为一结构体,且其至少包含如下字段:
·对象数据主标签字段,用于存储对象数据的数据结构体标签ID;
·使用该数据的应用主标签字段,包含所有使用该数据的应用主标签;
·关注应用字段,用于标识该数据对应的关注应用主标签;
数据拆解模块,用于对所管理的数据进行拆解,将符合标准数据格式的对象数据至少拆解为对象数据主标签字段、使用该数据的应用主标签字段以及关注应用字段,将除对象数据主标签字段、使用该数据的应用主标签字段以及关注应用字段以外的其它数据字段保留,作为其它数据字段,与对象数据主标签字段、使用该数据的应用主标签字段以及关注应用字段一起组成新的第二结构体,传递至三元存储单元;
第一网管入口,接收网管的登录信息并记录登录网管ID;
网管辨识模块,存储各个网管ID及其相应的历史应用操作记录,在收到第一网管入口传递的网管ID后,查询tag映射库是否有相应网管ID的记录,若否,基于本地存储的各个网管ID及其相应的历史应用操作记录,将操作次数最多的前N个应用的主标签作为该网管ID的tag记录更新至tag映射库;
Tag映射库,存储了各个网管ID及其相应的tag,所述tag标记了网管最常使用的前N个应用ID,N为预设使用度阈值,表征网管的应用使用偏好,一个网管ID对应于N个tag,每个tag为每个应用的主标签;
Tag锚定模块,接收网管辨识模块传递的网管ID,并基于Tag映射库存储的各个网管ID及其相应的tag确定当前网管ID的对应tag;构造第三结构体,将网管ID作为第三结构体的第一字段,对应tag作为第三结构体的第二字段,将第三结构体传递至三元存储单元;
三元存储单元,接收如下三元对应关系并存储:
第一结构体,存储至第一存储分区;
第二结构体,存储至第二存储分区;
第三结构体,存储至第三存储分区。


2.如权利要求1所述海量数据综合管理系统,其特征在于,所述数据结构体标签,用于标识应用的关注数据结构体,所述应用的关注数据结构体为本应用优先的数据结构体,具体为:
所述数据结构体标签对应于第二结构体的对象数据主标签字段,可通过检查第二结构体的对象数据主标签字段是否等于所述数据结构体标签ID来确定所述第二结构体对应的对象数据是否为该应用的关注数据结构体。


3.如权利要求2所述海量数据综合管理系统和方法,其特征在于,该应用的关注数据结构体具体为:
当该应用与其它应用均可能使用或修改该应用的关注数据结构体时,所述关注数据结构体仅允许该应用的使用或修改,并向其它应用执行访问禁止,将所有对其它应用的调用返回值表达为FALSE。


4.如权利要求1所述海量数据综合管理系统和方法,其特征在于:
基于所述关注应用字段,执行与第一结构体的主标签字段查找匹配来确定所述主标签对应的应用是否为该数据对象的关注应用。


5.如权利要求4所述海量数据综合管理系统和方法,其特征在于:
所述执行与第一结构体的主标签字段查找匹配来确定所述主标签对应的应用是否为该数据对象的关注应用还具有如下后续步骤:
若是,则将该数据单独为所述应用保留另一存储分区,供该关注应用使用或修改、更新,所述另一存储分区不同于数据的原始存储分区;同时,其它应用可以操作、使用、修改或更新该数据的原始分区,防止关注应用受到...

【专利技术属性】
技术研发人员:农怡琳丘林城
申请(专利权)人:农怡琳
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1