一种基于科技资源大数据的存储方法技术

技术编号:14028041 阅读:59 留言:0更新日期:2016-11-19 13:08
本发明专利技术提出一种基于科技资源大数据的存储方法,在不增加表结构的情况下,能够存储大量异构数据,并简便快速实现多备份,且能够提高数据查询效率。该存储方法是在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息、数据类型将Hbase表划分成不同的存储区域,再依次存储所接收数据包中的每一条数据;其中,分别根据第一条数据和最后一条数据的用户信息、数据类型和随机码生成起始存储地址和终止存储地址,并放入mysql表中;所述起始存储地址和终止存储地址组成该数据包的索引信息。本发明专利技术在不增加表结构的情况下,能够存储大量异构数据。

【技术实现步骤摘要】

本专利技术涉及信息化
,具体涉及一种复杂大数据的存储方法。
技术介绍
在当今信息技术时代,每年的信息量成几何增长,各个行业和运营主体出于信息整合的需要,建立了诸多数据库。但这些数据库往往局限于本行业、甚至特定小群体专用,缺乏社会层面各相关部门、供需方之间的交流和沟通,更没有形成社会共享服务体系;国家各类科技计划项目所产生的科学数据,也没能得到有效的管理和利用。这样就导致了各种科技资源及其数据库标准化、规范化、体系化程度低,更新维护不便,相当一部分数据库根本没有标准可循。针对科技资源的共享,需要建立一种大区域的信息化服务系统,来促进企业及整个社会的科技创新能力。中国专利文献CN104835082A即提出了一种科技资源的信息共享服务系统,该系统的终端设备用于采集科技资源信息,采集后的数据储存在数据库中进行汇集、分类,数据库将信息通过互联网上传至政策法规服务平台、项目申报指导平台、科技成果展示平台、科技人才数据平台等,从而将不同类型、不同主题、不同功能的科技资源汇集,通过互联网提供政策法规查询、企业成果展示、项目申报规范指导等服务。不过,上述专利文献提出的系统架构在实际操作过程中存在一些技术障碍和问题,这其中最主要的问题就是科技资源数据来源不同,结构不一致,不同应用平台间不可共享数据,数据同步困难,应用平台间数据交换标准不统一等,在采集完成后,需要进行有效、合理的存储,才能便于后期的数据处理,乃至平台服务。目前,复杂数据的存储方式多为行式存储,若有1000种数据,则需要1000张表,按行存储。该存储方式难以满足大数据存储,需要较高的硬件配置,且维护、使用不便,备份需要的技术手段也很繁复。
技术实现思路
本专利技术提出一种基于科技资源大数据的存储方法,在不增加表结构的情况下,能够存储大量异构数据,并简便快速实现多备份,且能够提高数据查询效率。本专利技术的技术方案如下:一种基于科技资源大数据的存储方法,包括以下步骤:1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息(例如:A企业的a部门系统)、数据类型将Hbase表划分成不同的存储区域;2)依次存储所接收数据包中的每一条数据2.1)从第一条数据中提取用户信息和数据类型,同时获取系统提供的随机码,根据用户信息、数据类型和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;2.2)依次从此后的每一条数据中提取用户信息和数据类型,同时获取系统提供的随机码;在Hbase表中已存的第一条数据后依次连续存储各条数据;其中,根据最后一条数据的用户信息、数据类型和随机码生成终止存储地址,同时将所述终止存储地址放入mysql表中;所述起始存储地址和终止存储地址组成该数据包的索引信息。在以上方案的基础上,本专利技术还结合实际进一步作了优化:在步骤2)中获取随机码的同时,还获取系统提供的当前时间戳;Hbase表中具有对应于时间戳的存储位置;相应的,根据用户信息、数据类型、时间戳和随机码生成所述起始存储地址和终止存储地址。所述起始存储地址和终止存储地址的格式是:字符串“用户信息+数据类型+时间戳+随机码”。本专利技术具有以下技术效果:1、在不增加表结构的情况下,能够存储大量异构数据。2、在Hbase列式存储方式下,容易实现多备份。3、用mysql作为Hbase的配置信息,索引,能够快速数据定位。4、数据可追溯。附图说明图1为本专利技术中Hbase表和mysql表的联系示意图。具体实施方式该基于科技资源大数据的存储方法作为数据服务提供方案的前端,需要在合理的硬件支持下完成大量异构数据的存储,提高系统的数据兼容性和更新能力,以便于在后建立标准企业表,提供数据信息服务,作为行政决策参考。该基于科技资源大数据的存储方法,包括以下步骤:1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息(例如:A企业的a部门系统)、数据类型将Hbase表划分成不同的存储区域;2)依次存储所接收数据包中的每一条数据设该数据包共有n条数据:2.1)从第1条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,根据用户信息、数据类型、时间戳和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;2.2)从第2条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第1条数据的下一个存储位置;……从第n-1条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第n-2条数据的下一个存储位置;2.3)从第n条数据中提取用户信息和数据类型,同时获取系统提供的当前时间戳和随机码,将这些信息存储在Hbase表中第n-1条数据的下一个存储位置;并根据用户信息、数据类型、时间戳和随机码生成终止存储地址,将所述终止存储地址放入mysql表中。起始存储地址和终止存储地址组成该数据包的索引信息。起始存储地址和终止存储地址的格式可完全采用这些信息本身,即存储地址的字符串为用户信息+数据类型+时间戳+随机码。本文档来自技高网
...
一种基于科技资源大数据的存储方法

【技术保护点】
一种基于科技资源大数据的存储方法,其特征在于,包括以下步骤:1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息、数据类型将Hbase表划分成不同的存储区域;2)依次存储所接收数据包中的每一条数据2.1)从第一条数据中提取用户信息和数据类型,同时获取系统提供的随机码,根据用户信息、数据类型和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;2.2)依次从此后的每一条数据中提取用户信息和数据类型,同时获取系统提供的随机码;在Hbase表中已存的第一条数据后依次连续存储各条数据;其中,根据最后一条数据的用户信息、数据类型和随机码生成终止存储地址,同时将所述终止存储地址放入mysql表中;所述起始存储地址和终止存储地址组成该数据包的索引信息。

【技术特征摘要】
1.一种基于科技资源大数据的存储方法,其特征在于,包括以下步骤:1)在系统的存储空间建立Hbase表和mysql表,用mysql表作为Hbase表的索引,并按照用户信息、数据类型将Hbase表划分成不同的存储区域;2)依次存储所接收数据包中的每一条数据2.1)从第一条数据中提取用户信息和数据类型,同时获取系统提供的随机码,根据用户信息、数据类型和随机码生成起始存储地址,并将这些信息存储在Hbase表中对应位置,同时将所述起始存储地址放入mysql表中;2.2)依次从此后的每一条数据中提取用户信息和数据类型,同时获取系统提供的随机码;在Hbase表中已存的第一条数据后依...

【专利技术属性】
技术研发人员:吴明强李庆徐冲尹政
申请(专利权)人:西安科技大市场有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1