The invention discloses a method and a system for storing high correlation large data. The system comprises a storage module, data management module; wherein, the storage module including the use of Hashmap model in data storage entity content, used to store data entity attribute relationship model, is used for storing data between entities map data model the relationship between the number of each entity set; according to a type of entity and the only ID, the establishment of the relationship between the properties and content of the same data entity through the data entity ID; the unified data management module for data entity relationship, attribute and content data in the storage module, delete, update, query and increase. The invention can realize the storage and management of the large data set, and can support the efficient association query analysis.
【技术实现步骤摘要】
本专利技术属于大数据存储领域,具体涉及了一种高度关联大数据的存储方法及管理系统。
技术介绍
在大数据时代,企业或组织机构越来越重视数据的价值,并逐步开始了大数据的采集、存储和分析利用。在这些大数据集中,数据之间的关联是普遍存在的。尤其是在社交网络大数据、医疗大数据等与个体用户密切相关的应用场景中,数据对象之间更是呈现出高度关联的特点。而这些高度关联数据集中存在的数据之间的复杂联系往往具备巨大的分析价值。例如,社交用户之间的朋友关系、药品与病人之间的关联等等。同时,这些高度关联的大数据集也具备大规模、高速性和多样性的特点,因此为了更好地分析和利用它们,就需要对此类数据集的高效存储和管理等问题展开研究。为了应对大数据的存储需求,通常会有针对性地采用结构化关系数据库存储结构化数据,采用NoSQL数据库存储半结构化或非结构化数据。在这些存储方法中,关系型数据库和大多数NoSQL数据库(例如,键值数据库、文档数据库、列数据库)对于数据之间联系的存储和管理都非常低效。它们存储的都是无关联的记录、值、文档、列,在需要进行数据之间关联性的查询和分析时,需要采用索引、外键、表连接等额外的机制来实现。与之相对的是,图数据库则专注于数据之间联系的存储和查询,其多层关联查询和反向查询效率远远高于关系数据库和其他NoSQL数据库。多层关联查询是指在数据之间的联系上进行多层查询。例如查询“某个人的朋友的朋友的朋友的朋友”就是在朋友关系上进行多层查询。而反向查询则是指查询的方向与索引建立的方向是相反的。例如,存在索引“病人->药品”,那么查询某个病人买了哪些药品是非常快捷的,但 ...
【技术保护点】
一种高度关联大数据的存储方法,其步骤为:1)为每一数据实体设置一实体类型和唯一的ID号;2)采用关系模型中的二维表存储数据实体的属性;采用Hashmap模型存储数据实体的内容;3)通过数据实体ID号对同一数据实体的属性和内容之间建立关联关系;采用图数据模型存储数据实体之间的关联关系。
【技术特征摘要】
1.一种高度关联大数据的存储方法,其步骤为:1)为每一数据实体设置一实体类型和唯一的ID号;2)采用关系模型中的二维表存储数据实体的属性;采用Hashmap模型存储数据实体的内容;3)通过数据实体ID号对同一数据实体的属性和内容之间建立关联关系;采用图数据模型存储数据实体之间的关联关系。2.如权利要求1所述的方法,其特征在于,采用图数据模型存储数据实体之间的关联关系的方法为:将图数据模型中的一个节点表示一个数据实体,在该节点上标识对应数据实体的实体类型和ID号,利用节点之间的边表示数据实体之间的关联关系。3.如权利要求1所述的方法,其特征在于,所述Hashmap模型中,以数据实体的ID号为键,数据实体的内容为键值。4.如权利要求1所述的方法,其特征在于,采用关系模型中的二维表存储数据实体的属性的方法为:将每种实体类型的数据实体的属性采用一二维表进行存储,其格式为:[数据实体ID|属性A|属性B......]。5.如权利要求1所述的方法,其特征在于,所述Hashmap模型中,将若干数据实体的内容进行合并存储;其中以存储在一起的若干数据实体的存储时间为键,存储在一起的若干数据实体的内容为键值,并且构建一数据实体ID索引到实体内容对应的键的索引;或存储在一起的若干数据实体的存储时间及其ID的组合作为键,存储在一起的若干数据实体的内容为键值,并且构建一数据实体ID索引到实体内容对应的键的索引。6.一种高度关联大数据的管理系统,其特征在于,包括存储模块、统一数据管理模块;其中,存储模块包括用以存储数据实体内容的Hashmap模型,用以存储数据实体属性的关系模型,用以存储数据实体之间关联联系的图数据模型;每一数据实体设置一实体类型和唯一的ID号,通过数据实体ID号对同一数据实体的属性和内容之间建立该关联关系;所述统一数据管理模块,用于对数据实体的关联关系、属性、数据内容在存储模块中的增加、删除、更新、查询。7...
【专利技术属性】
技术研发人员:李昊,张敏,付艳艳,惠榛,陈震宇,张宗福,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。