基于同质图架构FeatureRDD模型的数据索引方法技术

技术编号:38753324 阅读:8 留言:0更新日期:2023-09-10 09:37
本发明专利技术涉及一种基于同质图架构FeatureRDD模型的数据索引方法,包括至少建立大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库三库之一;构建大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库内部与之间的属性同构信息网络模型;建立数据库的实时输入历史数据库和/或访问历史数据库;构建包含过滤与分析模块以及建模模块的FeatureRDD模型;构建基于同质图的输入与访问历史的数据的索引预测模型,实现本地动态时空索引;选择输入数据,和/或选择访问所需要的数据类型,并根据S5构建的模型展示出所需要的数据库项目,最终实现海量矢量要素并行计算和动态索引。和动态索引。和动态索引。

【技术实现步骤摘要】
基于同质图架构FeatureRDD模型的数据索引方法


[0001]本专利技术涉及一种海量矢量要素并行计算方法,尤其涉及一种基于同质图架构FeatureRDD模型的数据索引方法,属于空间数据结构与计算领域。

技术介绍

[0002]FeatureRDD模型作为Spark的RDD模型之上扩展出的一类模型,支持分布式空间计算,以FeatureRDD模型作为输入和输出的数据处理与分析接口,以及对各种类型数据引擎的读取和写入接口,实现了数据的含时空间地理位置和含时地理属性,以及高效地地理数据的时空组织与并行计算。
[0003]然而FeatureRDD模型仅仅是一种数据架构的存储方式,其通过ID编码实现了空间经纬度的基本时空属性与地理属性的组织,现有技术利用四叉树索引和二叉树索引结合对分布式数据集模型重分区之后的数据进行索引,利用网格聚合以实现数据节点的逻辑架构,以及数据节点之间的逻辑关系的分析计算。
[0004]但是数据重分区、四叉树索引和二叉树索引必然带来了计算的复杂性,由于数据访问的海量历史记录没有被关注,在数据的最终并行计算上,仍然是基于数据结构本身进行被动的静态索引。因此,从思维上跳出海量数据存储架构本身,考虑如何利用数据访问历史实现动态的标引,成为提高数据索引效率和最终并行计算效率的一条新途径。
[0005]农村土地承包经营权是指农村集体经济组织成员或者农村集体经济组织以外的单位或个人依法对其承包经营的集体所有或国家所有由农民集体使用的农村土地享有占有、使用和收益的权利。我国通过开展农村土地承包经营权确权登记颁证工作,查清了每块承包地的空间位置、面积、四至等信息,明确了每个承包农户的土地承包经营权,并建立了全国农村土地承包信息数据库,集中存储了超过11亿个承包地块的地理空间信息,以及近2亿承包农户及其家庭成员的基本情况,以及承包合同、登记簿和证书等信息。如何在集影像、图形、权属为一体的农村土地承包信息数据库和管理系统基础上不断提高数据运行效率,实现农村土地承包经营权信息的高效管理是我们长期需要面对的问题。
[0006]前期我们将数据分为天、地、人三类,并基于异质图结构做到了数据访问历史的预测,实现了数据的高效索引。然而现实应用中对数据的访问实际上并不关心其路径的方向,而是关心的在一定时段内用户到底访问了哪些数据内容,因此我们考虑如果将异质图结构转化为同质图结构,尽管损失了访问历史的路径方向细节,但这样能够进一步提高动态索引的效率。

技术实现思路

[0007]本专利技术基于上述问题和考虑,主要工作包括如下两个重要的方面:第一,将输入的时空大数据或者所要访问的数据都划分为天、地、人三部分,并且在经过FeatureRDD模型之后将数据形成时空组织,同时并行记录输入与访问历史;第二,构建基于同质图数据输入与访问历史的数据预测模型,以实现高效动态的索引方式以及并行计算方式。基于并行计算
架构建立合理高效的分布式空间索引,实现海量空间数据的并行处理,大幅提高对海量空间数据的分析、处理和渲染效率。
[0008]为此,本专利技术提出了一种基于同质图架构FeatureRDD模型的数据索引方法,具体包括如下步骤:
[0009]S1至少建立大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库三库之一,其中所述大气环境数据包括但不限于气象资料数据A、光照数据B、环境噪音与管理数据C、生产生活气体排放与管理数据D;所述地域分区的人文地理数据包括但不限于人口基本信息数据E、农业生产经营管理数据F、工业与企业公司生产经营管理数据G、第三产业生产经营管理数据H、信息网络数据I、社会医疗数据J、社会金融数据K、社会财产与保险数据L、社会教育数据M、司法与行政管理数据N、地面道路与交通管理数据O;所述地面自然地理数据包括但不限于地质及地质活动数据P、水文数据Q、地表植被数据R、地面建筑与人造景观数据S。在本专利技术描述中三库共计十九类数据集,实际应用中可以根据需要进行增加或删减数据集类型,本专利技术对此不做限定。
[0010]S2构建大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库内部及其之间的属性同构信息网络模型,形成同质图G={G1;G2;G3;G4}={V1,E1,X1;V2,E2,X2;V3,E3,X3;V4,E4,X4},其中V1、V2、V3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中的数据集,E1、E2、E3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中数据集之间的关系集,而X1、X2、X3为对应的信息矩阵,反映的是库内部的同质图结构;V4,E4,X4分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库构成的数据库集,相应的数据库关系集合,以及数据库信息矩阵,反映的是库之间的同质图结构。其中E1、E2、E3、E4都分别包括了第一预定时间段的关系集合,分为单元素关系集A
e
,多元素关系集A
m
,且两者都按多个所述第一预定时间段的时间顺序排列形成当前时刻t含时单元素关系集A
e
(t),多元素关系集A
m
(t),其中信息矩阵中含有各类数据的属性信息,任意第一预定时间段下的当前关系集合内的元素都为同质图的子图,将数据的类数相同的子图集合在同一个关系集合中。
[0011]优选地,所述第一预定时间段为1ms

0.01s。
[0012]在预设的1ms

0.01s内,如果输入的数据或访问的数据仅仅包含了所述的十九类数据中的一类数据,则这类输入和访问操作对于每一类数据形成的关系即为单元素关系,而单元素关系形成的多个所述第一预定时间段的时间排列即形成单元素关系集。例如在1ms

0.01s中服务器发现输入和/或访问的数据所述类型都为A,形成当前单元素关系集{A},下一个1ms

0.01s中(不一定与上一个1ms

0.01s在时间上连续)输入和/或访问的数据所述类型都为G,则单元素集在当前两个第一预定时间段内形成当前的单元素关系集{A,G},以此类推形成任意时刻的单元素关系集A
e
(t)。
[0013]对于多元素关系集,即例如当1ms

0.01s内,输入的数据或访问的数据包含了所述的十九类数据中的多类数据,比如两类A和G,形成当前多元素关系集{(AG)},下一个1ms

0.01s中(不一定与上一个1ms

0.01s在时间上连续)输入和/或访问的数据所述类型都为G和J,则当前多元素关系集{(AG),(GJ)},以此类推形成任意时刻的多元素关系集A
m
(t)。任意预定时间表的当前关系集合内,由于同质图的关系,任意元素之间相互交换位置都视作同一个子图,例如{(AG)}={(GA)},{(AG),(GJ)}={(GJ),(AG)}={(GA),(GJ)}。
[0014]当用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于同质图架构FeatureRDD模型的数据索引方法,其特征在于,包括如下步骤:S1至少建立大气环境数据库,地域分区的地域分区的人文地理数据库,地面自然地理数据库三库之一;S2构建大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库内部及其之间的属性同构信息网络模型,形成异质图G={G1;G2;G3;G4}={V1,E1,X1;V2,E2,X2;V3,E3,X3;V4,E4,X4},其中V1、V2、V3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中的数据集,E1、E2、E3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中数据集之间的关系集,而X1、X2、X3为对应的信息矩阵,反映的是库内部的同质图结构;V4,E4,X4分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库构成的数据库集,相应的数据库关系集合,以及数据库信息矩阵,反映的是库之间的同质图结构,其中E1、E2、E3、E4都分别包括了第一预定时间段的关系集合,分为单元素关系集A
e
,多元素关系集A
m
,且两者都按多个所述第一预定时间段的时间顺序排列形成当前时刻t含时单元素关系集A
e
(t),多元素关系集A
m
(t),其中信息矩阵中含有各类数据的属性的信息,任意第一预定时间段下的当前关系集合内的元素都为同质图的子图,将数据的类数相同的子图集合在同一个关系集合中,其中,所述第一预定时间段为1ms

0.01s;S3建立数据库的实时输入历史数据库和/或访问历史数据库,其中访问历史数据库记录了数据的实时录入与修改历史、数据审核历史以及数据查询历史,并分别形成修改历史数据库、数据审核历史数据库以及数据查询历史数据库;各历史数据库中都分为库内与库间历史分库,以实现步骤S2中同质图G1;G2;G3;G4的数据集映射和关系集映射,最终形成随时间变化的动态同质图因此随着t1‑
t4各时间的推移,实时输入历史数据库中的输入历史数据和访问历史数据库中的访问历史数据不断在更新,其中E1(t1)={A
e1
(t1),A
m1
(t1)},E2(t2)={A
e2
(t2),A
m2
(t2)},E3(t3)={A
e3
(t3),A
m3
(t3)},E4(t4)={A
e4
(t4),A
m4
(t4)};S4构建包含过滤与分析模块以及建模模块的FeatureRDD模型,将历史输入的数据全部分为元信息和属性信息,其中元信息存储了输入或访问数据所处的时空坐标,以及含时单元素关系集A
ei
(t),含时多元素关系集A
mi
(t),i=1,2,3,4,属性信息则按数据的类别对应分为多个数据库模块,每一个模块都存储了同质图的一类含时数据集,含时信息矩阵、以及输入历史数据库和/或访问历史数据库;S5构建基于同质图的输入与访问历史的数据的索引预测模型,实现本地动态时空索引;S6选择输入数据,和/或选择访问所需要的数据类型,并根据S5构建的模型展示出所需要的数据库项目。2.根据权利要求1所述的方法,其特征在于,所述大气环境数据包括但不限于气象资料数据A、光照数据B、环境噪音与管理数据C、生产生活气体排放与管理数据D;所述地域分区的人文地理数据库包括但不限于人口基本信息数据E、农业生产经营管
理数据F、工业与企业公司生产经营管理数据G、第三产业生产经营管理数据H、信息网络数据I、社会医疗数据J、社会金融数据K、社会财产与保险数据L、社会教育数据M、司法与行政管理数据N、地面道路与交通管理数据O;所述地面自然地理数据包括但不限于地质及地质活动数据P、水文数据Q、地表植被数据R、地面建筑与人造景观数据S;一共十九类数据集。3.根据权利要求2所述的方法,其特征在于,其中S5具体包括了:S5

1将输入数据输入FeatureRDD模型中,实现输入数据根据S1中各类数据分类录入相应属性信息中,并录入元信息,以及更新输入历史数据库和/或访问历史数据库;S5

2构建关系集预测图;S5

3建立基于所述关系集预测图的CNN

LSTM预测模型。4.根据权利要求3所述的方法,其特征在于,其中,S5

2具体包括了:S5
‑2‑
1利用输入历史数据库和/或访问历史数据库中的数据而更新含时单元素关系集A
ei
(t),含时多元素关系集A
mi
(t),实时统计各关系集的输入概率和/或访问概率其中c∈{A,B,

,S}表示数据库的类型;S5
‑2‑
2定义十九类数据库c与图像像素值pix
c
之间的映射关系c

pix
c
,则将含时单元素关系集A
ei
(t),含时多元素关系集A
mi
(t)分别映射成含时单元素像素值关系集和含时多元素像素值关系集其中的+pix
c
中加号+表示对相应关系集合中的元素中每个数据库对应的像素值求和形成表示该元素的像素值,在第二预定时间段内提取含时单元素像素值关系集和含时多元素像素值关系集中的代表元素像素值,按照S2中所述同一个关系集合而对于每一个同一个关系集合按所述第一时间段的先后顺序排列所述代表元素像素值形成多个像素的K种大小一致的预测图,其中K为当前各像素值关系集中元素个数超过预定值的关系集的个数,每一种预测图对应为同一个关系集合中的一个,随着时间的推移,第一预定时间段的数据在积累,每一种的预测图的数量也在增长,规定对于当前形成完毕的一种预测图,再形成其他多幅同种预测图时,则代表元素选取方式为前一幅同种预测图的代表元素之后紧接着出现的代表元素,而像素排布方式同样与前一幅预测图排布方式相同,其中,所述预定值为5
×
108。5.根据权利要求4所述的方法,其特征在于,所述图像像素值pix
c
为灰度值或彩色RGB值中的至少一种或其组合,对于不同的c而像素值大小不同,更优选地,根据c的不同而相邻两个数据库对应的像素值大小相差5

11。6.根据权利要求4或5所述的方法,其特征在于,所述第二预定时间段的时长为第一时间段的整数倍对应的时长。7.根据权利要求6所述的方法,其特征在于,所述整数为224
×
224

500
×
500,即为A
epi...

【专利技术属性】
技术研发人员:卫炜邢雪郭琳赵春梅刘宇航项程程李晓辰
申请(专利权)人:农业农村部大数据发展中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1