一种基于LSTM进行访问路径学习的数据索引方法技术

技术编号:39275905 阅读:10 留言:0更新日期:2023-11-07 10:52
本发明专利技术提供了一种基于LSTM进行访问路径学习的数据索引方法,主要包括天地人三类数据库及其库内多类数据的建立以及数据访问历史数据库的建立,从而实现访问历史语义路径的获取。通过访问历史语义路径和十九类数据而建立异构图,从而建立数据节点和访问路径的数据特征表示和路径访问表示,利用特征表示和访问表示得到不同时间下含十九类数据对应的分块预测矩阵,进而建立LSTM模型系,用于用户输入访问节点而预测展示多个可能的访问数据,实现了数据索引的访问路径化,节省了数据架构的成本的同时,自动实现索引,高效完成数据的索引和分析,且更符合动态变化的数据访问规律,从而更加精准地预测到访问路径,方便研究人员对于数据的快速索引和调用分析。数据的快速索引和调用分析。数据的快速索引和调用分析。

【技术实现步骤摘要】
一种基于LSTM进行访问路径学习的数据索引方法


[0001]本专利技术涉及一种高效索引和数据分析方法,尤其涉及一种基于LSTM进行访问路径学习的数据索引方法,属于大数据结构和分析领域。

技术介绍

[0002]人生活在天地之间,实质上一生都处于信息和数据基础的关系中。在大数据时代,天地人三才的海量数据则是方便、升级人们生活的一个重要的数据源。
[0003]现有数据通常利用真实地理环境的考察,结合遥感技术和图像处理技术形成数字地图,在气象遥感学的应用中,形成了气象数据以及地面物质影响的海量数据,其属于自然地理,处理的天与地之间的关系。在人文地理方面,不同地域的人口、年龄、风俗习惯、生产关系、医疗、财产、金融、学习深造等方面的生活信息数据多与空间分布相关,属于空间数据。现有技术主要包括研究数据的存储平台及处理技术、查询与分析技术,然而这些技术都基于数据的固定模式的结构,并非基于动态的数据变化上进行的组织和查询分析,因此其效率较低。
[0004]我国对于农村集体经济组织成员或者农村集体经济组织以外的单位或个人依法对其承包经营的集体所有或国家所有由农民集体使用的农村土地享有占有、使用和收益的权利,即土地承包经营权的权益。而针对农村土地确权的数据库内容诸如包括发包方、承包方的名称,发包方负责人和承包方代表的姓名、地址、承包方土地承包经营权权属等信息,承包地块的名称、面积、四至、空间位置、土地用途等信息。如何实现建立集影像、图形、权属为一体的农村土地承包管理信息数据库和管理信息系统,实现农村土地的日常管理也是我们一直所追求的目标。
[0005]由于地理数据实质上是一种时空分布的数据,其特点在于在一定时期内其数据分布是稳定的,具有参考意义,但是随着时间推移,数据的变化导致这种参考意义越来越小。因此数据的高效索引以及数据的分析需要研究时空数据变化中不变的因素,而不是简单地固定模式的数据结构,比如数据树。
[0006]因此,如何全新地构建数据的时空变化中不同特性的数据结构是高效把握数据索引和分析的核心。

技术实现思路

[0007]基于上述问题,本专利技术考虑如下几个数据架构和检索分析的要点:第一,建立天、地、人三类大数据,作为数据学习中不变的因素,第二,结合数据查询历史的分析建立基于天地人三类大数据的搜索路径的注意力机制,从而提高搜索效率;第三,构建数据异质图结构对数据进行分析。
[0008]鉴于上述的考虑,本专利技术提供了一种基于LSTM进行访问路径学习的数据索引方法,包括如下步骤:
[0009]S1至少建立大气环境数据库、地域分区的地域分区的人文地理数据库、地面自然
地理数据库三库之一;其中,所述大气环境数据包括但不限于气象资料数据A、光照数据B、环境噪音与管理数据C、生产生活气体排放与管理数据D;所述地域分区的人文地理数据库包括但不限于人口基本信息数据E、农业生产经营管理数据F、工业与企业公司生产经营管理数据G、第三产业生产经营管理数据H、信息网络数据I、社会医疗数据J、社会金融数据K、社会财产与保险数据L、社会教育数据M、司法与行政管理数据N、地面道路与交通管理数据O;所述地面自然地理数据包括但不限于地质及地质活动数据P、水文数据Q、地表植被数据R、地面建筑与人造景观数据S。在本专利技术描述中三库共计十九类数据集;实际应用中可以根据需要进行增加或删减数据集类型,本专利技术对此不做限定。
[0010]S2构建大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库内部及其之间的属性异构信息网络模型AHIN(Attributed Heterogeneous Information Network),形成异质图G={G1;G2;G3;G4}={V1,E1,X1;V2,E2,X2;V3,E3,X3;V4,E4,X4},其中V1、V2、V3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中的数据集,E1、E2、E3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中数据集之间的关系集,而X1、X2、X3为对应的信息矩阵,反映的是库内部的异质图结构;V4,E4,X4分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库构成的数据库集,相应的数据库关系集合以及数据库信息矩阵,反映的是库之间的异质图结构。
[0011]应当理解的是,三类数据库之间都存在相互交错的数据查询与分析的实际搜索的运用,因此各类数据不仅在内部具备索引的可能,也需要在数据库之间构成搜索的搜索链。比如查询某社会中一成员的房产所有权,必须在地域分区的人文地理数据库中的人口基本数据库中调用该成员基本数据,并同时以该成员为起点在社会财产与保险数据中寻找到其名下的房产信息,因此存在人员基本数据

房产信息的元路径数据,在逻辑上实际是将地域分区的地域分区的人文地理数据库内部构建了二元路径直接路径E

L。再比如A

Q则反映了气象数据与对水文数据的影响的二元路径;B

F

R反映了光照与农业生产以及地表植被数据之间的关系;A

G

J的三元一重路径则可反映天气原因导致的企业的管理数据如休假的变动,和人员因天气变化导致的患病进行医疗的数据;H

I

O则可以反映网上虚拟店面与消费者消费数据和快递运输之间的数据关系,构建了库与库之间、库内部与库外联合的数据关系。
[0012]当搜索人员因某种目的而需要录入、修改、审核、查询而访问数据库数据集时则留下访问历史数据,以产生多种不同的搜索元路径,从而将海量的数据集数据本身的空间索引的传统思路转换到利用搜索历史而动态地对数据进行了时空数据组织的新思路上来,这种新思路不会改变现有的数据架构模式从而节省了数据索引和调用分析的成本和效率。
[0013]S3建立数据库的实时访问历史数据库,其中记录了数据的实时录入与修改历史、数据审核历史以及数据查询历史,并分别形成修改历史数据库、数据审核历史数据库以及数据查询历史数据库;各历史数据库中都分为库内与库间历史分库,以实现步骤S2中异质图G1;G2;G3;G4的数据集映射和关系集映射,最终形成随时间变化的动态异质图因此随着t1‑
t4各时间的推移,实时访问历史数据库中的访问历史数据不断在更新。
[0014]S4选择以S1中多类数据中任一数据为端点(例如,可以选择十九类中的任一数
据),基于S3中访问历史数据库而建立访问历史语义路径如下:
[0015]定义直接路径和n

2,n>2重语义路径,其中直接路径表示为记作A1‑
A2,或A1A2其中R描述了访问历史数据A1和A2之间的直接路径的库内和库间的录入、修改、审核、查询操作的顺序关系,属于异质图关系集中的元素;n

2重路径表示为记作n

2重路径A1‑
A2…
A
n
‑2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM进行访问路径学习的数据索引方法,其特征在于,包括如下步骤:S1至少建立大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库三数据库之一;S2构建所述大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库内部及其之间的属性异构信息网络模型AHIN,形成异质图G={G1;G2;G3;G4}={V1,E1,X1;V2,E2,X2;V3,E3,X3;V4,E4,X4};其中,V1、V2、V3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中的数据集;E1、E2、E3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中数据集之间的关系集;X1、X2、X3为对应的信息矩阵,反映的是库内部的异质图结构;V4,E4,X4分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库构成的数据库集,相应的数据库关系集合以及数据库信息矩阵,反映的是库之间的异质图结构;S3建立数据库的实时访问历史数据库,其中记录了数据的实时录入与修改历史、数据审核历史以及数据查询历史,并分别形成修改历史数据库、数据审核历史数据库以及数据查询历史数据库;各历史数据库中都分为库内与库间历史分库,以实现步骤S2中异质图G1;G2;G3;G4的数据集映射和关系集映射,最终形成随时间变化的动态异质图随着t1‑
t4各时间的推移,实时访问历史数据库中的访问历史数据不断在更新;S4选择以S1中多类数据中任一数据为端点,基于S3中访问历史数据库而建立访问历史语义路径如下:定义直接路径和n

2,n>2重语义路径,其中直接路径表示为记作A1‑
A2,或A1A2其中R描述了访问历史数据A1和A2之间的直接路径的库内和库间的录入、修改、审核、查询操作的顺序关系,属于异质图关系集中的元素;n

2重路径表示为记作n

2重路径A1‑
A2…
A
n
‑2‑
A
n
‑1‑
A
n
,或A1A2…
A
n
‑2A
n
‑1A
n
,其中R1,

,R
n
‑2,R
n
‑1,R
n
描述了访问历史数据A1,A2,

,A
n
‑2,A
n
‑1,A
n
之间的多重路径复合的库内和库间的录入、修改、审核、查询的顺序关系,亦属于异质图关系集中的元素;再次选择剩余类数据建立其他访问历史语义路径,直至建立完所有多类类数据对应的访问历史语义路径,形成访问历史语义路径集;S5将访问历史数据库中的数据划分为训练集、验证集和测试集,三者的比例为5

1:1:1

3,利用训练集建立访问历史语义路径集,根据多个数据端点的邻居节点级别的注意力机制,得到多个数据端点的特征表示,以及邻居节点融合特征;并基于所述多个数据端点的邻居节点融合特征建立步骤S4的访问历史语义路径集HR中的多重路径另一端数据节点访问表示,形成各条路径的访问概率;S6对于不同时间下访问历史数据库中的数据划分得到的测试集,根据S5的邻居节点级别的注意力机制和多重路径另一端数据节点访问表示得到不同时间下的多个数据端点中各不同重数路径的访问概率大小;将每个数据端点中各重数路径相应的访问概率集各自按时间序列排序,形成多个分块矩阵组成的预测矩阵M
p
,预测矩阵M
p
中每一个分块矩阵也都是
按时间排序,于是所述每一个分块矩阵中的每一个元素形成了同一个时间t下的按照S5计算得到的访问概率集,每一个访问概率集是不同具体路径的访问概率的集合,且集合中元素按路径重数大小排列;采用预测矩阵M
p
中的访问概率逐步预测出更多重路径的访问概率,以建立LSTM模型;S7根据LSTM模型获得的所述各重路径下的最终预测结果而将多个数据中对应路径节点的数据进行项目展开,完成自动索引,用户则向展开的项目中选择输入所需要的目标数据项目进行录入、修改、审核、查询、以及分析;其中所述项目即为多个数据中的子数据库。2.根据权利要求1所述的方法,其特征在于,所述大气环境数据包括但不限于气象资料数据A、光照数据B、环境噪音与管理数据C、生产生活气体排放与管理数据D;所述地域分区的人文地理数据库包括但不限于人口基本信息数据E、农业生产经营管理数据F、工业与企业公司生产经营管理数据G、第三产业生产经营管理数据H、信息网络数据I、社会医疗数据J、社会金融数据K、社会财产与保险数据L、社会教育数据M、司法与行政管理数据N、地面道路与交通管理数据O、所述地面自然地理数据包括但不限于地质及地质活动数据P、水文数据Q、地表植被数据R、地面建筑与人造景观数据S;一共十九类数据集。3.根据权利要求2所述的方法,其特征在于,S4中形成的历史语义路径集HR={hr1,hr2,

,hr
19
},其中hr1,hr2,

,hr
19
依次对应数据A

S的访问历史语义路径集,hr1,hr2,

,hr
19
中每一个都含有多条不同的路径,其条数集记作其中自然数k1…
k
19
∈[0,K]其中K为当前访问历史语义路径集HR中最大重数,分别表示对应各数据A

S的路径的重数。4.根据权利要求2所述的方法,其特征在于,其中,邻居节点级别的注意力机制的建立包括:S5

1给定通过直接路径ρ连接的数据邻居节点对(i,j),将重要性定义为基于直接路径ρ的节点对(i,j)的重要性公式可以如下表示:其中h
i
,h
j
分别代表的是十九个数据中其中一类数据i和另一类邻居数据j的特征表示,ρ代表的连接两个节点的直接路径,Att
node
是执行节点注意力机制的深层神经网络,在给定的同一条采样路径下,所有目标节点i的邻居都是通过相同的采样模式被采样到,因此对于给定采样直接路径ρ,所有基于采样路径的节点对都共享Att
node
;S5

2通过softmax函数对重要性做归一化的处理,得到直接路径的访问概率:其中a
ρ
∈R
2d
代表的是路径ρ的节点级注意力向量,||表示拼接操作,使用LeakyReLU作为激活函数,为与数据节点i相连的所有节点个数;S5

3得到十九个数据端点的特征表示即为其中表示的是节点i在给定直接路径ρ上融合邻居节点影响因素的学习到的特征表示,即邻居节点融合特征,所述基于所述十九个数据端点的邻居节点融合特征建立步骤S4的访问历史语义
路径集HR中的多重路径另一端数据节点访问表示,形成条路径的各路径访问概率具体包括:S5

4同时将节点级注意力机制重复K次,并将每...

【专利技术属性】
技术研发人员:郭琳卫炜张寅邢雪翟光辉张宇洁王纪峰庞嫣然
申请(专利权)人:农业农村部大数据发展中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1