【技术实现步骤摘要】
一种基于LSTM进行访问路径学习的数据索引方法
[0001]本专利技术涉及一种高效索引和数据分析方法,尤其涉及一种基于LSTM进行访问路径学习的数据索引方法,属于大数据结构和分析领域。
技术介绍
[0002]人生活在天地之间,实质上一生都处于信息和数据基础的关系中。在大数据时代,天地人三才的海量数据则是方便、升级人们生活的一个重要的数据源。
[0003]现有数据通常利用真实地理环境的考察,结合遥感技术和图像处理技术形成数字地图,在气象遥感学的应用中,形成了气象数据以及地面物质影响的海量数据,其属于自然地理,处理的天与地之间的关系。在人文地理方面,不同地域的人口、年龄、风俗习惯、生产关系、医疗、财产、金融、学习深造等方面的生活信息数据多与空间分布相关,属于空间数据。现有技术主要包括研究数据的存储平台及处理技术、查询与分析技术,然而这些技术都基于数据的固定模式的结构,并非基于动态的数据变化上进行的组织和查询分析,因此其效率较低。
[0004]我国对于农村集体经济组织成员或者农村集体经济组织以外的单位或个人依法对其承包经营的集体所有或国家所有由农民集体使用的农村土地享有占有、使用和收益的权利,即土地承包经营权的权益。而针对农村土地确权的数据库内容诸如包括发包方、承包方的名称,发包方负责人和承包方代表的姓名、地址、承包方土地承包经营权权属等信息,承包地块的名称、面积、四至、空间位置、土地用途等信息。如何实现建立集影像、图形、权属为一体的农村土地承包管理信息数据库和管理信息系统,实现农村土地的日常管理也是我们一 ...
【技术保护点】
【技术特征摘要】
1.一种基于LSTM进行访问路径学习的数据索引方法,其特征在于,包括如下步骤:S1至少建立大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库三数据库之一;S2构建所述大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库内部及其之间的属性异构信息网络模型AHIN,形成异质图G={G1;G2;G3;G4}={V1,E1,X1;V2,E2,X2;V3,E3,X3;V4,E4,X4};其中,V1、V2、V3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中的数据集;E1、E2、E3分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库中数据集之间的关系集;X1、X2、X3为对应的信息矩阵,反映的是库内部的异质图结构;V4,E4,X4分别为大气环境数据库、地域分区的人文地理数据库、地面自然地理数据库构成的数据库集,相应的数据库关系集合以及数据库信息矩阵,反映的是库之间的异质图结构;S3建立数据库的实时访问历史数据库,其中记录了数据的实时录入与修改历史、数据审核历史以及数据查询历史,并分别形成修改历史数据库、数据审核历史数据库以及数据查询历史数据库;各历史数据库中都分为库内与库间历史分库,以实现步骤S2中异质图G1;G2;G3;G4的数据集映射和关系集映射,最终形成随时间变化的动态异质图随着t1‑
t4各时间的推移,实时访问历史数据库中的访问历史数据不断在更新;S4选择以S1中多类数据中任一数据为端点,基于S3中访问历史数据库而建立访问历史语义路径如下:定义直接路径和n
‑
2,n>2重语义路径,其中直接路径表示为记作A1‑
A2,或A1A2其中R描述了访问历史数据A1和A2之间的直接路径的库内和库间的录入、修改、审核、查询操作的顺序关系,属于异质图关系集中的元素;n
‑
2重路径表示为记作n
‑
2重路径A1‑
A2…
A
n
‑2‑
A
n
‑1‑
A
n
,或A1A2…
A
n
‑2A
n
‑1A
n
,其中R1,
…
,R
n
‑2,R
n
‑1,R
n
描述了访问历史数据A1,A2,
…
,A
n
‑2,A
n
‑1,A
n
之间的多重路径复合的库内和库间的录入、修改、审核、查询的顺序关系,亦属于异质图关系集中的元素;再次选择剩余类数据建立其他访问历史语义路径,直至建立完所有多类类数据对应的访问历史语义路径,形成访问历史语义路径集;S5将访问历史数据库中的数据划分为训练集、验证集和测试集,三者的比例为5
‑
1:1:1
‑
3,利用训练集建立访问历史语义路径集,根据多个数据端点的邻居节点级别的注意力机制,得到多个数据端点的特征表示,以及邻居节点融合特征;并基于所述多个数据端点的邻居节点融合特征建立步骤S4的访问历史语义路径集HR中的多重路径另一端数据节点访问表示,形成各条路径的访问概率;S6对于不同时间下访问历史数据库中的数据划分得到的测试集,根据S5的邻居节点级别的注意力机制和多重路径另一端数据节点访问表示得到不同时间下的多个数据端点中各不同重数路径的访问概率大小;将每个数据端点中各重数路径相应的访问概率集各自按时间序列排序,形成多个分块矩阵组成的预测矩阵M
p
,预测矩阵M
p
中每一个分块矩阵也都是
按时间排序,于是所述每一个分块矩阵中的每一个元素形成了同一个时间t下的按照S5计算得到的访问概率集,每一个访问概率集是不同具体路径的访问概率的集合,且集合中元素按路径重数大小排列;采用预测矩阵M
p
中的访问概率逐步预测出更多重路径的访问概率,以建立LSTM模型;S7根据LSTM模型获得的所述各重路径下的最终预测结果而将多个数据中对应路径节点的数据进行项目展开,完成自动索引,用户则向展开的项目中选择输入所需要的目标数据项目进行录入、修改、审核、查询、以及分析;其中所述项目即为多个数据中的子数据库。2.根据权利要求1所述的方法,其特征在于,所述大气环境数据包括但不限于气象资料数据A、光照数据B、环境噪音与管理数据C、生产生活气体排放与管理数据D;所述地域分区的人文地理数据库包括但不限于人口基本信息数据E、农业生产经营管理数据F、工业与企业公司生产经营管理数据G、第三产业生产经营管理数据H、信息网络数据I、社会医疗数据J、社会金融数据K、社会财产与保险数据L、社会教育数据M、司法与行政管理数据N、地面道路与交通管理数据O、所述地面自然地理数据包括但不限于地质及地质活动数据P、水文数据Q、地表植被数据R、地面建筑与人造景观数据S;一共十九类数据集。3.根据权利要求2所述的方法,其特征在于,S4中形成的历史语义路径集HR={hr1,hr2,
…
,hr
19
},其中hr1,hr2,
…
,hr
19
依次对应数据A
‑
S的访问历史语义路径集,hr1,hr2,
…
,hr
19
中每一个都含有多条不同的路径,其条数集记作其中自然数k1…
k
19
∈[0,K]其中K为当前访问历史语义路径集HR中最大重数,分别表示对应各数据A
‑
S的路径的重数。4.根据权利要求2所述的方法,其特征在于,其中,邻居节点级别的注意力机制的建立包括:S5
‑
1给定通过直接路径ρ连接的数据邻居节点对(i,j),将重要性定义为基于直接路径ρ的节点对(i,j)的重要性公式可以如下表示:其中h
i
,h
j
分别代表的是十九个数据中其中一类数据i和另一类邻居数据j的特征表示,ρ代表的连接两个节点的直接路径,Att
node
是执行节点注意力机制的深层神经网络,在给定的同一条采样路径下,所有目标节点i的邻居都是通过相同的采样模式被采样到,因此对于给定采样直接路径ρ,所有基于采样路径的节点对都共享Att
node
;S5
‑
2通过softmax函数对重要性做归一化的处理,得到直接路径的访问概率:其中a
ρ
∈R
2d
代表的是路径ρ的节点级注意力向量,||表示拼接操作,使用LeakyReLU作为激活函数,为与数据节点i相连的所有节点个数;S5
‑
3得到十九个数据端点的特征表示即为其中表示的是节点i在给定直接路径ρ上融合邻居节点影响因素的学习到的特征表示,即邻居节点融合特征,所述基于所述十九个数据端点的邻居节点融合特征建立步骤S4的访问历史语义
路径集HR中的多重路径另一端数据节点访问表示,形成条路径的各路径访问概率具体包括:S5
‑
4同时将节点级注意力机制重复K次,并将每...
【专利技术属性】
技术研发人员:郭琳,卫炜,张寅,邢雪,翟光辉,张宇洁,王纪峰,庞嫣然,
申请(专利权)人:农业农村部大数据发展中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。