System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据库查询领域,尤其涉及一种时空关键字的查询方法和装置。
技术介绍
1、随着定位技术的发展及社交媒体的广泛使用,每天产生着海量的时空关键字数据。时空关键字记录了用户在网络发布的文字信息的及对应的时间与位置信息。这些信息可以提供有关用户行为、活动和地点的洞察力,从而帮助企业、政府机构和学术研究人员了解社会动态、趋势和人们的行为模式。时空关键字查询是一种重要的数据库查询技术,指的是判断一个时间、空间、关键字的组合是否存在于数据库当中。
2、现有技术中,一般通过哈希表或布隆过滤器的数据结构查询时空关键字是否存在于数据库中。通过将查询值映射到哈希表的键值,可以在o(1)的时间复杂度内返回结果。然而,哈希表的存储容量占比高,由于存在负载因子,哈希表的通过空间不能被占满,对于海量数据的索引,会占据很大的内存,因此哈希表的数据结构不适用于海量数据的查询。采用布隆过滤器的数据结构查询时空关键字,使用多个不同的映射函数得到多个哈希值,只有在二进制向量中所有对应位置都为1时,认为查询可能存在;相比于哈希表而言,布隆过滤器在空间上更为高效,但现有研究发现,利用布隆过滤器对1亿条记录进行索引,当要求假阳率低于0.01%时,占据的内存约2.23gigabytes。可见,采用布隆过滤器的数据格式进行时空关键字的查询同样面临着占据大量内存的问题。
技术实现思路
1、本专利技术所要解决的技术问题是,提供一种时空关键字的查询方法和装置,能够以较低的内存消耗,实现时空关键字的准确查询。
>2、为解决以上技术问题,本专利技术实施例提供一种时空关键字的查询方法,包括:
3、获取时间信息,根据所述时间信息的特性,得到时间特征;
4、获取空间信息,根据所述空间信息的特性,得到空间特征;
5、获取关键字信息,根据所述关键字信息的特性,得到关键字特征;
6、对所述时间特征、所述空间特征和所述关键字特征进行相关性融合,得到融合特征;所述融合特征包括融合时间特征、融合空间特征和融合关键字特征;
7、将所述融合特征输入至预训练的时空关键字查询模型中,得到模型查询结果;所述模型查询结果包括可能存在和不存在;
8、对所述模型查询结果为不存在的融合特征利用布隆过滤器进行查询,得到过滤器查询结果;所述过滤器查询结果包括可能存在和不存在;
9、根据所述模型查询结果和所述过滤器查询结果,综合得到时空关键字的查询结果。
10、作为上述方案的改进,所述预训练的时空关键字查询模型的训练方法,包括:
11、获取时空关键字数据库中的数据,作为正样本数据集;
12、将所述正样本数据集中的时间信息随机打乱,生成新的时空关键字组合,作为时间负样本数据集;
13、将所述正样本数据集中的空间信息随机打乱,生成新的时空关键字组合,作为空间负样本数据集;
14、将所述正样本数据集中的关键字信息随机打乱,生成新的时空关键字组合,作为关键字负样本数据集;
15、根据所述时间负样本数据集、所述空间负样本数据集和所述关键字负样本数据集,得到负样本数据集;
16、根据所述正样本数据集和所述负样本数据集,对所述时空关键字查询模型进行训练。
17、作为上述方案的改进,所述根据所述正样本数据集和所述负样本数据集,对所述时空关键字查询模型进行训练后,还包括:
18、获取所述时空关键字查询模型训练过程中查询结果为不存在的样本数据;
19、当所述查询结果为不存在的样本数据存在于所述正样本数据集中时,将所述查询结果为不存在的样本数据插入至布隆过滤器中。
20、作为上述方案的改进,所述将所述正样本数据集中的时间信息随机打乱,生成新的时空关键字组合,作为时间负样本数据集,包括:
21、获取正样本数据集{(l1,t1,k1),(l2,t2,k2),…,(ln,tn,kn)};其中,l表示空间信息,t表示时间信息,k表示关键字信息;
22、随机选择所述正样本数据集中的第i笔数据(li,ti,ki)和第j笔数据(lj,tj,kj);其中,1≤i≤n,1≤j≤n,i≠j;
23、交换所述第i笔数据和所述第j笔数据中的时间信息的位置,得到两个新生成的时空关键字组合(li,tj,ki)和(lj,ti,kj);
24、当所述新生成的时空关键字组合不存在于所述正样本数据集中时,将新生成的时空关键字的组合添加至时间负样本数据集中;
25、当所述时间负样本数据集中的数据的数量不小于预设的数量时,得到时间负样本数据集。
26、作为上述方案的改进,所述布隆过滤器包括一个二值向量和三组哈希函数,其中,每组哈希函数中包括f个哈希函数,f≥1,且每组哈希函数之间相互独立,分别负责时间、空间和关键字信息的查询;
27、则所述对所述模型查询结果为不存在的融合特征利用布隆过滤器进行查询,得到过滤器查询结果;所述过滤器查询结果包括可能存在和不存在,包括:
28、将所述模型查询结果为不存在的融合特征输入至布隆过滤器中,得到时间特征哈希值、空间特征哈希值和关键字特征哈希值;
29、若在所述布隆过滤器的所述二值向量中,所述时间特征哈希值、所述空间特征哈希值和所述关键字特征哈希值对应位置的数值都为1,则,过滤器查询结果为可能存在;否则,过滤器查询结果为不存在。
30、作为上述方案的改进,所述对所述时间特征、所述空间特征和所述关键字特征进行相关性融合,得到融合特征,包括:
31、根据所述空间特征、所述关键字特征与所述时间特征的互相关性和所述时间特征的自身相关性,得到融合时间特征;
32、根据所述时间特征、所述关键字特征与所述空间特征的互相关性和所述空间特征的自身相关性,得到融合空间特征;
33、根据所述时间特征、所述空间特征与所述关键字特征的互相关性和所述关键字特征的自身相关性,得到融合关键字特征;
34、组合所述融合时间特征、所述融合空间特征和所述融合关键字特征,得到融合特征。
35、作为上述方案的改进,所述根据所述时间特征、所述关键字特征与所述空间特征的互相关性和所述空间特征的自身相关性,得到融合空间特征,包括:
36、将所述时间特征、所述空间特征和所述关键字特征输入至预设的特征融合模型中;所述特征融合模型共有m个head,每个head有u层神经网络;
37、计算得到在第m个head的第u层神经网络中所述时间特征与所述空间特征的互相关性所述关键字特征与所述空间特征的互相关性和所述空间特征的自身相关性其中,1≤m≤m,1≤u≤u;
38、对和进行归一化处理,分别得到第m个head的第u层神经网络的空间特征的权重因子;所述权重因子包括第m个head的第u-1层神经网络的时间特征、空间特征和关键字特征的权重;
39本文档来自技高网...
【技术保护点】
1.一种时空关键字的查询方法,其特征在于,包括
2.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述预训练的时空关键字查询模型的训练方法,包括:
3.如权利要求2所述的一种时空关键字的查询方法,其特征在于,在所述根据所述正样本数据集和所述负样本数据集,对所述时空关键字查询模型进行训练后,还包括:
4.如权利要求2所述的一种时空关键字的查询方法,其特征在于,所述将所述正样本数据集中的时间信息随机打乱,生成新的时空关键字组合,作为时间负样本数据集,包括:
5.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述布隆过滤器包括一个二值向量和三组哈希函数,其中,每组哈希函数中包括f个哈希函数,f≥1,且每组哈希函数之间相互独立,分别负责时间、空间和关键字信息的查询;
6.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述对所述时间特征、所述空间特征和所述关键字特征进行相关性融合,得到融合特征,包括:
7.如权利要求6所述的一种时空关键字的查询方法,其特征在于,所述根据所述时间特征、所述关
8.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述获取时间信息,根据所述时间信息的特性,得到时间特征包括:
9.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述获取空间信息,根据所述空间信息的特性,得到空间特征,包括:
10.一种时空关键字的查询装置,其特征在于,包括:
...【技术特征摘要】
1.一种时空关键字的查询方法,其特征在于,包括
2.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述预训练的时空关键字查询模型的训练方法,包括:
3.如权利要求2所述的一种时空关键字的查询方法,其特征在于,在所述根据所述正样本数据集和所述负样本数据集,对所述时空关键字查询模型进行训练后,还包括:
4.如权利要求2所述的一种时空关键字的查询方法,其特征在于,所述将所述正样本数据集中的时间信息随机打乱,生成新的时空关键字组合,作为时间负样本数据集,包括:
5.如权利要求1所述的一种时空关键字的查询方法,其特征在于,所述布隆过滤器包括一个二值向量和三组哈希函数,其中,每组哈希函数中包括f个哈希函数,f≥1,且每组哈希函数之间相互独立,分别负责时...
【专利技术属性】
技术研发人员:李冠耀,刘洋,韩文超,黄淑娟,赵传宝,张啸,程晓晖,
申请(专利权)人:广州市城市规划勘测设计研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。