一种基于向量模型的海量时空数据检索方法及系统技术方案

技术编号:15329769 阅读:43 留言:0更新日期:2017-05-16 13:22
本发明专利技术公开了一种基于向量模型的海量时空数据检索方法及系统,方法包括:将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;根据需检索的目标条件向量,将时空数据向量进行降维处理;将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。系统包括时空数据向量表示模块、时空数据向量降维模块、时空数据向量运算模块和检索结果判断模块。本发明专利技术能减少要查询的数据量,大大减少计算复杂度,有效提到检索效率。本发明专利技术可广泛应用于检索领域中。

Method and system for retrieving large spatiotemporal data based on vector model

The invention discloses a method and system for searching, massive spatio-temporal data based on vector model method includes event space and problem space vector data processing, spatio-temporal data vector; according to the target condition requires retrieval vector will spatio-temporal data vectors for dimensionality reduction; for each dimension vector will drop the spatio-temporal data vector and the target vector dimension condition after the treatment; to judge the vector operation results, selected to meet the preset condition vector calculation results, obtained the corresponding retrieval results. The system consists of spatio-temporal data vector representation module, spatio-temporal data vector dimension reduction module, spatio-temporal data vector operation module and retrieval result decision module. The invention can reduce the amount of data to be searched, greatly reduce the computational complexity, and effectively mention the retrieval efficiency. The invention can be widely applied to the retrieval field.

【技术实现步骤摘要】
一种基于向量模型的海量时空数据检索方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于向量模型的海量时空数据检索方法及系统。
技术介绍
在现今的大数据时代,面对如此众多的数据,在合理的时间内返回查询结果,从而帮助决策成为了一个迫切需要解决的问题。比如公安干警在刑侦破案的时候,定位到了犯罪嫌疑人,那么就可以通过旅业、航班、铁路等海量的数据,根据和犯罪嫌疑人可能的潜在关联关系,查找出该犯罪嫌疑人的嫌疑团伙成员。在该场景中,挖掘潜在的关联关系大多是在时间或空间上和犯罪嫌疑人有关系的,公安部门拥有的数据数以百亿计,数据格式涉及表格、文本等多种多样,在如此海量形式各样的数据中,在合理可接受的时间范围内发掘出潜在的关联关系,给公安部门提供了不小的挑战。如若不能在合理可接受的时间内返回查询结果,错过了最佳抓捕时机,给予嫌疑人的逃窜隐藏的时间,会给后续破案带来不可预估的影响,为社会安全带来潜在的危害。如此看来,在海量数据中进行高速有效的时空查询是极具价值的。但是虽然有迫切的需求,现在关系型数据库(RDBMS)对时空数据的支持却是有限和不充分的,现有的时空数据目录也不能很好的整合到RDBMS中。在对时空数据的研究中,对时间性数据的研究更多,而对时间和空间数据的研究并不足够。目前对时空数据的查询大多使用的是关系型数据库,处理的多是结构化数据,对文本、图表、图片等形式的半结构化或非结构化数据处理效果并不十分理想。其以时空为查询条件的模型表达能力有限,在待处理的数据量很大时,又面临查询时间过长的问题。近年来,针对大数据的处理框架趋于成熟,比如MapReduce,在处理海量数据时有较为良好的性能。但如若直接处理,不采用优化缓存等措施,效果会比传统数据库好,但某些数据会被反复处理,中间结果存储于磁盘时,由于磁盘寻道时间长等导致的IO瓶颈,浪费了运算资源,降低了处理速度。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种能提高检索速度的一种基于向量模型的海量时空数据检索方法及系统。本专利技术所采取的技术方案是:一种基于向量模型的海量时空数据检索方法,包括以下步骤:将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;根据需检索的目标条件向量,将时空数据向量进行降维处理;将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述的根据需检索的目标条件向量,将时空数据向量进行降维处理,这一步骤具体为:根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述向量运算包括时间点维度运算、时间段维度运算、欧几里得运算、曼哈顿运算、衍生空间属性运算和关系运算。作为所述的一种基于向量模型的海量时空数据检索方法的进一步改进,所述的将事件空间和问题空间的数据进行向量化处理,得到时空数据向量,这一步骤之后还包括有:将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。本专利技术所采用的另一技术方案是:一种基于向量模型的海量时空数据检索系统,包括:时空数据向量表示模块,用于将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;时空数据向量降维模块,用于根据需检索的目标条件向量,将时空数据向量进行降维处理;时空数据向量运算模块,用于将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;检索结果判断模块,用于对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量降维模块具体为:根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量运算模块包括时间点维度运算模块、时间段维度运算模块、欧几里得运算模块、曼哈顿运算模块、衍生空间属性运算模块和关系运算模块。作为所述的一种基于向量模型的海量时空数据检索系统的进一步改进,所述时空数据向量表示模块之后还包括有:时空数据层级索引构建模块,用于将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。本专利技术的有益效果是:本专利技术一种基于向量模型的海量时空数据检索方法及系统根据时空数据的各个属性维度特点,建立通用的向量表示,然后通过将得到时空数据向量降维处理,并通过该向量与目标条件向量进行运算,结合向量检索模型从而得到满足条件的数据结果,这样能减少要查询的数据量,大大减少计算复杂度,有效提到检索效率。而且,本专利技术还构建了垂直层级索引,大大提高了检索速度。附图说明下面结合附图对本专利技术的具体实施方式作进一步说明:图1是本专利技术一种基于向量模型的海量时空数据检索方法的步骤流程图;图2是本专利技术一种基于向量模型的海量时空数据检索系统的模块方框图。具体实施方式参考图1,本专利技术一种基于向量模型的海量时空数据检索方法,包括以下步骤:将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;根据需检索的目标条件向量,将时空数据向量进行降维处理;将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。进一步作为优选的实施方式,所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。其中,基本空间属性维度为基本的位置信息如GPS,衍生空间属性维度为如车次、身份证号、籍贯等信息。进一步作为优选的实施方式,所述的根据需检索的目标条件向量,将时空数据向量进行降维处理,这一步骤具体为:根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。进一步作为优选的实施方式,所述向量运算包括时间点维度运算、时间段维度运算、欧几里得运算、曼哈顿运算、衍生空间属性运算和关系运算。进一步作为优选的实施方式,所述的将事件空间和问题空间的数据进行向量化处理,得到时空数据向量,这一步骤之后还包括有:将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。优选的,所述层级索引通过对时间和基本空间属性进行哈希映射,将较大数据集的检索拆分成了较小数据集的检索,使得对数据的检索效率得以提高。而且,将数据进行切分为多个数据集,从而可以并行处理,进一步提高检索速度。所述层级索引采用了多层映射。当数据经过第一层级时,通过函数将数据映射到多个Bucket中,实现了将大数据划分为较本文档来自技高网
...
一种基于向量模型的海量时空数据检索方法及系统

【技术保护点】
一种基于向量模型的海量时空数据检索方法,其特征在于,包括以下步骤:将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;根据需检索的目标条件向量,将时空数据向量进行降维处理;将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。

【技术特征摘要】
1.一种基于向量模型的海量时空数据检索方法,其特征在于,包括以下步骤:将事件空间和问题空间的数据进行向量化处理,得到时空数据向量;根据需检索的目标条件向量,将时空数据向量进行降维处理;将降维处理后的时空数据向量与目标条件向量的每一个维度进行向量运算;对向量运算结果进行判断,筛选出满足预设条件的向量运算结果,得出对应的检索结果。2.根据权利要求1所述的一种基于向量模型的海量时空数据检索方法,其特征在于:所述时空数据向量包括时间点属性维度、时间段属性维度、基本空间属性维度和衍生空间属性维度。3.根据权利要求1所述的一种基于向量模型的海量时空数据检索方法,其特征在于:所述的根据需检索的目标条件向量,将时空数据向量进行降维处理,这一步骤具体为:根据需检索的目标条件向量的各个维度,将时空数据向量从高维属性空间映射到对应的低维属性空间,得到降维处理后的时空数据向量。4.根据权利要求1所述的一种基于向量模型的海量时空数据检索方法,其特征在于:所述向量运算包括时间点维度运算、时间段维度运算、欧几里得运算、曼哈顿运算、衍生空间属性运算和关系运算。5.根据权利要求1所述的一种基于向量模型的海量时空数据检索方法,其特征在于:所述的将事件空间和问题空间的数据进行向量化处理,得到时空数据向量,这一步骤之后还包括有:将时空数据向量根据设定的层级索引,对设定的维度进行多层函数映射,划分得到多个数据集。6.一种基于向量模型的海量时空数...

【专利技术属性】
技术研发人员:赵淦森李振宇廖智锐张奇支王欣明庄序填聂瑞华吴杰超任雪琦
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1