一种用于时空数据的Top-k频率计算方法技术

技术编号：20866337 阅读：52 留言：0更新日期：2019-04-17 09:19

一种用于时空数据的Top‑k频率计算方法，首先通过网状存储方式将数据分类处理后，再进行R‑Tree模型索引方式进行索引，以减少用于时空数据的存储开销，而后对存储的时空数据进行Top‑k频率计算，通过改进STL算法的λ值计算属性，使得非叶子节点的频率列表的创建更具实际意义，减少了节点的重复使用，从而加快查询速率，提高查询效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于时空数据的Top-k频率计算方法
本专利技术涉及数据频率计算
，尤其涉及一种用于时空数据的Top-k频率计算方法。
技术介绍
在社交网站上，如微博、微信、qq等，用户可以对自己发布的信息进行时间和空间的标记，而这些标记将产生新的数据分析问题，如用于检测流行的主题趋势或流行的站点以及频繁的访问轨迹，诸如营销公司感兴趣的是对于当前主流趋势的了解，并关注相关的产品，从而了解市场动态，提前掌握商机，但随之带来的是巨量数据存储的成本问题。用户可以指定在一定的时间和空间范围通过术语查找已发布的信息，而在这个时间和空间范围内找到K个最频繁的术语查询，称作Top-k的时空术语频率（TimeandSpaceTerminologyFrequency，TSTF）查询，例如，查询者指定当前位置为查询地区，过去一月为查询范围，即可得到在过去一个月内，所查询的位置上的流行术语。Hu，J.为此定义了一种新型的相关性函数，考虑文本的相似性和空间距离，进而提出了一种有效地索引结构RegronTrie，并基于RegronTrie提出了一种Top-k算法，使得原本只能进行精确匹配的术语查询，即使在查询的关键词与基础数据存在一定差异的条件下，也可使用模糊查询；DeFelipe，Chen，L.研究了一个最接近查询术语k个对象问题，通过对web网页上的数据文本进行研究，以将数据文本的内容与文本所在的位置结合起来；Cao,X.解决了一组包含查询术语的空间文本对象的问题，这些对象都具有较小的空间对象距离，其返回的是整篇内容。R.Ahuja考虑了空间和社会的变量，同样在一定范围内，查询高频率...

【技术保护点】
1.一种用于时空数据的Top‑k频率计算方法，其特征在于，具体步骤如下：1）设置拥有区域V={

【技术特征摘要】
1.一种用于时空数据的Top-k频率计算方法，其特征在于，具体步骤如下：1）设置拥有区域V={，，…，}是一个在所有查询范围内有N个对象的数据集合，其中，每个对象∈V对应的是一定的空间和时间内的所有文章，每个对象拥有三个属性<D.a，D.loc，D.time>，D.loc表示位置，D.time表示在该位置上的具体时间，D.a表示在该位置上具体时间包含的所有文章合A，A={,，…,}，其中，oN表示在该位置上具体时间内的一篇文章，包含一个属性<o.terms>，o.terms={，，…}表示该文章的术语集合；经计算，得到频率f（t），一个词的频率t∈V表示为f(t)={(t)+(t)+…+(t)，(t)表示在一篇文章o.terms中出现的次数，再设置一个感兴趣的区域R、一个时间范围T，t的频率表示为(t)={|.locR，.timeT}；定义区域查询TSTF，TSTF是由<R，k>属性定义，R表示感兴趣的区域，k表示输出项的数量，目标是找到前k项，并按照频率f（t）进行由大到小排序：,，…，，其频率为（），（），…，f（），其中（）是所有频率中最大项；定义权值频率计算MATF(A)，MATF(A)以所有查询区域内的文章集合A为输入，采用MATL方法计算该拥有区域出现过的所有术语t的权值频率，并返回已排序的ATL列表；定义ATL长度λ，λ由数量频率排名中术语t出现次数和t的排名频p决定，目标是计算生成非叶子节点的ATL所需的叶子节点的ATL长度，C为zipf的一个常数，Lx是所有术语的数量和，R为感兴趣的区域，包含ATL，k表示用户感兴趣的Top-k项，FW为字典类型，FW值为R区域包含的叶子节点所有排名为P的术语期望，F表示为R区域排名为k的术语的期望；2）获取数据文本后，根据数据文本标注的时间和空间进行分类，采用网状结构进行分类，而后在数据已经由时空进行初步分类的前提下，使用R-Tree状的结构模型将所有的数据文本进行分类；3）在所得数据文本已经被获取，且已经按照时间段进行分类的条件下，采用只在R-Tree叶子节点上建立ATL存储节点的方式存储基础数据，当进行Top-K查询时，非叶子部分的查询由子节点的叶子节点向上层递进叠加得到；为进一步节约存储空间，对每一个叶子节点再次进行加工，首选将数据集合进行处理之后，再存储术语集合，具体算法如下：首先计算一个术语在该篇文章中的词数频率TNF，即术语t在文章中出现的数量TN除以该文章的总术语数TA，而TS表示术语t在所有文档中出现的文档数，采用求平均值的方式计算术语t的词数频率，以...

【专利技术属性】
技术研发人员：崔宗敏，鲁志兴，喻静，
申请(专利权)人：九江学院，
类型：发明
国别省市：江西,36

全部详细技术资料下载我是这个专利的主人