当前位置: 首页 > 专利查询>九江学院专利>正文

一种用于时空数据的Top-k频率计算方法技术

技术编号:20866337 阅读:52 留言:0更新日期:2019-04-17 09:19
一种用于时空数据的Top‑k频率计算方法,首先通过网状存储方式将数据分类处理后,再进行R‑Tree模型索引方式进行索引,以减少用于时空数据的存储开销,而后对存储的时空数据进行Top‑k频率计算,通过改进STL算法的λ值计算属性,使得非叶子节点的频率列表的创建更具实际意义,减少了节点的重复使用,从而加快查询速率,提高查询效率。

【技术实现步骤摘要】
一种用于时空数据的Top-k频率计算方法
本专利技术涉及数据频率计算
,尤其涉及一种用于时空数据的Top-k频率计算方法。
技术介绍
在社交网站上,如微博、微信、qq等,用户可以对自己发布的信息进行时间和空间的标记,而这些标记将产生新的数据分析问题,如用于检测流行的主题趋势或流行的站点以及频繁的访问轨迹,诸如营销公司感兴趣的是对于当前主流趋势的了解,并关注相关的产品,从而了解市场动态,提前掌握商机,但随之带来的是巨量数据存储的成本问题。用户可以指定在一定的时间和空间范围通过术语查找已发布的信息,而在这个时间和空间范围内找到K个最频繁的术语查询,称作Top-k的时空术语频率(TimeandSpaceTerminologyFrequency,TSTF)查询,例如,查询者指定当前位置为查询地区,过去一月为查询范围,即可得到在过去一个月内,所查询的位置上的流行术语。Hu,J.为此定义了一种新型的相关性函数,考虑文本的相似性和空间距离,进而提出了一种有效地索引结构RegronTrie,并基于RegronTrie提出了一种Top-k算法,使得原本只能进行精确匹配的术语查询,即使在查询的关键词与基础数据存在一定差异的条件下,也可使用模糊查询;DeFelipe,Chen,L.研究了一个最接近查询术语k个对象问题,通过对web网页上的数据文本进行研究,以将数据文本的内容与文本所在的位置结合起来;Cao,X.解决了一组包含查询术语的空间文本对象的问题,这些对象都具有较小的空间对象距离,其返回的是整篇内容。R.Ahuja考虑了空间和社会的变量,同样在一定范围内,查询高频率社交术语,根据用户在一定空间范围内的访问频率计算最Top-k的术语,因网络资源巨大,受具体门户网站的限制,因此,对于R.Ahuja来说,查询的速度无疑是非常缓慢;其次,网络资源的巨大与数据的大量冗余进而使得R.Ahuja浪费巨大的存储空间。PritomAhmed在处理TSTF问题上,首先提出了一种方案,以下称为STL(SortedTermsLists,STL),其中包括数据的存储索引结构,这种结构只在R-Tree模型(如图3)的叶子节点存储处理过后的术语信息(如图4),该术语频度包括术语的关键字、术语来源的时空信息、以及术语的使用频度,并根据术语使用频度的大小在R-Tree模型的也节点上按照术语频度的大小进行从大到小的排序。与我们不同的是,我们采用网状与树状结构相结合的方式。先用网状对未被处理过的数据进行分类,再按R-Tree模型进行索引。相比,我们的存储方式节约了大量的存储空间。其次,STL的术语权值排序是按照使用的频度进行排序,而我们则是根据特定的算法计算出各术语权重,在根据术语的权重从大到小排序。STL术语排序方式在一定程度上会将意义不大的但是使用频度高关键字排在前面。而我们的排序方式侧重的术语的实际意义。最后PritomAhmed提出了一种缩减R-Tree模型中叶子节点向父节点传递术语是的长度缩减算法(STL-λ)。STL-λ的算法对zipf(如果把每个单词出现的频度按由大到小的顺序排列,则每个的单词出现的频度与它的排名的常数次幂存在简单的反比关系)做了推广,使之用于TSTF问题。具体的做法是当查询非叶子节点的的Top-k术语频度时,计算出Top-k查询中排名为k的频度,再从该父节点的所有子节点中裁剪出频度大于k的频度的术语,并向上传递,用于合并或者再传递。而我们的算法只从父节点的所有叶子节点裁剪出频度大于k的频度的术语,并向上传递,用于合并或者再传递。避免了术语的重复处理,从而缩短了查询时间。
技术实现思路
本专利技术所解决的技术问题在于提供一种用于时空数据的Top-k频率计算方法,以解决上述
技术介绍
中的缺点。本专利技术所解决的技术问题采用以下技术方案来实现:一种用于时空数据的Top-k频率计算方法,首先通过网状存储方式将数据分类处理后,再进行R-Tree模型索引查询,以减少用于时空数据的存储开销,而后对存储的时空数据进行Top-k频率计算,以提高返回的Top-k术语的主动有效性,进而提高查询效率,具体步骤如下:1)设置拥有区域V={,,…,}是一个在所有查询范围内有N个对象的数据集合,其中,每个对象∈V对应的是一定的空间和时间内的所有文章,每个对象拥有三个属性<D.a,D.loc,D.time>,D.loc表示位置,D.time表示在该位置上的具体时间,D.a表示在该位置上具体时间包含的所有文章合A,A={,,…,},其中,oN表示在该位置上具体时间内的一篇文章,包含一个属性<o.terms>,o.terms={,,…}表示该文章的术语集合,包括重复项;经计算,得到频率f(t),一个词的频率t∈V表示为f(t)={(t)+(t)+…+(t),(t)表示在一篇文章o.terms中出现的次数,再设置一个感兴趣的区域R、一个时间范围T,t的频率表示为(t)={|.locR,.timeT};定义区域查询TSTF,TSTF是由<R,k>属性定义,R表示感兴趣的区域,k表示输出项的数量,目标是找到前k项,并按照频率f(t)进行由大到小排序:,,…,,其频率为(),(),…,f(),其中()是所有频率中最大项;定义权值频率计算MATF(A),MATF(A)以所有查询区域内的文章集合A为输入,计算该拥有区域出现过的所有术语t的权值频率,并返回已排序的ATL列表;计算术语的权值频率大小,使得Top-k排序的术语更具有现实意义,在某些语言中,单纯使用计算出现频率的方法进行Top-k排序,在实际上意义并不大,为此采用MATL(Multi-AreaTermsFrequency,MATF)方法计算ATL(AreaTermsList,ATL)的术语频率;定义ATL长度λ,λ由数量频率排名中术语t出现次数和t的排名频p决定,目标是计算生成非叶子节点的ATL所需的叶子节点的ATL长度,C为zipf的一个常数,Lx是所有术语的数量和,R为感兴趣的区域,包含ATL,k表示用户感兴趣的Top-k项,FW为字典类型,FW值为R区域包含的叶子节点所有排名为P的术语期望,F表示为R区域排名为k的术语的期望;2)获取数据文本后,根据数据文本标注的时间和空间进行分类,采用网状结构进行分类,在同一区域内,根据所需分为多个时间段进行存储,在一个时间段内,根据文章标记事件的空间进行严格的分类;而后在数据已经由时空进行初步分类的前提下,使用R-Tree状的结构模型将所有的数据文本进行分类,分类方式按照数据来源地区进行分类;3)在所得数据文本已经被获取,且已经按照时间段进行分类的条件下,采用只在叶子节点的方式存储基础数据,这种存储方式是只在R-Tree的叶子节点上建立一个ATL存储节点,当进行Top-K查询时,非叶子部分的查询由子节点的叶子节点向上层递进叠加得到,使用ATL-L方式索引数据,可保证所有的基础数据只存储一次,大大节约存储空间;尽管上述存储结构节约了大量的存储空间,但在基础数据异常庞大时,节约的存储空间还远远不够,于是对每一个叶子节点进一步加工,不再是单纯地存储数据集合,而是将数据集合进行处理之后,再存储术语集合,这种结构可避免一个区域内因术语重复出本文档来自技高网
...

【技术保护点】
1.一种用于时空数据的Top‑k频率计算方法,其特征在于,具体步骤如下:1)设置拥有区域V={

【技术特征摘要】
1.一种用于时空数据的Top-k频率计算方法,其特征在于,具体步骤如下:1)设置拥有区域V={,,…,}是一个在所有查询范围内有N个对象的数据集合,其中,每个对象∈V对应的是一定的空间和时间内的所有文章,每个对象拥有三个属性<D.a,D.loc,D.time>,D.loc表示位置,D.time表示在该位置上的具体时间,D.a表示在该位置上具体时间包含的所有文章合A,A={,,…,},其中,oN表示在该位置上具体时间内的一篇文章,包含一个属性<o.terms>,o.terms={,,…}表示该文章的术语集合;经计算,得到频率f(t),一个词的频率t∈V表示为f(t)={(t)+(t)+…+(t),(t)表示在一篇文章o.terms中出现的次数,再设置一个感兴趣的区域R、一个时间范围T,t的频率表示为(t)={|.locR,.timeT};定义区域查询TSTF,TSTF是由<R,k>属性定义,R表示感兴趣的区域,k表示输出项的数量,目标是找到前k项,并按照频率f(t)进行由大到小排序:,,…,,其频率为(),(),…,f(),其中()是所有频率中最大项;定义权值频率计算MATF(A),MATF(A)以所有查询区域内的文章集合A为输入,采用MATL方法计算该拥有区域出现过的所有术语t的权值频率,并返回已排序的ATL列表;定义ATL长度λ,λ由数量频率排名中术语t出现次数和t的排名频p决定,目标是计算生成非叶子节点的ATL所需的叶子节点的ATL长度,C为zipf的一个常数,Lx是所有术语的数量和,R为感兴趣的区域,包含ATL,k表示用户感兴趣的Top-k项,FW为字典类型,FW值为R区域包含的叶子节点所有排名为P的术语期望,F表示为R区域排名为k的术语的期望;2)获取数据文本后,根据数据文本标注的时间和空间进行分类,采用网状结构进行分类,而后在数据已经由时空进行初步分类的前提下,使用R-Tree状的结构模型将所有的数据文本进行分类;3)在所得数据文本已经被获取,且已经按照时间段进行分类的条件下,采用只在R-Tree叶子节点上建立ATL存储节点的方式存储基础数据,当进行Top-K查询时,非叶子部分的查询由子节点的叶子节点向上层递进叠加得到;为进一步节约存储空间,对每一个叶子节点再次进行加工,首选将数据集合进行处理之后,再存储术语集合,具体算法如下:首先计算一个术语在该篇文章中的词数频率TNF,即术语t在文章中出现的数量TN除以该文章的总术语数TA,而TS表示术语t在所有文档中出现的文档数,采用求平均值的方式计算术语t的词数频率,以...

【专利技术属性】
技术研发人员:崔宗敏鲁志兴喻静
申请(专利权)人:九江学院
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1