当前位置: 首页 > 专利查询>云南大学专利>正文

空间高效用co‑location模式挖掘方法技术

技术编号:16546859 阅读:35 留言:0更新日期:2017-11-11 11:41
本发明专利技术公开了一种新的空间高效用co‑location模式挖掘方法,根据距离阈值获得各个实例间的邻近关系;通过邻近关系计算2阶的空间co‑location模式的表实例;根据模式的表实例计算每个特征的效用参与率;然后通过效用参与率确定每个特征的效用权重,再计算模式的模式效用度;接着判断PUI(c)是否大于效用阈值ξ;若PUI(c)<ξ,使用最大特征效用率算法对模式的高阶模式进行剪枝,即不再计算该模式c的所有高阶模式;生成k+1阶候选模式,对k+1阶候选模式重复如上的处理;当不再能生成高阶的候选模式时,得到完整的空间高效用模式集合。解决了空间实例带效用的co‑location高效用模式的挖掘问题。

Space efficient pattern mining method with CO location

The present invention discloses a new space mining method for efficient co location mode, according to the distance threshold of adjacent relation between each instance; through the calculation of 2 order spatial neighborhood relation co location model example; the calculation of each feature according to the mode of the utility table instance participation rate; then the utility participation rate the utility to determine the weights of each feature, then calculate the utility mode; then judge PUI (c) is greater than the threshold. If the utility of PUI (c); < E, shear branches using high order modes to the maximum utility rate algorithm, that is no longer the calculation mode of C all high order modes; generate k+1 order candidate mode, processing of k+1 order candidate patterns to repeat this; when it is no longer possible to generate the candidate model of high order, get the full space efficient mode set. To solve the case with the co utility space location mining model with high efficiency.

【技术实现步骤摘要】
空间高效用co-location模式挖掘方法
本专利技术属于空间并置模式挖掘
,特别是涉及一种空间高效用co-location模式挖掘方法。
技术介绍
空间co-location模式是指空间特征的实例在邻近区域内频繁同时出现的空间特征子集。例如在公共交通领域,交通拥堵、车祸现场和警察的出现频繁并置(co-located)。空间co-location模式挖掘是空间数据挖掘领域的一个重要研究方向。在空间数据库中,不同的空间特征代表了不同类型的空间对象,通常用F={f1,f2,....,fn}来表示空间数据库中出现的特征集合。在空间数据库中所挖掘到的空间co-location模式c是F的一个子集,一个模式c的长度称为此co-location模式的阶,例如{A,B,C}是一个3阶co-location模式。在空间数据库中,每个特征都包含了许多属于该特征的空间实例,通常用三元组<特征名,实例编号,地理位置>表示一个空间实例,如图1中A.1。如果两个空间实例的欧几里得距离满足用户给定的距离阈值d,那么就称这两个空间实例满足邻近关系,在图中用实线连接,如图1中A.2和B.1。设有一个空间实例集I={i1,i2,...,im},如果I中两两实例都满足邻近关系,那么就称I是一个团实例。如果团实例I包含了co-location模式c中的所有特征,并且I中没有任何一个子集包含c中所有的特征,那么I被称为模式c的一个行实例,co-location模式c的所有行实例的集合称为表实例,记为table_instance(c)。例如图1中,模式{A,B,E}的表实例为table_instance({A,B,E})={{A.2,B.1,E.2},{A.2,B.1,E.5}}。在传统的co-location模式挖掘中使用参与度PI(participationindex)来度量一个模式的流行程度,而PI是参与率PR(participationratio)的最小值。设fi为某个空间特征,fi在co-location模式c中的参与率定义为fi的实例在c的表实例中不重复出现的个数与fi总实例个数的比率,表示为:co-location模式c的参与度PI表示为模式c的所有空间特征的PR值中的最小值:当PI(c)大于用户所给的最小参与度阈值,那么这个模式就认为是一个流行(频繁)模式。在图1中,模式{A,E}的参与度PI({A,C})=min{2/4,2/2}=2/4,若参与度阈值为0.2,则模式{A,C}是一个频繁模式。空间高效用co-location模式的挖掘是结合了co-location模式挖掘和事务数据库的高效用模式挖掘的特性,对频繁邻近出现且效用值较高的模式进行挖掘。在频繁的co-location模式挖掘体系中,一般以特征实例参与并置的程度度量co-location模式的有趣性。这种传统的频繁co-location模式挖掘方法容易忽视那些不频繁出现,但是却至关重要的模式,所以文献[1-2]提出了空间高效用co-location模式挖掘(文献1:Yang.S,Wang.L,Bao.X,andLu.J.Aframeworkforminingspatialhighutilityco-locationpatterns[C]//Procofthe12thInternationalConferenceonFuzzySystemsandKnowledgeDiscovery(FSKD′15).2015:631-637;文献2:Wang.L,Jiang.W,Chen.H,Fang.Y.EfficientlyMiningHighUtilityCo-locationPatternsfromSpatialDataSetswithInstance-SpecificUtilities[C]//Procof22ndInternationalConferenceonDatabaseSystemforAdvancedApplications(DASFAA2017).2017:458-474)。与传统的空间co-location模式挖掘不同,在空间高效用co-location模式挖掘中,不再将参与度(PI)作为有趣模式的度量指标,而是将模式的效用值作为兴趣度。目前空间高效用co-location模式挖掘主要分为两种方法:特征带效用:在文献[1]中提出的方法,通过将模式c中的各个特征的价值(同一特征的实例价值相同)V(fi)相加得到整个模式c的效用值,表示为通过计算u(c)与整个数据库的总效用U(S)的比值来衡量模式c是否是一个高效用模式。文献[3](Wang.X,Wang.L,J.Lu,L.Zhou.EffectivelyUpdatingHighUtilityCo-locationfromSpatialDatabase[C]//Procofthe17thWeb-AgeInformationManagement,Berlin:Springer-Verlag,2016:67-79)基于文献[1]的理论体系在动态空间数据库中研究了高效用co-location模式的挖掘。实例带效用:在文献[2]中考虑了每个实例的不同价值,并且考虑在模式中特征之间的相互影响,定义特征效用参与率UPR和特征效用参与度UPI来衡量高效用co-location模式的兴趣度。以上两种方法存在的问题:方法1固定了每个特征的单位价值,特征在模式中的效用就是单位价值与参与模式的实例个数乘积,然后将这些特征的效用相加得到模式的总效用。这存在一定的不合理性,空间数据讲究实例的独立性和相关性,简单的将各个特征在模式中的效用相加并没有考虑特征间的特异性和是否可加性。特征的效用相差极大时,简单的累加各个特征参与的效用并不是十分的合理。挖掘的结果往往包含了许多不尽合理的“高效用”模式。方法2的问题在于,考虑了不同特征对效用的影响,但没有客观地度量这种影响。它要求所有的特征的效用参与率都必须大于阈值,这个模式才是高效用的。那么假设一个特征价值很小,但是它几乎所有价值都参与到了模式实例中,那么这样的模式应该也是高效用模式,但是使用方法2,这样的模式将会被判定为非高效用的,这是不合理的。另外,在方法2中,尽管在计算某个特征的效用率时,考虑了其他特征对该特征的影响,但影响的程度是人为设定的,这样并不能很好的反映出模式中各特征效用的真实情况。还有,方法2太过注重每一个特征实例的参与性,沿用了传统频繁co-location模式参与度的度量形式,忽略了一些效用值很小,但对模式的效用贡献很大的特征和模式,所以也存在一定的不合理性。所以现在急需一种更为合理的空间高效用co-location模式新概念及相应的挖掘算法,来更好地完成空间高效用co-location模式的挖掘。
技术实现思路
本专利技术实施例的目的在于提供一种空间高效用co-location模式挖掘方法,解决了空间实例带效用的co-location高效用模式的挖掘问题,能够更加合理的分析和处理了空间数据库中频繁邻近出现且效用值极高的特征集合,有益于分析空间数据库中的效用分布情况。本专利技术所采用的技术方案是,一种空间高效用co-location模式挖掘方法,按照以下步骤本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710446616.html" title="空间高效用co‑location模式挖掘方法原文来自X技术">空间高效用co‑location模式挖掘方法</a>

【技术保护点】
一种空间高效用co‑location模式挖掘方法,其特征在于,按照以下步骤进行:步骤A:根据距离阈值获得各个实例间的邻近关系;步骤B:通过邻近关系计算得到2阶的空间co‑location模式的表实例,所有的2阶模式形成2阶候选模式C2;k阶候选模式表示为Ck;步骤C:针对每个Ck中的模式c,先计算每个特征在模式c中的效用参与率FUR(fi,c);然后通过效用参与率确定每个特征的效用权重ω(fi,c),再计算模式c的模式效用度PUI(c);步骤D:若PUI(c)≥效用阈值ξ,则模式c是高效用模式,将其放入高效用模式集Uhigh中;若PUI(c)<ξ,可使用最小特征参与率算法或最大特征参与率算法进行剪枝;最小特征参与率剪枝:首先可获得该模式的相关模式Sc(c)以及相关特征,接着判断模式c中

【技术特征摘要】
1.一种空间高效用co-location模式挖掘方法,其特征在于,按照以下步骤进行:步骤A:根据距离阈值获得各个实例间的邻近关系;步骤B:通过邻近关系计算得到2阶的空间co-location模式的表实例,所有的2阶模式形成2阶候选模式C2;k阶候选模式表示为Ck;步骤C:针对每个Ck中的模式c,先计算每个特征在模式c中的效用参与率FUR(fi,c);然后通过效用参与率确定每个特征的效用权重ω(fi,c),再计算模式c的模式效用度PUI(c);步骤D:若PUI(c)≥效用阈值ξ,则模式c是高效用模式,将其放入高效用模式集Uhigh中;若PUI(c)<ξ,可使用最小特征参与率算法或最大特征参与率算法进行剪枝;最小特征参与率剪枝:首先可获得该模式的相关模式Sc(c)以及相关特征,接着判断模式c中都有FUR(fi,c)<ξ,且c的相关特征在Sc(c)中的效用参与率的最小值中的最大值小于ξ,那么,模式c的所有高阶模式不可能是高效用模式,将c模式并入Pp集合中;最大特征效用率剪枝:同样先获得该模式的相关模式Sc(c)以及相关特征,将每个相关特征在各个相关模式中的交集表示为Ifi(fi,c),接着判断模式c中所有特征的效用参与率FUR(fi,c)是否小于效用率阈值ξ,当所有的FUR(fi,c)都小于ξ时,计算相关特征的最大特征参与率RUR(fi,c),若RUR的最大值<ξ,可对模式c的高阶模式进行剪枝,将c模式加入Pp集合中;步骤E:生成k+1阶候选模式,所有k+1阶模式均为候选模式;将Pp集合中模式的高阶模式从k+1阶候选模式中删...

【专利技术属性】
技术研发人员:王丽珍王晓璇方圆
申请(专利权)人:云南大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1