当前位置: 首页 > 专利查询>宁波大学专利>正文

一种低消耗的Apriori方法技术

技术编号:12653666 阅读:62 留言:0更新日期:2016-01-06 11:37
本发明专利技术涉及一种低消耗的Apriori方法,用于对智能移动终端的移动轨迹的关联移动规则进行挖掘,包括将移动节点移动轨迹的时间属性与空间属性一同作为挖掘对象数据,充分考虑移动轨迹的时间和空间双重属性,并且在由候选频繁项集生成频繁项集的过程中,缩小移动轨迹数据集扫描范围,减少获取候选项集的时间,从而达到低消耗的目的。相较于传统Apriori方法,本发明专利技术提供的Apriori方法适用于挖掘智能移动终端的移动轨迹关联规则。

【技术实现步骤摘要】

本专利技术设及。
技术介绍
如何在海量的数据中,挖掘其中隐藏的、人们感兴趣的知识,已经成为了一个研究 的热点。Agrawal等在1994年提出使用Apriori方法对顾客交易的数据库项之间的关联规 则进行挖掘,运种方法分成W下两部分来完成:首先,找出数据库中所有出现频率比最小支 持度大或者相等的频繁项集;然后,根据所得到的频繁项集来制定强关联规则,同时运些强 关联规则必须要满足最小可信度W及最小支持度运两个基本的条件。 从上面方法实现的两个部分可W看出,Apriori方法的实现分成W下两个步骤: 1、首先使用迭代方法对数据集中的所有项集进行扫描,并且设定一个支持度阔值,筛选出 数据集中的所有频繁项集,即将支持度低于阔值的项集全部淘汰掉,而将支持度高于运个 阔值的项集认为是频繁项集;2、得到所有的频繁项集之后,就可W利用它挖掘出强关联规 贝1J,对于每个频繁项集1产生强关联规则的基本步骤可W总结为W下两步:a、生成1所有的 非空真子集;b、对于1的每个非空真子集1,,如果1的支持度除W1,的支持度大于或等于 min_corif,则输出强关联规则1,一(1-1,)。 传统Apriori方法其挖掘对象的事务数据库中,内部的事务条目只具有空间属 性,不适用于挖掘移动节点移动轨迹关联规则。 阳0化]另外,如果将传统的Apriori方法直接移植到硬件资源有限的移动终端中应用, 效率会变得非常低,首先在于执行过程中需要消耗较高的存储空间来保存大量的候选项 集,其次需要消耗较长时间的CPU资源对整个移动轨迹数据集进行多次重复的扫描来获得 全部候选项集。因此,如何使Apriori算法变得更加低耗就显得尤为的重要。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术提供一种低消耗的Apriori方 法。 本专利技术解决上述技术问题所采用的技术方案为:低消耗的Apriori方法,用于对 智能移动终端的移动轨迹的关联移动规则进行挖掘,其特征在于:包括如下步骤: 步骤一、使用迭代方法挖掘智能移动终端的移动轨迹数据集中所有频繁项集,并 记录每个频繁项集的日期,计算每个频繁项集的支持度; 步骤二、利用步骤一得出的频繁项集,生成移动节点所有可能的关联移动规则,并 计算每条移动规则的置信度,记录移动节点每条关联移动规则的日期W及计算每条关联移 动规则日期的远近变动因子;同时,根据记录的日期和计算的日期远近变动因子,计算每条 关联移动规则的日期加权值TWei曲t(R),从而得到强关联性移动规则;其中,每条关联移 动规则日期对应的远变动因子m和近变动因子n计算公式如下: 每条关联移动规则的日期加权值TWei曲t(R)计算公式如下: 其中,Ruinate、MaxDateW及MinData分别表示移动规则的日期、移动轨迹数据 集中最近的记录日期与最远的记录日期;m为移动轨迹数据集中的最近记录日期MaxDate 的变动因子,即近变动因子;n为移动轨迹数据集中的最远记录日期MinData的变动因子, 即远变动因子;K为该移动规则日期Ruinate所在月的总天数,Ruld)atek表示该月中第k 天的日期值; 步骤=、根据移动节点当前轨迹及步骤二生成的关联移动规则,预测移动节点下 一个移动轨迹:Score(R) =Confidence(R)+TWei曲t(R) 阳017] 其中,Score(R)为关联移动规则R的匹配度,Confidence(R)为关联移动规则R的 置信度,TWei曲t(R)为关联移动规则R的日期加权值;其中, 在步骤一中,将智能移动终端的移动轨迹的时间属性与空间属性一同作为挖掘对 象数据,用事务数据库D表示智能移动终端的移动轨迹数据集,每条事务条目用移动轨迹 记录表示,每条移动轨迹记录则用多个轨迹数据组成,轨迹数据用Pl,化,…Pn2,Pn1,Pn表 示,其中Pn= {(c。,t。)|c正C,t正T},代表移动节点在时间点t。接入了路由器C。,集合C代 表移动节点日常经过的所有接入路由器,T代表每天划分的X个时间段集合,X= 12或24 或48或72 ;并引入记录ID号来标识每一条智能移动终端的移动轨迹;所述步骤一具体由 如下方式实现: (1)、首先遍历整个事务数据库D获得1-候选项集Ci,然后计算1-候选项集C冲 每个候选项的支持度,同时标识出包含该候选项的所有记录ID号,最后删除1-候选项集。 中支持度小于最小支持度阔值的候选项,就得到了 1-频繁项集Li; 似、利用1-频繁项集Li进行内连接运算计算出2-候选项集C2,计算2-候选项 集C2中每个候选项的支持度是通过将2-候选项集C2中每个2-候选项拆分成若干个单独 的1-频繁项; (3)、找出所有(2)拆分出的1-频繁项中支持度最小的1-频繁项,同时找出所有 包含该1-频繁项的记录ID号; 阳02引 (4)、遍历做中得到的记录ID号的移动轨迹记录来计算每条候选频繁项的支持 度; 巧)、3-频繁项集L3的获取同样是需要将3-频繁项拆分成若干个单独的1-频繁 项,其余计算过程和2-频繁项集L2相同,依次类推,算出k-频繁项集Lk,直到无法再生成 频繁项为止。与现有技术相比,本专利技术的优点在于:将移动节点移动轨迹的时间属性与空间属 性一同作为挖掘对象数据,充分考虑了移动轨迹的时间和空间双重属性,并且在由候选频 繁项集生成频繁项集的过程中,缩小了移动轨迹数据集扫描范围,减少了获取候选项集的 时间,从而达到低消耗的目的,相较于传统Apriori方法,本专利技术提供的Apriori方法适用 用于挖掘智能移动终端的移动轨迹关联规则。【附图说明】 图1为本专利技术实施例中低消耗的Apriori方法流程图。【具体实施方式】W下结合附图实施例对本专利技术作进一步详细描述。 如图1所示的低消耗的Apriori方法,用于对智能移动终端的移动轨迹的关联移 动规则进行挖掘,其特征在于,包含如下步骤: 步骤一、使用迭代方法挖掘对象数据集中所有频繁项集,并记录每个频繁项集的 日期,计算每个频繁项集的支持度;该步骤中,将智能移动终端的移动轨迹的时间属性与空 间属性一同作为挖掘对象数据,用事务数据库D表示智能移动终端的移动轨迹数据集,每 条事务条目用移动轨迹记录表示,每条移动轨迹记录则用多个轨迹数据组成,轨迹数据用 Pl,P2,…Pn2,Pn表示,其中Pn=KCn,0kEC,t正T},代表移动节点在时间点tn接入了路 由器C。,集合C代表移动节点日常经过的所有接入路由器,T代表每天划分的X个时间段集 合,X= 12或24或48或72 ;并引入记录ID号来标识每一条智能移动终端的移动轨迹;所 述步骤一具体由如下方式实现: (1)、首先遍历整个事务数据库D获得1-候选项集。,然后计算1-候选项集。中 每个候选项的支持度,同时标识出包含该候选项的所有记录ID号,最后删除1-候选项集。 中支持度小于最小支持度阔值的候选项,就得到了 1-频繁项集Li; 似、利用1-频繁项集Li进行内连接运算计算出2-候选项集C2,计算2-候选项 集C2中每个候选项的支持度是通过将2-候选项集C2中每个2-候选项拆分成若干个单独 的1-频繁项;运里内连接运算为现有常规技术; (3)、找出所有(2)拆分出的1-频繁项中支持度本文档来自技高网
...

【技术保护点】
一种低消耗的Apriori方法,用于对智能移动终端的移动轨迹的关联移动规则进行挖掘,其特征在于:包括如下步骤:步骤一、使用迭代方法挖掘智能移动终端的移动轨迹数据集中所有频繁项集,并记录每个频繁项集的日期,计算每个频繁项集的支持度;步骤二、利用步骤一得出的频繁项集,生成移动节点所有可能的关联移动规则,并计算每条移动规则的置信度,记录移动节点每条关联移动规则的日期以及计算每条关联移动规则日期的远近变动因子;同时,根据记录的日期和计算的日期远近变动因子,计算每条关联移动规则的日期加权值TWeight(R),从而得到强关联性移动规则;其中,每条关联移动规则日期对应的远变动因子m和近变动因子n计算公式如下:m=|MaxDate-1KΣk=1KRuleDatek|Σk=1KRuleDatek,n=|MinDate-1KΣk=1KRuleDatek|Σk=1KRuleDatek;]]>每条关联移动规则的日期加权值TWeight(R)计算公式如下:TWeight(R)=RuleDate-MinDatenMaxDatem·MinDaten·MaxDatemMaxDatem+MinDaten×100;]]>其中,RuleDate、MaxDate以及MinData分别表示移动规则的日期、移动轨迹数据集中最近的记录日期与最远的记录日期;m为移动轨迹数据集中的最近记录日期MaxDate的变动因子,即近变动因子;n为移动轨迹数据集中的最远记录日期MinData的变动因子,即远变动因子;K为该移动规则日期RuleDate所在月的总天数,RuleDatek表示该月中第k天的日期值;步骤三、根据移动节点当前轨迹及步骤二生成的关联移动规则,预测移动节点下一个移动轨迹:假定当前移动节点的移动轨迹为T:(cn,tn)→(cm,tm),遍历所有关联移动规则,如果关联移动规则R包含移动轨迹T则说明关联移动规则R是匹配的移动规则,然后根据下式计算关联移动规则R的匹配度,匹配度越高则越有可能是移动节点下一个移动轨迹:Score(R)=Confidence(R)+TWeight(R)其中,Score(R)为关联移动规则R的匹配度,Confidence(R)为关联移动规则R的置信度,TWeight(R)为关联移动规则R的日期加权值;在步骤一中,将智能移动终端的移动轨迹的时间属性与空间属性一同作为挖掘对象数据,用事务数据库D表示智能移动终端的移动轨迹数据集,每条事务条目用移动轨迹记录表示,每条移动轨迹记录则用多个轨迹数据组成,轨迹数据用p1,p2,…pn‑2,pn‑1,pn表示,其中pn={(cn,tn)|cn∈C,tn∈T},代表移动节点在时间点tn接入了路由器cn,集合C代表移动节点日常经过的所有接入路由器,T代表每天划分的X个时间段集合,X=12或24或48或72;并引入记录ID号来标识每一条智能移动终端的移动轨迹;所述步骤一具体由如下方式实现:(1)、首先遍历整个事务数据库D获得1‑候选项集C1,然后计算1‑候选项集C1中每个候选项的支持度,同时标识出包含该候选项的所有记录ID号,最后删除1‑候选项集C1中支持度小于最小支持度阈值的候选项,就得到了1‑频繁项集L1;(2)、利用1‑频繁项集L1进行内连接运算计算出2‑候选项集C2,计算2‑候选项集C2中每个候选项的支持度是通过将2‑候选项集C2中每个2‑候选项拆分成若干个单独的1‑频繁项;(3)、找出所有(2)拆分出的1‑频繁项中支持度最小的1‑频繁项,同时找出所有包含该1‑频繁项的记录ID号;(4)、遍历(3)中得到的记录ID号的移动轨迹记录来计算每条候选频繁项的支持度,最后删除2‑候选项集C2中支持度小于最小支持度阈值的候选项就得到了2‑频繁项集L2;(5)、3‑频繁项集L3的获取同样是需要将3‑频繁项拆分成若干个单独的1‑频繁项,其余计算过程和2‑频繁项集L2相同,依次类推,算出k‑频繁项集Lk,直到无法再生成频繁项为止。...

【技术特征摘要】

【专利技术属性】
技术研发人员:郑紫微金涛
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1