一种基于相对熵的周期获取方法技术

技术编号:20588857 阅读:33 留言:0更新日期:2019-03-16 07:09
本发明专利技术公开了一种基于相对熵的周期获取方法,所述基于相对熵的周期获取方法包括:步骤1,获取时空数据库中待研究用户在预设时间段内的观测序列;步骤2,根据步骤1的观测序列,确定两个或两个以上的候选周期T;步骤3,计算步骤2中的每一个候选周期T的相对熵,并将相对熵中的最大值对应的候选周期T作为真实周期。本发明专利技术利用分割后区间上观测的叠加分布来发现真实的周期,使用相对熵衡量序列切分后叠加的分布与候选周期上的均匀分布之间的差异,并作为判断是否真实周期的标准。本发明专利技术方法尤其适用于挖掘时空数据中人类的周期行为的周期。

A Method of Periodic Acquisition Based on Relative Entropy

The invention discloses a cycle acquisition method based on relative entropy. The cycle acquisition method based on relative entropy includes: step 1, acquiring the observation sequence of the user to be studied in the spatiotemporal database in a predetermined time period; step 2, determining two or more candidate periods T according to the observation sequence of step 1; step 3, calculating the relative of each candidate period T in step 2. Entropy, and the candidate period T corresponding to the maximum of relative entropy is taken as the real period. The method uses the superposition distribution observed on the segmented interval to discover the real period, and uses relative entropy to measure the difference between the superposition distribution after the segmented sequence and the uniform distribution on the candidate period, and as a criterion to judge whether the real period is true or not. The method of the invention is particularly suitable for mining the periodic behavior period of human beings in spatiotemporal data.

【技术实现步骤摘要】
一种基于相对熵的周期获取方法
本专利技术涉及周期发现
,特别是涉及一种基于相对熵的周期获取方法。
技术介绍
周期行为是人类社会最为普遍的一种行为,比如工作日往返于办公室和住所的通勤行为;周末定期举行的家庭聚会或各种娱乐等活动;每月定期的个人所得税上报行为;每年的生日或结婚纪念日的庆祝活动等。随着基于位置服务的流行,以及IOT设备的发展,获得了海量的时空数据,记录了大量的人类行为。因此,时空数据中记录了相当可观的人类周期行为。挖掘和分析人类的周期行为有着广泛的应用,包括公共安全,犯罪预防,隐私保护,以及人群移动预测等。人类周期行为挖掘指发现在固定时间间隔会发生的人类行为。周期发现是周期行为挖掘中最为重要的任务。过去的十几年,出现许多周期获取方法,比如:快速傅立叶变换(FFT)和自相关算法。然而,时空数据包含的单个用户历史记录往往是稀疏的,观测不完全,采样不均匀,且包含噪声。其次,因为人类行为是复杂性,所以周期行为不是严格在某个固定的时间点发生,而是在一个时间范围内波动。这些算法的对象是稠密,观测完全,采样均匀的物理的信号系统,因此无法直接应用在时空数据中周期行为的挖掘中。近些年,研究者也提出了多种针对时空数据的周期发现技术,比如WARP、Lomb-Scargle图谱、自相关和FFT相结合的技术。但是这些技术都存在假设太强烈、精度不高或者算法时间复杂度过高的问题。因此,希望有一种技术方案来克服或至少减轻现有技术的上述缺陷中的至少一个。
技术实现思路
本专利技术的目的在于提供一种基于相对熵的周期获取方法来克服或至少减轻现有技术的上述缺陷中的至少一个。为实现上述目的,本专利技术提供一种基于相对熵的周期获取方法,所述基于相对熵的周期获取方法包括:步骤1,获取时空数据库中待研究用户在预设时间段内的观测序列;步骤2,根据步骤1的观测序列,确定两个或两个以上的候选周期T;步骤3,计算步骤2中的每一个候选周期T的相对熵,并将相对熵中的最大值对应的候选周期T作为真实周期。进一步地,步骤3具体包括:步骤31,将按照步骤2确定好的候选周期T,将步骤1提供的观测序列切分成片段;步骤32,将步骤31切分好的片段在对应的候选周期T内进行叠加;步骤33,获取长度为T的时间段内的每个离散时间点上观测到的事件Si(T);步骤34,根据步骤33获得的事件Si(T),获取观测序列经过候选周期T切分后叠加的落在i位置处的分布pi(T);步骤35,根据步骤34获得的pi(T),获取候选周期T的熵H(T);步骤36,根据步骤34获得的熵H(T),获取候选周期T的相对熵;KL*(pi(T)||qi(T))步骤37,返回步骤31,获取每一个候选周期T对应的相对熵KL*(pi(T)||qi(T)),并选取数值最小的相对熵KL*(pi(T)||qi(T))对应的候选周期T作为真实周期。进一步地,步骤33中,利用式(1)表示长度为T的时间段内每个离散时间点上观测到的事件:Si(T)={t|mod(t,T)=i∧I(t)=1},t=0,1,...,n-1;i=0,1,...,T-1(1)式(1)中:Si(T)表示在长度为T的时间段上第i个时刻的观测到的事件;mod()表示求余函数;I(t)=1表示t时刻观测到事件发生,I(t)=0表示t时刻没有观测到事件发生;T是待检测的候选周期;t表示序列时间,其取值从0到n-1,n是观测序列的长度;i表示序列时间t除以T的余数,其取值从0到T-1。进一步地,步骤34中,利用式(2)计算观测序列经过候选周期T切分后叠加的分布:式(2)中:pi(T)表示观测的事件在候选周期T中落在i位置处的概率;Sj(T)表示在长度为T的时间段上第j个时刻的观测到的事件。进一步地,步骤35中,利用式(3)计算候选周期T的熵:式(3)中,H(T)表示候选周期T的熵。进一步地,步骤36中,利用式(4)计算候选周期T的相对熵:KL*(pi(T)||qi(T))=logT-H(T)(4)式(4)中:KL*(pi(T)||qi(T))表示候选周期T的相对熵;qi(T)表示候选周期T中,均匀分布在中第i个位置上的概率,其表达式为:qi(T)=1/T。进一步地,步骤2中,将观测序列从T=2开始,选取两个或两个以上的候选周期。本专利技术利用分割后区间上观测的叠加分布来发现真实的周期,使用相对熵衡量序列切分后叠加的分布与候选周期上的均匀分布之间的差异,并作为判断是否真实周期的标准。本专利技术方法尤其适用于挖掘时空数据中人类的周期行为的周期。附图说明图1是本专利技术所提供的周期序列在不同候选周期下的分布示意图;图2是图1所示的周期片段叠加后的状态示意图;图3至图8是不同参数下的周期获取方法性能对比的示意图。具体实施方式在附图中,使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本专利技术的实施例进行详细说明。本实施例提供的基于相对熵的周期获取方法包括如下步骤:步骤1,获取时空数据库中待研究用户在预设时间段的观测序列。该步骤中,可以使用网络爬虫、商业合作、个性化定制等方式获取“时空数据库中待研究用户在预设时间段的观测序列”。步骤2,根据步骤1的观测序列,确定两个或两个以上的候选周期T。优选地,将观测序列从T=2开始,选取两个或两个以上的候选周期。步骤3,计算步骤2中的每一个候选周期T的相对熵,并将相对熵中的最大值对应的候选周期T作为真实周期。在一个具体实施例中,步骤3具体包括:步骤31,按照步骤2确定好的候选周期T,将步骤1提供的观测序列切分成片段。比如图1中,观测序列为一周,第一候选周期T1=168,第二候选周期T2=192,切分方式如图1中示出地,若按第一候选周期进行T1=168切分,那么一周被切分成8个片段。若按第二候选周期T2=192进行切分,那么一周被切分成7个片段。步骤32,将步骤31切分好的片段在对应的候选周期T内进行叠加。比如:观测序列为时间长度为500,可能观察到的数据有10或20个等等。候选周期选为50,那么,将得到10个长度为50的片段。此处的“叠加”实际上可以理解为是将10个长度为50的片段都放到0-49(50)这样一个区间中。这样,所有的观测数据,本来是在0-499这样一个区间的,通过切割后,都转换成0-49这个区间。从图2左侧所展示的,可以看到多数观察都落在T1=168中时间点114(对应于一周中周四晚6点)附近。但该观测序列被不正确的T2=192切分成片段,然后叠加,如图2右侧所示,可以发现被观察到的事件在候选周期形成的长为192的区间上,落点几乎覆盖了整个区间。这个结果说明:如果某个观测序列由真实周期T0切分成片段,那么叠加后所有观测到的事件会落在一个紧密的区间[t0-δ,t0+δ],其中t0表示观测在一个区间内的时间戳,δ表示相对t0很小的值。当观测序列被不正确的候选周期T切分成片段,那么叠加后观测到的事件将会落在比区间[t0-δ,t0+δ]更大的区间中。从叠加后观测到的事件分布的角度看,如果观测序列被真实周期T0切分后叠加,被观测的事件在T0上的分布更集中;而被不正确的候选周期T切分后叠加,被观测的事件在T上的分布更分散。步骤33,获取长度为T的时间段内的每个离散时间点上观测到的事件Si(T),具体地,利用本文档来自技高网...

【技术保护点】
1.一种基于相对熵的周期获取方法,其特征在于,包括:步骤1,获取时空数据库中待研究用户在预设时间段内的观测序列;步骤2,根据步骤1的观测序列,确定两个或两个以上的候选周期T;步骤3,计算步骤2中的每一个候选周期T的相对熵,并将相对熵中的最大值对应的候选周期T作为真实周期。

【技术特征摘要】
1.一种基于相对熵的周期获取方法,其特征在于,包括:步骤1,获取时空数据库中待研究用户在预设时间段内的观测序列;步骤2,根据步骤1的观测序列,确定两个或两个以上的候选周期T;步骤3,计算步骤2中的每一个候选周期T的相对熵,并将相对熵中的最大值对应的候选周期T作为真实周期。2.如权利要求1所述的基于相对熵的周期获取方法,其特征在于,步骤3具体包括:步骤31,将按照步骤2确定好的候选周期T,将步骤1提供的观测序列切分成片段;步骤32,将步骤31切分好的片段在对应的候选周期T内进行叠加;步骤33,获取长度为T的时间段内的每个离散时间点上观测到的事件Si(T);步骤34,根据步骤33获得的事件Si(T),获取观测序列经过候选周期T切分后叠加的落在i位置处的分布pi(T);步骤35,根据步骤34获得的pi(T),获取候选周期T的熵H(T);步骤36,根据步骤34获得的熵H(T),获取候选周期T的相对熵;KL*(pi(T)||qi(T))步骤37,返回步骤31,获取每一个候选周期T对应的相对熵KL*(pi(T)||qi(T)),并选取数值最小的相对熵KL*(pi(T)||qi(T))对应的候选周期T作为真实周期。3.如权利要求2所述的基于相对熵的周期获取方法,其特征在于,步骤33中,利用式(1)表示长度为T的时间段内每个离散时间点上观测到的事件:Si(T)={t|mod(t,T)=i∧I(t)=1},t=0,1,...

【专利技术属性】
技术研发人员:易锋
申请(专利权)人:电子科技大学中山学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1