用户在线活动爆发时间的可预测度计算方法及系统技术方案

技术编号:15394952 阅读:103 留言:0更新日期:2017-05-19 06:37
本发明专利技术揭示了一种用户在线活动爆发时间的可预测度计算方法及系统,其中方法包括以下步骤:从用户的历史在线活动时间记录中提取爆发簇结构;利用爆发簇结构获取用户爆发时间间隔序列;对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;计算用户爆发时间间隔符号序列的熵率;根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。本发明专利技术提供了一种对于用户在线活动爆发时间可预测度的计算方法,该方法能够较好地预测用户的下一个网上活动行为,帮助开发者更好地设计以及改进在线服务平台。

Predictability calculation method and system for burst time of user online activity

The invention discloses a user online activity onset time calculating method and system prediction, the method comprises the following steps: extracting the outbreak cluster structure from the user's online activities in time history records; the outbreak of the cluster structure to obtain user outbreak time interval sequence utilization; to discretize the outbreak time interval sequence of users, get the outbreak interval symbol sequence; calculating the user time interval symbol sequence entropy of the outbreak rate; according to the calculation of user online activity outbreak time prediction rate of user time interval symbol sequence entropy of the outbreak. The invention provides a method for online user activity onset time calculation method for the prediction of, this method can better predict the next online behavior of users, to help developers to design better and improve the online service platform.

【技术实现步骤摘要】
用户在线活动爆发时间的可预测度计算方法及系统
本专利技术涉及互联网
,尤其涉及一种用户在线活动爆发时间的可预测度计算方法。
技术介绍
随着互联网特别是移动互联网技术的快速发展,过去人们需要在现实生活中完成的很多活动可以选择在网络上进行,同时互联网技术也为人们的日常生活提供了越来越多的新的服务和应用。互联网技术的广泛使用使得在线活动在人们的日常生活中发挥了越来越重要的作用。对于人类在互联网上的行为,即用户的在线行为,能够预先知道用户的下一个活动能够帮助开发者更好地设计以及改进在线服务平台。相较于用户在线行为预测算法的设计,一个更加基本的问题是得到用户在线行为的预测性能界,即预测算法能够达到的预测准确率的上界。该预测准确率上界的计算能够指导预测算法的设计,帮助综合分析算法优化空间以及研究成本控制。用户在互联网上的活动呈现爆发特征,即在长时间没有活动后会在短时间内会产生大量的活动。用户在线活动的爆发时间是刻画用户在线行为的关键维度,目前还没有对于用户在线活动爆发时间可预测度的计算方法。
技术实现思路
本专利技术的主要目的为提供一种用户在线活动爆发时间的可预测度计算方法。本专利技术提出一种用户在线活动爆发时间的可预测度计算方法,包括以下步骤:从用户的历史在线活动时间记录中提取爆发簇结构;利用爆发簇结构获取用户爆发时间间隔序列;对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;计算用户爆发时间间隔符号序列的熵率;根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。进一步的,所述从用户的历史在线活动时间记录中提取爆发簇结构之前,包括,获取所述用户在指定平台的所有活动时间记录。进一步的,所述从用户的历史在线活动时间记录中提取爆发簇结构步骤,包括,设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构。进一步的,所述设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构步骤,包括,设置一个相关活动时间间隔门限,判断两个活动的时间间隔是否小于门限,若是,则判定这两个活动是相关的,并将两个活动作为同一爆发簇;若否,则判定这两个活动是不相关的。进一步的,所述设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构步骤,还包括,将用户的第一条活动时间记录设置为第一个爆发簇内的第一个活动,从用户的第二条活动时间记录开始,逐个进行如下判断,若其与前一条活动的时间间隔小于设置的相关活动时间间隔门限,则将其划入到前一条活动记录所在簇中,若其与前一条活动的时间间隔大于设置的相关活动时间间隔门限,则将其作为一个新的爆发活动簇的第一个活动,并且将其标记为该爆发活动簇的开始时间。进一步的,所述对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列,包括,采用等频率离散化方法进行离散化。进一步的,所述采用等频率离散化方法进行离散化步骤,包括:在得到所述用户所有的爆发时间间隔序列后,先划分出离散区间,将用户的各个爆发时间间隔放置于对应的离散区间当中,放置的规则是使爆发时间间隔大于等于放入区间的左端点值,同时小于放入区间的右端点值,放置一个爆发时间间隔后,其对应离散区间的序号即为该爆发时间间隔对应的离散化结果。进一步的,所述在得到所述用户所有的爆发时间间隔序列后,先划分出离散区间步骤,包括,在爆发时间间隔的最大值和最小值之间划分k个离散区间,区间的划分使得所有爆发时间间隔落入各个区间内的频数相等,依据上述方法可以得到由小到大排列的第1,2,…,k共k个离散区间。一种用户在线活动爆发时间的可预测度计算系统,其特征在于,包括:提取单元,用于从用户的历史在线活动时间记录中提取爆发簇结构。获取单元,用于利用爆发簇结构获取用户爆发时间间隔序列。离散单元,用于对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列。计算单元,用于计算用户爆发时间间隔符号序列的熵率,根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。进一步的,所述提取单元包括,划分模块:设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构。本专利技术的有益效果:提供了一种对于用户在线活动爆发时间可预测度的计算方法,该方法能够较好地预测用户的下一个网上活动行为,帮助开发者更好地设计以及改进在线服务平台。附图说明图1是本专利技术一实施例一种用户在线活动爆发时间的可预测度计算方法的流程图;图2是本专利技术另一实施例一种用户在线活动爆发时间的可预测度计算方法的流程图;图3是本专利技术另一实施例一种基于互联网用户数据的在线活动爆发时间可预测度计算系统的结构框图。图4是本专利技术一实施例一种用户在线活动爆发时间的可预测度计算方法的时间间隔门限示意图;图5是本专利技术一实施例一种用户在线活动爆发时间的可预测度计算方法的时间间隔序列示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。参照图1,一种用户在线活动爆发时间的可预测度计算方法,包括以下步骤:S10、从用户的历史在线活动时间记录中提取爆发簇结构;S11、利用爆发簇结构获取用户爆发时间间隔序列;S12、对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;S13、计算用户爆发时间间隔符号序列的熵率;S14、根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。在上述S10步骤中,爆发簇结构能更好的反应用户在相近的时间上的活动量,为S11步骤获取时间间隔序列区分时间段提供重要的依据。在上述S12步骤中,离散化是把无限空间中无限的个体映射到有限的空间中去,以此提高算法的时空效率,本步骤中将时间间隔序列离散化后,得到时间间隔符号序列。在上述步骤S13步骤中,熵率就是指一个随机源(一个会持续产生随机变量的随机过程)的随时间的平均不确定性。一个随机过程的熵率就是该过程平均每产生一个随机变量所带来的不确定度的大小,在步骤S12中得到时间间隔符号序列后,根据该时间间隔符号序列后,利用计算公式:计算时间间隔符号序列的熵率,其中,Sest表示用户爆发时间间隔符号序列的熵率,n表示用户爆发时间间隔符号序列的长度,表Λh示序列中从第个h符号开始的,且在第1到第h-1个符号构成的子列中没有出现过的最短子序列的长度。在上述步骤S14中,时间间隔符号序列的熵率,计算用户爆发时本文档来自技高网
...
用户在线活动爆发时间的可预测度计算方法及系统

【技术保护点】
一种用户在线活动爆发时间的可预测度计算方法,其特征在于,包括以下步骤:从用户的历史在线活动时间记录中提取爆发簇结构;利用爆发簇结构获取用户爆发时间间隔序列;对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;计算用户爆发时间间隔符号序列的熵率;根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。

【技术特征摘要】
1.一种用户在线活动爆发时间的可预测度计算方法,其特征在于,包括以下步骤:从用户的历史在线活动时间记录中提取爆发簇结构;利用爆发簇结构获取用户爆发时间间隔序列;对用户的爆发时间间隔序列进行离散化,得到爆发时间间隔符号序列;计算用户爆发时间间隔符号序列的熵率;根据用户爆发时间间隔符号序列的熵率计算用户在线活动爆发时间可预测度。2.如权利要求1所述的用户在线活动爆发时间的可预测度计算方法,其特征在于,所述从用户的历史在线活动时间记录中提取爆发簇结构之前,包括,获取所述用户在指定平台的所有活动时间记录。3.如权利要求1所述的用户在线活动爆发时间的可预测度计算方法,其特征在于,所述从用户的历史在线活动时间记录中提取爆发簇结构步骤,包括,设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构。4.如权利要求3所述的用户在线活动爆发时间的可预测度计算方法,其特征在于,所述设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构步骤,包括,设置一个相关活动时间间隔门限,判断两个活动的时间间隔是否小于门限,若是,则判定这两个活动是相关的,并将两个活动作为同一爆发簇;若否,则判定这两个活动是不相关的。5.如权利要求3所述的用户在线活动爆发时间的可预测度计算方法,其特征在于,所述设置相关活动的时间间隔门限,将用户的所有活动时间记录划分成爆发簇结构步骤,还包括,将用户的第一条活动时间记录设置为第一个爆发簇内的第一个活动,从用户的第二条活动时间记录开始,逐个进行如下判断,若其与前一条活动的时间间隔小于设置的相关活动时间间隔门限,则将其划入到前一条活动记录所在簇中,若其与前一条活动的时间间隔大于设置的相关活动时间间隔门限,则将其作为一个新的爆发活动簇的第一个活动,...

【专利技术属性】
技术研发人员:曾尔阳陈旺
申请(专利权)人:深圳新基点智能股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1