一种面向互联网环境的行为预测方法及其预测系统技术方案

技术编号:21736195 阅读:17 留言:0更新日期:2019-07-31 19:14
一种面向互联网环境的行为预测方法及其预测系统,包括行为信息获取模块、行为信息生成模块、频繁行为构建模块、行为预测模块、最近邻用户集构建模块、预测修正模块;依据用户历史行为序列,构建频繁行为序列,通过行为预测算法获得行为概率分布,预测出用户行为;依据行为发生的场景信息构建最近邻用户集,修正行为概率分布,提高预测准确率。

An Internet-Oriented Behavior Prediction Method and Its Prediction System

【技术实现步骤摘要】
一种面向互联网环境的行为预测方法及其预测系统
本专利技术属于网络应用中的行为预测
,特别涉及一种面向互联网环境的行为预测方法及其预测系统。
技术介绍
随着互联网的快速发展和4G无线网络的普及,网络用户和设备数量迅速增加,用户设备所产生的数据已达到泽字节(ZB)级别,有限的网络资源已经逐渐不能满足用户日益增长的网络需求。在互联网环境中每个用户持有多个移动端,这些设备可以随时随地接入网络,产生大量资源需求。以云计算模型为核心的集中式大数据处理时代,其关键技术已经逐渐难以高效处理用户设备所需求的数据。在这种有限的网络资源背景下,如何提前预测用户行为,面向用户提供个性化服务,提高网络利用率,降低请求时延,成为互联网目前亟待解决的问题。在互联网环境中,用户行为具有时空特性,在相同时间地点场景中,不同用户产生行为具有相似性。利用相似用户,可以更好的预测目标用户的行为。
技术实现思路
为克服上述现有技术的不足,本专利技术的目的在于提供一种面向互联网环境的行为预测方法及其预测系统,依据用户历史行为序列,通过行为预测算法获得行为概率分布,预测出用户行为;依据行为发生的场景信息构建最近邻用户集,修正行为概率分布,提高预测准确率。面向用户提供个性化服务,提高网络利用率,降低请求时延。为实现上述目的,本专利技术采用的技术方案是:一种面向互联网环境的行为预测系统,包括信息获取子系统(11)、数据存储与管理中心子系统(12)、行为预测子系统(13)、预测修正子系统(14);所述的信息获取子系统(11),用以采集用户历史行为及其行为发生的场景信息,并生成系统所需的数据源;所述的数据存储与管理中心子系统(12),用以完成用户历史行为记录、行为发生的场景信息、行为概率分布数据的存储与管理。所述的行为预测子系统(13),基于用户历史行为序列计算用户行为概率分布;所述的预测修正子系统(14),基于最近邻用户集修正行为概率分布。所述的信息获取子系统(11)包括:行为信息获取模块(111)、行为信息生成模块(112);所述的行为信息获取模块(111),采集用户历史行为及其行为发生的场景信息;所述的行为信息生成模块(112),将用户历史行为记录生成预测算法所需的数据源,同时将行为所发生的场景信息生成修正算法所需的数据源,并存入数据存储与管理中心子系统(12)。所述的行为预测子系统(13)包括:频繁行为构建模块(131)、行为预测模块(132);所述的频繁行为构建模块(131),根据行为属性在历史行为序列中的选择频繁行为,构建频繁行为序列;所述的行为预测模块(132),根据频繁行为序列,计算出行为概率分布,并存入数据存储与管理中心子系统(12)。所述的预测修正子系统(14)包括:最近邻用户集构建模块(141)、预测修正模块(142);所述的最近邻用户集构建模块(141),依据行为发生的场景信息,计算多用户行为相似度,构建最近邻用户集;所述的预测修正模块(142),根据最近邻用户修正行为概率分布。一种面向互联网环境的行为预测方法,包括以下步骤:步骤1,获取触发预测算法运行指令;步骤2,信息获取子系统(11)采集用户历史行为及其行为发生的场景信息,并生成预测算法所需的数据源;步骤3,行为预测子系统(13)从数据存储与管理中心子系统(12)获取用户历史行为序列,频繁行为构建模块(131)根据行为属性在历史行为序列中的选择频繁行为,构建频繁行为序列;行为预测模块(132)根据频繁行为序列,计算行为概率分布,并存入数据存储与管理中心子系统(12);步骤4,预测修正子系统(14)从数据存储与管理中心子系统(12)获取行为场景信息和行为概率分布,最近邻用户集构建模块(141)依据行为发生的场景信息,计算多用户行为相似度,构建最近邻用户集;预测修正模块(142)根据最近邻用户修正行为概率分布。步骤3所述的频繁行为构建模块(131),遍历用户历史行为序列,统计每个行为的行为属性,将所有行为属性同预设的阈值α比较,小于阈值α的行为去掉,大于或等于阈值α的行为组成频繁行为序列;设用户历史行为序列为T,频繁行为序列为T*,行为属性为f,T*中的行为形式化描述为:S={S|S∈T,f≥α}。步骤3所述的行为预测模块(132)根据频繁行为序列,计算行为概率分布,其方法具体为:设前缀序列形式化表示为lk=(l1,l2,l,···,ln),k∈[1,n],k表示前缀序列阶数,则在k阶前缀序列后发生行为Si的概率计算方式为式(1):其中,sum(lkSi)表示在前缀序列lk后发生行为Si的次数,sum(lk)表示前缀序列lk出现的次数,在N个行为序列样本集中,定义ek作为k阶(k=1,2,3,···,n)前缀序列对应的预测误差,计算方式为式(2):其中,为k阶前缀序列在第i样本的权值,i∈[1,N],通常情况下,当k=1时,全部设为1/N,为k阶模型在第i个样本的预测结果,计算方式为式(3):定义λk为k阶前缀序列的权重系数,计算方式为式(4):在得到k阶模型的权重系数后,根据更新的权值,在k阶模型中,对于预测错误的样本在k+1阶前缀序列中需要得到更大关注,所以在k+1阶前缀序列中提高预测错误样本的权值,降低预测正确样本的权值,计算方式为式(5):在得到每一阶前缀序列的权重系数后,定义δ(Si)为各阶前缀序列与其后发生行为Si的概率加权求和结果,计算方式为式(6),行为Si的概率计算方式为式(7):P=(p(S1),p(S2),p(S3),···,p(Sn))(8)其中,p(Si)为发生行为Si的概率,用户行为发生概率分布为P,如式(8)所示,概率最大的为最有可能发生的行为,将行为概率分布P存储至数据存储与管理中心子系统(12)。步骤4所述的最近邻用户集构建模块(141)依据行为发生的场景信息,计算多用户行为相似度,构建最近邻用户集,其方法为:定义行为序列相似度为D,计算方式为式(9):其中,为序列的长度,为序列的长度,为序列和序列最长公共子序列长度;基于时间依赖性行为序列相似度定义为在同一时间段内行为序列相似度,表示为Dt,计算方式为式(10):其中,表示行为流程相似度均值,表示行为流程相似度方差,值越大表示在同一时间段内行为序列相似度越高,基于地点依赖性行为序列相似度定义为在同一地点内行为序列相似度,表示为Dd,计算方式为式(11):其中,表示行为流程相似度均值,表示内行为流程相似度方差,值越大表示在同一地点内行为序列相似度越高,基于时间和地点依赖性定义用户r和用户m相似度为sim(r,m),计算方式为式(12):其中,ε为权重因子,取决于时间和地点对于预测的重要程度,计算目标用户和所有用户相似度,选择相似度较高的前M个用户组成最近邻用户集。所述预测修正模块(142)根据最近邻用户集修正行为概率分布,其方法为:定义相似度权重γm为式(13):其中,r为目标用户,m为最近邻用户,m∈[1,M],修正后结果为式(14):p*r(Si)=(p*r(S1),p*r(S2),p*r(S3),···,p*r(Sn)),i∈[1,n](15)其中,pr(S)为目标用户行为发生概率,pm(S)为最近邻用户行为发生概率,m∈[1,M],p*r(Si)为修正后行为预测结果,如式(15)所示,本文档来自技高网...

【技术保护点】
1.一种面向互联网环境的行为预测系统,其特征在于,包括信息获取子系统(11)、数据存储与管理中心子系统(12)、行为预测子系统(13)、预测修正子系统(14);所述的信息获取子系统(11),用以采集用户历史行为及其行为发生的场景信息,并生成系统所需的数据源;所述的数据存储与管理中心子系统(12),用以完成用户历史行为记录、行为发生的场景信息、行为概率分布数据的存储与管理;所述的行为预测子系统(13),基于用户历史行为序列计算用户行为概率分布;所述的预测修正子系统(14),基于最近邻用户集修正行为概率分布。

【技术特征摘要】
1.一种面向互联网环境的行为预测系统,其特征在于,包括信息获取子系统(11)、数据存储与管理中心子系统(12)、行为预测子系统(13)、预测修正子系统(14);所述的信息获取子系统(11),用以采集用户历史行为及其行为发生的场景信息,并生成系统所需的数据源;所述的数据存储与管理中心子系统(12),用以完成用户历史行为记录、行为发生的场景信息、行为概率分布数据的存储与管理;所述的行为预测子系统(13),基于用户历史行为序列计算用户行为概率分布;所述的预测修正子系统(14),基于最近邻用户集修正行为概率分布。2.根据权利要求1所述的一种面向互联网环境的行为预测系统,其特征在于,所述的信息获取子系统(11)包括:行为信息获取模块(111)、行为信息生成模块(112);所述的行为信息获取模块(111),采集用户历史行为及其行为发生的场景信息;所述的行为信息生成模块(112),将用户历史行为记录生成预测算法所需的数据源,同时将行为所发生的场景信息生成修正算法所需的数据源,并存入数据存储与管理中心子系统(12)。3.根据权利要求1所述的一种面向互联网环境的行为预测系统,其特征在于,所述的行为预测子系统(13)包括:频繁行为构建模块(131)、行为预测模块(132);所述的频繁行为构建模块(131),根据行为属性在历史行为序列中的选择频繁行为,构建频繁行为序列;所述的行为预测模块(132),根据频繁行为序列,计算出行为概率分布,并存入数据存储与管理中心子系统(12)。4.根据权利要求1所述的一种面向互联网环境的行为预测系统,其特征在于,所述的预测修正子系统(14)包括:最近邻用户集构建模块(141)、预测修正模块(142);所述的最近邻用户集构建模块(141),依据行为发生的场景信息,计算多用户行为相似度,构建最近邻用户集;所述的预测修正模块(142),根据最近邻用户修正行为概率分布。5.一种面向互联网环境的行为预测方法,其特征在于,包括以下步骤:步骤1,获取触发预测算法运行指令;步骤2,信息获取子系统(11)采集用户历史行为及其行为发生的场景信息,并生成预测算法所需的数据源;步骤3,行为预测子系统(13)从数据存储与管理中心子系统(12)获取用户历史行为序列,频繁行为构建模块(131)根据行为属性在历史行为序列中的选择频繁行为,构建频繁行为序列;行为预测模块(132)根据频繁行为序列,计算行为概率分布,并存入数据存储与管理中心子系统(12);步骤4,预测修正子系统(14)从数据存储与管理中心子系统(12)获取行为场景信息和行为概率分布,最近邻用户集构建模块(141)依据行为发生的场景信息,计算多用户行为相似度,构建最近邻用户集;预测修正模块(142)根据最近邻用户修正行为概率分布。6.根据权利要求5所述的一种面向互联网环境的行为预测方法,其特征在于,步骤3所述的频繁行为构建模块(131),遍历用户历史行为序列,统计每个行为的行为属性,将所有行为属性同预设的阈值α比较,小于阈值α的行为去掉,大于或等于阈值α的行为组成频繁行为序列;设用户历史行为序列为T,频繁行为序列为T*,行为属性为f,T*中的行为形式化描述为:S={S|S∈T,f≥α}。7.根据权利要求5所述的一种面向互联网环境...

【专利技术属性】
技术研发人员:王朝高岭高全力郝亚玲王泽天
申请(专利权)人:西安工程大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1