一种基于信息增益的推荐方法技术

技术编号:36890505 阅读:19 留言:0更新日期:2023-03-15 21:54
本发明专利技术涉及一种基于信息增益的推荐方法,属于计算机领域。对目标事物的累计兴趣度结果保证了人群整体的偏好度倾向;而用户信息增益的计算,则能够较精准地把握每个用户的兴趣转移状态。所以能够更精准的挖掘潜在业务偏好人群。这个方法兼顾了人群整体行为特性和个体的兴趣状态变化,所以能够更有效地聚焦业务潜在营销群体。本发明专利技术在样本量较大、特征较多且大部分数据特征与目标业务相关度较低的情况下,尽量保留原始样本信息完整性,并结合人群整体的行为特性和个体的特征行为变化对每个用户的兴趣点做精准定位,由此进行业务的扩量和营销的降本。销的降本。销的降本。

【技术实现步骤摘要】
一种基于信息增益的推荐方法


[0001]本专利技术属于计算机领域,涉及一种基于信息增益的推荐方法。

技术介绍

[0002]随着用户获取信息的渠道和方式越来越多元化,单个特征在反馈用户行为偏好上也越来越片面化,基于海量数据营销的获客成本越来越高。这就需要我们整合用户随机繁杂的行为数据信息,将对目标事物感兴趣的潜在用户进行信息聚焦。
[0003]在我们实际的业务数据分析中,受限于计算资源,偏好使用Randomforest、TGI、LR、基于标签逻辑的规则等简单方法;这些方法推荐的头部用户效果较好,但是随着规则下探,推荐用户的效果衰退较快,往往无法做到快速扩量的目的。经分析,我们常用的方法大都基于极大似然估计,以数据特征的权重计算为主,筛选强相关特征覆盖的用户进行业务营销;而对每个用户本身行为特征的变化分析还不够深入。这里将结合人群整体的行为共性和个体行为的特性做进一步挖掘。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于信息增益的推荐方法。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种基于信息增益的推荐方法,该方法包括以下步骤:
[0007]S1:对于单个用户网络行为信息值的计算,将该用户浏览行为看成一个事件;对于不同访问行为,看成是对应事件的不同结果,该用户的信息值为:
[0008][0009]P(x
i
)表示随机事件X为x
i
的概率;m表示特征数;使用统计周期内,用户不同访问行为的占比来代替不同访问行为发生的概率;用户接收到的信息量跟具体发生的事件有关,而信息的大小跟随机事件的概率有关;概率越小的事件发生,产生的信息量越大;越大概率的事件发生,产生的信息量越小;当用户的访问行为越来越纯粹时,信息值就会越来越小;
[0010]S2:使用给定样本人群n,训练集N,其中包含m个特征,计算不同特征所覆盖人群整体的目标偏好度q
i

[0011]q
i
=(n∩N
i
)/N
i
,i∈1,...,m
[0012]其中,N
i
代表训练集中特征i覆盖用户量;q
i
是以单个特征下目标用户的占比衡量该特征覆盖人群对目标事物的整体偏好强度;
[0013]S3:计算单个用户k所有特征行为的目标事物累计兴趣度V
k

[0014][0015]其中,表示用户k对特征i的有效访问频次;V
k
以单用户的有效访问频次乘以对应特征对目标事物偏好度,再对所有特征进行累计求和,得到该用户整体访问行为下对目
标事物的偏向程度;
[0016]S4:计算单个用户带有访问偏好的信息值;用户k访问偏好信息值h
k
公式为:
[0017][0018]其中,h
k
>0,用户访问行为越丰富,对应信息值越大;
[0019]S5:计算周期内用户k访问行为的信息增益Gain(h
k
):
[0020]Gain(h
k
)=h
k
(t1)

h
k
(t0)
[0021]其中,上述公式反映周期内用户k的在初始时间段t0,以及最终时段t1的兴趣偏好变化对应的信息增益,在t0或t1里无行为状态用户对应的时段信息值为0;当用户访访问行为变得越纯粹时,Gain(h
k
)就会越小于0;当用户访问行为越丰富时,Gain(h
k
)就会越大于0;
[0022]S6:计算单用户k周期内对目标事物的综合偏好信息值S
k

[0023][0024]其中,它满足用户的访问行为变得越纯粹,且用户对目标事物强相关特征越感兴趣,那么该用户综合信息值S
k
就会越大,且S
k
>0;
[0025]S7:遍历所有用户,求每个用户对目标事物的综合偏好度值,排序并进行人群推荐。
[0026]可选的,将所述推荐方法用于游戏业务的人群推荐,具体步骤为:
[0027]S11:使用最近一个月数据的正样本计算训练数据集的各特征目标偏好度系数,有效特征为68536个,覆盖用户量超过8000W,并将训练数据集按两周为区间分成两个子集;
[0028]S12:基于各特征目标偏好度系数,计算一个月内训练集中每个用户的累计兴趣度;
[0029]S13:分别基于前两周训练子集、后两周训练子集计算每一个用户初始状态信息值和即时状态信息值,并得到用户一个月内网络行为信息增益值;
[0030]S14:结合S12和S13的中间结果计算每一个用户综合偏好度值并排序;
[0031]S15:营销对比验证;根据营销结果验证,将训练得到的用户按分值从高到低挑选生成三条测试规则:top10W、top10W~20W、top20W~30W,对应的成本占收比分别是40%、65%、81%;与此对比的Randomforest模型,对应量级规则的成本占收比分别是41%、78%、129%。
[0032]本专利技术的有益效果在于:
[0033]本方法中,对目标事物的累计兴趣度结果保证了人群整体的偏好度倾向;而用户信息增益的计算,则能够较精准地把握每个用户的兴趣转移状态。所以能够更精准的挖掘潜在业务偏好人群。这个方法兼顾了人群整体行为特性和个体的兴趣状态变化,所以能够更有效地聚焦业务潜在营销群体。
[0034]本专利技术计算复杂度低。本方法计算逻辑简单,在有限的计算资源下可实现大批量数据的处理。
[0035]本专利技术调参方便。通过扩充训练正样本量级以及调整训练样本集时间跨度等简单操作即可实现人群精准度调整。
[0036]本专利技术完备性。新方法结合了人群整体行为的共性和个体行为的特性,对每个用
户都进行了更加完备的分析。
[0037]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0038]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0039]图1为本专利技术流程图。
具体实施方式
[0040]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,在不冲突的情况下,以下实施例及实施例中的特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息增益的推荐方法,其特征在于:该方法包括以下步骤:S1:对于单个用户网络行为信息值的计算,将该用户浏览行为看成一个事件;对于不同访问行为,看成是对应事件的不同结果,该用户的信息值为:P(x
i
)表示随机事件X为x
i
的概率;m表示特征数;使用统计周期内,用户不同访问行为的占比来代替不同访问行为发生的概率;用户接收到的信息量跟具体发生的事件有关,而信息的大小跟随机事件的概率有关;概率越小的事件发生,产生的信息量越大;越大概率的事件发生,产生的信息量越小;当用户的访问行为越来越纯粹时,信息值就会越来越小;S2:使用给定样本人群n,训练集N,其中包含m个特征,计算不同特征所覆盖人群整体的目标偏好度q
i
:q
i
=(n∩N
i
)/N
i
,i∈1,...,m其中,N
i
代表训练集中特征i覆盖用户量;q
i
是以单个特征下目标用户的占比衡量该特征覆盖人群对目标事物的整体偏好强度;S3:计算单个用户k所有特征行为的目标事物累计兴趣度V
k
:其中,表示用户k对特征i的有效访问频次;V
k
以单用户的有效访问频次乘以对应特征对目标事物偏好度,再对所有特征进行累计求和,得到该用户整体访问行为下对目标事物的偏向程度;S4:计算单个用户带有访问偏好的信息值;用户k访问偏好信息值h
k
公式为:其中,h
k
>0,用户访问行为越丰富,对应信息值越大;S5:计算周期内用户k访问行为的信息增益Gain(h
k
):Gain(h
k
)=h
k<...

【专利技术属性】
技术研发人员:杨睿通
申请(专利权)人:江苏金信天信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1