一种DPI聚类及用户扩量方法,包括确定N项不同的且未归类的DPI,每一项DPI包括一个访问用户群;使用关联规则中的Apriori算法,在N条DPI中发现由不重复的频繁项集个数C;遍历C个频繁项集中的每个频繁项集,根据用户基数和营销广告方向的频繁项集作为标准,选择优质频繁项集K;对于K个优质频繁项集中的每一个非基准频繁项集的DPI及其访问用户群体计算DPI支持度:将所有DPI支持度计算出来,按照支持度的大小进行排序;并根据DPI的支持度大小以及访问DPI的用户数量,决定是否将访问过DPI的用户作为潜在的目标用户加入至广告投放的目标群体中,直到用户数量扩充到达到满意的范围。
【技术实现步骤摘要】
一种DPI聚类及用户扩量方法
本专利技术涉及大数据处理及信息
,更具体地,涉及一种基于关联规则挖掘算法和用户DPI访问情况的DPI聚类及用户扩量方法。
技术介绍
随着大数据及信息技术的发展,应用于利用运营商的营销用户扩量的场景越来越多,尤其是从海量的用户群体中发现符合营销手段的用户群体在广告营销领域往往十分困难。在互联网行业可以通过用户对网页或APP的点击、下载、使用等行为轻松为用户进行分组,再进行广告的曝光和投放。而在传统的利用运营商的营销,就很难轻易得到一个优质的潜在营销用户群体。此外,现有技术中通常在对一个已知的广告目标用户群体进行用户扩量时,经常利用用户自身的特征进行相似度的分析,即将与已知的用户群里特征相似的新用户作为新的目标来实现扩量。例如,互联网行业中想要对某些特定用户组进行扩量,常使用用户的年龄、性别、网络访问行为、APP点击内容等特征来对新的用户进行判断,确定其是否属于现有的特定用户组。然而,上述做法有两个主要缺点:①.潜在用户难以大量的获得,因为从所有非已知目标群体中找出新的目标群体成本非常高,而且新用户的数量较难保证;②.通过用户特征来发现新的用户效率太低,无法实现用户的快速扩量,因为上述特征获取渠道繁琐,且正确性也无法保证。
技术实现思路
本专利技术的目的在于提供一种基于关联规则挖掘算法和用户DPI访问情况的DPI聚类及用户扩量方法,其从DPI访问用户的角度利用关联规则挖掘算法先从大量零散的DPI中发现有价值的频繁项集作为基准DPI群组,再利用关联规则挖掘中支持度的概念寻找与已知用户群体相关性较大的新DPI,再通过新DPI的访问情况寻找出新的营销广告的潜在用户。为实现上述目的,本专利技术的技术方案如下:一种DPI聚类及用户扩量方法,其包括如下步骤:步骤S1:确定N项不同的且未归类的DPI,每一项所述DPI包括一个访问用户群,所述N项DPI的访问用户群体中的用户存在交集;其中,N为大于等于2的正整数;步骤S2:使用关联规则中的Apriori算法,在所述N条DPI中发现由不重复的频繁二项集、频繁三项集…及频繁N项集组成的频繁项集个数C;其中,所述频繁二项集、频繁三项集…及频繁N项集的选取规则为,所述频繁二项集、频繁三项集…及频繁N项集中的交集用户数量与其并集的用户数量的比值超过了设定的阈值;步骤S3:遍历所述C个频繁项集中的每个频繁项集,根据用户基数和营销广告方向的频繁项集作为标准,选择优质频繁项集,设优质频繁项集有K个;其中,K小于等于C;步骤S4:对于K个优质频繁项集中的每个频繁项集i,设其为一个基准频繁项集,所述基准频繁项集的用户为已知用户群体,对于每一个非所述基准频繁项集的DPI及其访问用户群体,按照以下公式计算所述DPI支持度:其中,Idpi是所用访问过所述DPI的用户集合,Imain是第i个DPI频繁项集的已知用户群体,count()为集合中用户的数量;步骤S5:将所有所述DPI支持度计算出来,按照支持度的大小进行排序;并根据所述DPI的支持度大小以及访问所述DPI的用户数量,决定是否将访问过所述DPI的用户作为潜在的目标用户加入至广告投放的目标群体中;步骤S6:对剩余的K-1个优质频繁项集重复步骤S4和步骤S5的操作,直到用户数量扩充到达到满意的范围,或所述候选DPI全部被选入优质频繁项集。进一步地,所述步骤S2的设定的阈值为50%。从上述技术方案可以看出,本专利技术的基于关联规则挖掘算法和用户DPI访问情况的DPI聚类及用户扩量方法可以从原本零散的DPI中先按照访问用户的交互程度找出关联较大的DPI组成群组,再根据运营经验选择出较为优质的DPI组合及组合所具有的用户作为基准,再使用关联规则挖掘中支持度的概念,为已有的DPI组合中按照支持度的大小和业务经验继续增加新的DPI,从而对已知用户群体又实现了扩量的目的。附图说明图1所示为本专利技术实施例中DPI聚类及用户扩量方法的流程示意图具体实施方式下面结合附图,对本专利技术的具体实施方式作进一步的详细说明。需要说明的是,在下述的具体实施方式中,在详述本专利技术的实施方式时,为了清楚地表示本专利技术的结构以便于说明,特对附图中的结构不依照一般比例绘图,并进行了局部放大、变形及简化处理,因此,应避免以此作为对本专利技术的限定来加以理解。需要说明的是,本专利技术的DPI聚类及用户扩量方法,是一种基于关联规则挖掘Apriori算法和用户DPI访问情况的DPI聚类及用户扩量方法。请参阅图1,图1所示为本专利技术实施例中DPI聚类及用户扩量方法的流程示意图。如图1所示,该DPI聚类及用户扩量方法,其包括如下步骤:步骤S1:确定N项不同的且未归类的DPI,每一项所述DPI包括一个访问用户群,所述N项DPI的访问用户群体中的用户存在交集;其中,N为大于等于2的正整数。DPI(DeepPacketInspection)深度包检测技术是在传统IP数据包检测技术(OSIL2-L4之间包含的数据包元素的检测分析)之上增加了对应用层数据的应用协议识别,数据包内容检测与深度解码。在本专利技术的实施例中,根据用户群体的扩量需求,需要在其它的用户群中找到潜在的客户,其可以先确定多项与已知客户群体不同的且未归类的DPI,并且,每一项所述DPI包括一个访问用户群,该项DPI的访问用户群体中的用户之间存在交集;这为下一步进行用户DPI访问情况的DPI聚类,希望接下类从原本零散的DPI中先按照访问用户的交互程度找出关联较大的DPI组成群组得到足够的样本数量。步骤S2:使用关联规则中的Apriori算法,在所述N条DPI中发现由不重复的频繁二项集、频繁三项集…及频繁N项集组成的频繁项集个数C;其中,所述频繁二项集、频繁三项集…及频繁N项集的选取规则为,所述频繁二项集、频繁三项集…及频繁N项集中的交集用户数量与其并集的用户数量的比值超过了设定的阈值。本领域技术人员清楚,Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,即基于两阶段频集思想的递推算法。Apriori算法的核心是该关联规则在分类上属于单维、单层、布尔关联规则。在此,所有支持度大于最小支持度的项集称为频繁项集。这些关系可以有两种形式:频繁项集和关联规则。频繁项集即经常出现在一块的物品的集合,关联规则即暗示两种物品之间可能存在很强的关系。在本专利技术的实施例中,就是通过使用机器学习中关联规则算法,通过Apriori算法发现DPI候选集中的频繁项集的。具体地,使用关联规则中的Apriori算法,在N条DPI中发现频繁项集,如频繁六项集。频繁六项集表明这6条DPI组成的集合中,其交集的用户数量与其并集的用户数量的比值超过了设定的阈值,例如,所述步骤S2设定的阈值为50%。频繁项集表明在该集合内的DPI从用户访问的角度来看,是有相互关联的。设该步共找出不本文档来自技高网...
【技术保护点】
1.一种DPI聚类及用户扩量方法,其特征在于,包括如下步骤:/n步骤S1:确定N项不同的且未归类的DPI,每一项所述DPI包括一个访问用户群,所述N项DPI的访问用户群体中的用户存在交集;其中,N为大于等于2的正整数;/n步骤S2:使用关联规则中的Apriori算法,在所述N条DPI中发现由不重复的频繁二项集、频繁三项集…及频繁N项集组成的频繁项集个数C;其中,所述频繁二项集、频繁三项集…及频繁N项集的选取规则为,所述频繁二项集、频繁三项集…及频繁N项集中的交集用户数量与其并集的用户数量的比值超过了设定的阈值;/n步骤S3:遍历所述C个频繁项集中的每个频繁项集,根据用户基数和营销广告方向的频繁项集作为标准,选择优质频繁项集,设优质频繁项集有K个;其中,K小于等于C;/n步骤S4:对于K个优质频繁项集中的每个频繁项集i,设其为一个基准频繁项集,所述基准频繁项集的用户为已知用户群体,对于每一个非所述基准频繁项集的DPI及其访问用户群体,按照以下公式计算所述DPI支持度:/n
【技术特征摘要】
1.一种DPI聚类及用户扩量方法,其特征在于,包括如下步骤:
步骤S1:确定N项不同的且未归类的DPI,每一项所述DPI包括一个访问用户群,所述N项DPI的访问用户群体中的用户存在交集;其中,N为大于等于2的正整数;
步骤S2:使用关联规则中的Apriori算法,在所述N条DPI中发现由不重复的频繁二项集、频繁三项集…及频繁N项集组成的频繁项集个数C;其中,所述频繁二项集、频繁三项集…及频繁N项集的选取规则为,所述频繁二项集、频繁三项集…及频繁N项集中的交集用户数量与其并集的用户数量的比值超过了设定的阈值;
步骤S3:遍历所述C个频繁项集中的每个频繁项集,根据用户基数和营销广告方向的频繁项集作为标准,选择优质频繁项集,设优质频繁项集有K个;其中,K小于等于C;
步骤S4:对于K个优质频繁项集中的每个频繁项集i,设其为一个基准频繁项集,...
【专利技术属性】
技术研发人员:项亮,潘信法,
申请(专利权)人:上海数鸣人工智能科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。