【技术实现步骤摘要】
一种群画像方法、群画像装置及服务器
本申请涉及计算机领域,尤其涉及一种群画像方法、群画像装置及服务器。
技术介绍
群画像方法是指对给定群的关键特征的提取,关键特征描述了这个给定群有别于其他群的特质。例如,在视频内容分发网络(ContentDeliveryNetwork,CDN)内容预推场景下,希望能够分析出每个CDN小区覆盖的用户群的观看特点,找出每一个用户群的关键特征,根据关键特征了解到每一个用户群的观看视频的偏好,做出个性化的内容预推,从而提高预推命中率。目前的一种群画像方法是,基于隐含狄利克雷分布(LatentDirichletAllocation,LDA)算法完成群画像的挖掘,具体为:输入全网用户及对应特征,设置主题个数K,利用LDA算法,得到各主题的排序靠前的TopN特征以及每个用户属于某主题的概率。对于每个用户取概率最大的主题作为所属主题。对于给定群,可以统计群中每个用户的主题分布,选取用户比例最大的主题作为给定群的主题,则对应主题画像即给定群的群画像。但是,利用LDA算法,不是直接针对给定群做分析,而是预先对给定群的超集(即全网用户)进行主题划分,然后在根据给定群用户所属主题分布来确认给定群画像。假如,全网用户的主题包括第一类、第二类和第三类,第一类主题的Top3特征为a、b和c,第二类主题的Top3特征为d、e和f,第三类主题的Top3特征为h,g和i,给定群的用户比例最大的主题是第三类,但是给定群的Top3特征实际是a,d和h。因此在给定群和主题重合度较低时,导致群画像结果不准确。
技术实现思路
本申请提供了一种群画像方法、群画像装置及服务器 ...
【技术保护点】
1.一种群画像方法,其特征在于,包括:获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数;根据所述置信度信息及所述支持度信息得到所述给定群的群画像,所述给定群的群画像为一个关联推导式的前置项。
【技术特征摘要】
1.一种群画像方法,其特征在于,包括:获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数;根据所述置信度信息及所述支持度信息得到所述给定群的群画像,所述给定群的群画像为一个关联推导式的前置项。2.根据权利要求1所述的群画像方法,其特征在于,所述根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,包括:获取所述给定群的用户特征信息中所有用户特征的支持度值,所述支持度值为对应的用户特征的出现次数,所述用户特征包括给定群特征;获取支持度值大于或等于预置最小支持度阈值的用户特征;根据支持度降序排序规则生成频繁项列表,所述频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值;根据所述频繁项列表构建频繁模式树,所述频繁模式树的包括根节点及分支节点,所述根节点为无效值,所述分支节点对应一个用户特征及其支持度值;选取一个分支节点作为后缀节点,查询所述频繁模式树中包含所述后缀节点的至少一个树分支路径;获取所述至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值,递归获取至少一个频繁项集,每个频繁项集包括给定群特征及特征集,所述特征集包括所述后缀节点对应的用户特征。3.根据权利要求2所述的群画像方法,其特征在于,所述根据所述至少一个频繁项集生成至少一个关联推导式,包括:将所述至少一个频繁项集中每个频繁项集的特征集设置为前置项,及每个频繁项集的给定群特征设置为后置项;根据所述至少一个频繁项集中每个频繁项集对应的前置项和后置项生成至少一个关联推导式,一个关联推导式对应一个频繁项集。4.根据权利要求1所述的群画像方法,其特征在于,所述根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,包括:获取所述至少一个关联推导式中每一个关联推导式的前置项在所述对比数据和所述至少一个频繁项集中出现的次数,得到所述每一个关联推导式中前置项的支持度值;根据所述每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息;获取所述至少一个关联推导式中每一个关联推导式的前置项和后置项都在所述对比数据和所述至少一个频繁项集中出现的次数,得到所述每一个关联推导式中前置项和后置项同时出现的支持度值;将所述至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项同时出现的支持度值带入X=A/B,所述B表示所述关联推导式Y中前置项的支持度值,所述A表示所述关联推导式Y中前置项和后置项同时出现的支持度值,所述X表示所述关联推导式Y的置信度值;计算得到所述关联推导式Y的置信度值X,并根据所有关联关系推导式的置信度值生成置信度信息。5.根据权利要求1至4中任一项所述的群画像方法,其特征在于,所述根据所述置信度信息及所述支持度信息得到所述给定群的群画像,包括:根据所述支持度信息确定每一个关联推导式的前置项的支持度值;根据所述置信度信息确定每一个关联推导式的置信度值;根据预置支持度值优先规则,选择支持度值最高的关联推导式的前置项作为所述给定群的群画像;或,根据预置置信度值优先规则,选择置信度值最高的关联推导式的前置项作为所述给定群的群画像。6.一种群画像装置,其特征在于,包括:获取模块,用于获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;处理模块,用于根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;所述处理模块,还用于根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;所述处理模块,还用于根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。