一种群画像方法、群画像装置及服务器制造方法及图纸

技术编号:19424932 阅读:32 留言:0更新日期:2018-11-14 10:33
本申请提供了一种群画像方法、群画像装置及服务器,用于提高给定群的群画像的准确性。本申请实施例方法包括:获取给定群的用户特征信息及对比数据,对比数据为非给定群的用户特征信息,给定群的用户特征信息包括给定群特征;根据频繁模式算法对给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项;根据对比数据及至少一个频繁项集计算出每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息;根据置信度信息及支持度信息得到给定群的群画像。

【技术实现步骤摘要】
一种群画像方法、群画像装置及服务器
本申请涉及计算机领域,尤其涉及一种群画像方法、群画像装置及服务器。
技术介绍
群画像方法是指对给定群的关键特征的提取,关键特征描述了这个给定群有别于其他群的特质。例如,在视频内容分发网络(ContentDeliveryNetwork,CDN)内容预推场景下,希望能够分析出每个CDN小区覆盖的用户群的观看特点,找出每一个用户群的关键特征,根据关键特征了解到每一个用户群的观看视频的偏好,做出个性化的内容预推,从而提高预推命中率。目前的一种群画像方法是,基于隐含狄利克雷分布(LatentDirichletAllocation,LDA)算法完成群画像的挖掘,具体为:输入全网用户及对应特征,设置主题个数K,利用LDA算法,得到各主题的排序靠前的TopN特征以及每个用户属于某主题的概率。对于每个用户取概率最大的主题作为所属主题。对于给定群,可以统计群中每个用户的主题分布,选取用户比例最大的主题作为给定群的主题,则对应主题画像即给定群的群画像。但是,利用LDA算法,不是直接针对给定群做分析,而是预先对给定群的超集(即全网用户)进行主题划分,然后在根据给定群用户所属主题分布来确认给定群画像。假如,全网用户的主题包括第一类、第二类和第三类,第一类主题的Top3特征为a、b和c,第二类主题的Top3特征为d、e和f,第三类主题的Top3特征为h,g和i,给定群的用户比例最大的主题是第三类,但是给定群的Top3特征实际是a,d和h。因此在给定群和主题重合度较低时,导致群画像结果不准确。
技术实现思路
本申请提供了一种群画像方法、群画像装置及服务器,通过频繁模式算法计算得到给定群的关联推导式,并在计算关联推导式置信度时添加对比数据,从而提高群画像结果的准确性。本申请的第一方面提供一种群画像方法,包括:获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数;根据所述置信度信息及所述支持度信息得到所述给定群的群画像,所述给定群的群画像为一个关联推导式的前置项。运营商或者开发商等具有大量用户的情况下,针对不同业务需要从大量的用户中划分出特定的用户群,特定的用户群称为给定群,例如,在视频CDN内容预推场景下,每个CDN小区覆盖的用户群就是一个给定群,而这个给定群的给定群特征是“给定CDN小区”,不是该CDN小区的用户就划分到非给定群中。要得到给定群的群画像,就要先获取给定群的用户特征信息及对比数据,对比数据为非给定群的用户特征信息,给定群和非给定群的用户特征信息是预先规定的,或是从给定群用户的用户数据中分析得到的,并且给定群的用户特征信息包括给定群特征,根据频繁模式算法对给定群的用户特征信息进行处理,得到至少一个频繁项集,而且得到的至少一个频繁项集中每个频繁项集都包括给定群特征及特征集,即过滤掉了没有给定群特征的频繁项集,根据得到的至少一个频繁项集生成至少一个关联推导式,其中,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,后置项为关联推导式对应的频繁项集中的给定群特征,前置项为关联推导式对应的频繁项集中的特征集,根据对比数据及至少一个频繁项集计算出至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,支持度信息为前置项在给定群的用户特征信息及对比数据中出现的次数,根据置信度信息及支持度信息从至少一个关联推导式中选择一个关联推导式对应的频繁项集的前置项,将该前置项作为给定群的群画像,前置项也是关联推导式对应的频繁项集中的特征集。由于得到的至少一个频繁项集是过滤掉了非给定群特征的,不存在群画像的特征不是给定群的用户特征信息的情况。而且给定群的群画像是根据每一个关联推导式的置信度信息和每一个关联推导式中的前置项的对比度信息选择出的,而置信度信息和对比度信息在计算过程中增加了对比数据,而对比数据是非给定群的用户特征信息,如果群画像的特征是普适性特征,在非给定群的用户特征信息中也存在,那么计算得到置信度信息和对比度信息的值必然会降低,因此,可以过滤掉群画像的特征是普适性特征的情况,从而提高了群画像结果的准确性。结合本申请的第一方面,本申请第一方面第一实施方式中,所述根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,包括:获取所述给定群的用户特征信息中所有用户特征的支持度值,所述支持度值为对应的用户特征的出现次数,所述用户特征包括给定群特征;获取支持度值大于或等于预置最小支持度阈值的用户特征;根据支持度降序排序规则生成频繁项列表,所述频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值;根据所述频繁项列表构建频繁模式树,所述频繁模式树的包括根节点及分支节点,所述根节点为无效值,所述分支节点对应一个用户特征及其支持度值;选取一个分支节点作为后缀节点,查询所述频繁模式树中包含所述后缀节点的至少一个树分支路径;获取所述至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值,递归获取至少一个频繁项集,每个频繁项集包括给定群特征及特征集,所述特征集包括所述后缀节点对应的用户特征。按照频繁模式算法的规则,先获取给定群的用户特征信息中所有用户特征的支持度值,支持度值为对应的用户特征的出现次数,用户特征包括给定群特征,预设了预置最小支持度阈值删除出现次数较小的用户特征,因为出现次数较小的用户特征必然是不满足群画像所需的关键特征,获取支持度值大于或等于预置最小支持度阈值的用户特征,根据支持度降序排序规则生成频繁项列表,频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值,频繁项列表具体的形式可以是每一个频繁项对应一个用户,多个用户特征以支持度值排序,而且频繁项列表中一个频繁项可以理解为频繁模式树的树分支,那么就能实现根据频繁项列表构建频繁模式树,频繁模式树的包括根节点及分支节点,根节点为无效值,分支节点对应一个用户特征及其支持度值,选取一个分支节点作为后缀节点,查询频繁模式树中包含后缀节点的至少一个树分支路径,获取至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值,递归获取至少一个频繁项集,每个频繁项集包括给定群特征及特征集,特征集包括后缀节点对应的用户特征,除此之外,特征集还可以包括其他的用户特征。由于得到的频繁项集都是包括给定群特征的,因此对比数据是不需要进行计算,而目前利用LDA算法的群画像方法中,是需要对给定群的超集进行计算的,超集就是所有的用户,即包括给定群也包括非给定群,因此,本文档来自技高网...

【技术保护点】
1.一种群画像方法,其特征在于,包括:获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数;根据所述置信度信息及所述支持度信息得到所述给定群的群画像,所述给定群的群画像为一个关联推导式的前置项。

【技术特征摘要】
1.一种群画像方法,其特征在于,包括:获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,所述支持度信息为所述前置项在所述给定群的用户特征信息及所述对比数据中出现的次数;根据所述置信度信息及所述支持度信息得到所述给定群的群画像,所述给定群的群画像为一个关联推导式的前置项。2.根据权利要求1所述的群画像方法,其特征在于,所述根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,包括:获取所述给定群的用户特征信息中所有用户特征的支持度值,所述支持度值为对应的用户特征的出现次数,所述用户特征包括给定群特征;获取支持度值大于或等于预置最小支持度阈值的用户特征;根据支持度降序排序规则生成频繁项列表,所述频繁项列表包括至少一个用户特征及每一个用户特征对应的支持度值;根据所述频繁项列表构建频繁模式树,所述频繁模式树的包括根节点及分支节点,所述根节点为无效值,所述分支节点对应一个用户特征及其支持度值;选取一个分支节点作为后缀节点,查询所述频繁模式树中包含所述后缀节点的至少一个树分支路径;获取所述至少一个树分支路径中每一条树分支路径的所有分支节点对应的用户特征及其支持度值,递归获取至少一个频繁项集,每个频繁项集包括给定群特征及特征集,所述特征集包括所述后缀节点对应的用户特征。3.根据权利要求2所述的群画像方法,其特征在于,所述根据所述至少一个频繁项集生成至少一个关联推导式,包括:将所述至少一个频繁项集中每个频繁项集的特征集设置为前置项,及每个频繁项集的给定群特征设置为后置项;根据所述至少一个频繁项集中每个频繁项集对应的前置项和后置项生成至少一个关联推导式,一个关联推导式对应一个频繁项集。4.根据权利要求1所述的群画像方法,其特征在于,所述根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度信息,及所有关联推导式中前置项的支持度信息,包括:获取所述至少一个关联推导式中每一个关联推导式的前置项在所述对比数据和所述至少一个频繁项集中出现的次数,得到所述每一个关联推导式中前置项的支持度值;根据所述每一个关联推导式中前置项的支持度值得到所有关联推导式中前置项的支持度信息;获取所述至少一个关联推导式中每一个关联推导式的前置项和后置项都在所述对比数据和所述至少一个频繁项集中出现的次数,得到所述每一个关联推导式中前置项和后置项同时出现的支持度值;将所述至少一个关联推导式中关联推导式Y的前置项的支持度值及对应的前置项和后置项同时出现的支持度值带入X=A/B,所述B表示所述关联推导式Y中前置项的支持度值,所述A表示所述关联推导式Y中前置项和后置项同时出现的支持度值,所述X表示所述关联推导式Y的置信度值;计算得到所述关联推导式Y的置信度值X,并根据所有关联关系推导式的置信度值生成置信度信息。5.根据权利要求1至4中任一项所述的群画像方法,其特征在于,所述根据所述置信度信息及所述支持度信息得到所述给定群的群画像,包括:根据所述支持度信息确定每一个关联推导式的前置项的支持度值;根据所述置信度信息确定每一个关联推导式的置信度值;根据预置支持度值优先规则,选择支持度值最高的关联推导式的前置项作为所述给定群的群画像;或,根据预置置信度值优先规则,选择置信度值最高的关联推导式的前置项作为所述给定群的群画像。6.一种群画像装置,其特征在于,包括:获取模块,用于获取给定群的用户特征信息及对比数据,所述对比数据为非给定群的用户特征信息,所述给定群的用户特征信息包括给定群特征;处理模块,用于根据频繁模式算法对所述给定群的用户特征信息进行处理,得到至少一个频繁项集,每个频繁项集都包括给定群特征及特征集;所述处理模块,还用于根据所述至少一个频繁项集生成至少一个关联推导式,一个关联推导式对应一个频繁项集,关联推导式包括后置项及前置项,所述后置项为所述关联推导式对应的频繁项集中的给定群特征,所述前置项为所述关联推导式对应的频繁项集中的特征集;所述处理模块,还用于根据所述对比数据及所述至少一个频繁项集计算出所述至少一个关联推导式中每一个关联推导式的置信度...

【专利技术属性】
技术研发人员:罗奎
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1