【技术实现步骤摘要】
群体识别方法、装置及计算机可读存储介质
本申请涉及信息
,特别涉及一种群体识别方法、装置及计算机可读存储介质。
技术介绍
随着数据规模的扩大以及数据处理需求的日益增长,从海量的数据中挖掘出有潜在价值的信息对于数据处理变得越来越重要。相关技术中,在进行数据挖掘时,通常通过构建频繁模式树(FrequentPatterntree,FP-tree)的方式挖掘出候选项集中的频繁项集。其中,项集指若干个元素(也可称为项)的集合,频繁项集指支持度大于或等于支持度阈值(英文:min_sup)的项集,支持度指某个项集在所有候选项集中出现的频率。挖掘出的频繁项集仅能够表示该项集中的项出现的概率较大,在不同的数据处理需求中该频繁项集起到的作用相差较大,因此目前对于项集的挖掘针对性较低。
技术实现思路
本申请提供了一种群体识别方法、装置及计算机可读存储介质,可以解决对于项集的挖掘针对性较低的问题。所述技术方案如下:一方面,提供了一种群体识别方法,所述方法包括:基于多个候选项集确定多个 ...
【技术保护点】
1.一种群体识别方法,其特征在于,所述方法包括:/n基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;/n获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;/n将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;/n根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;/n根据所述目标项集确定目标群体。/n
【技术特征摘要】
1.一种群体识别方法,其特征在于,所述方法包括:
基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;
获取通过二分类模型确定的所述频繁项集中每个所述参考元素对应的辅助概率,所述辅助概率为所述参考元素是目标元素的概率,所述目标元素用于指示目标群体中的个体;
将所述频繁项集中各个参考元素对应的辅助概率的加权平均值,确定为所述频繁项集对应的目标概率,所述目标概率为所述频繁项集是目标项集的概率,所述目标项集用于指示目标群体;
根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集;
根据所述目标项集确定目标群体。
2.根据权利要求1所述的方法,其特征在于,所述根据各频繁项集对应的目标概率,在所述多个频繁项集中确定目标项集,包括:
根据各频繁项集对应的目标概率的大小,确定一个或多个潜在项集;
在所述一个或多个潜在项集中确定所述目标项集。
3.根据权利要求2所述的方法,其特征在于,在所述一个或多个潜在项集中确定所述目标项集,包括:
确定所述潜在项集的多个过滤参数值的加权平均值,所述潜在项集的过滤参数值为:所述潜在项集的支持度、所述潜在项集包括的目标元素的数量或所述潜在项集包括的参考元素中目标元素的数量占比;
将所述一个或多个潜在项集中多个过滤参数值的加权平均值大于过滤阈值的潜在项集,确定为所述目标项集。
4.根据权利要求2所述的方法,其特征在于,在所述一个或多个潜在项集中确定所述目标项集,包括:
根据所述潜在项集的特性确定所述目标项集,所述潜在项集的特性包括:所述潜在项集包括的参考元素的属性以及所述潜在项集包括的参考元素与目标元素的关系中的一种或多种。
5.根据权利要求1所述的方法,其特征在于,在所述基于多个候选项集确定多个频繁项集之前,所述方法还包括:
基于时空数据构建所述多个候选项集。
6.一种群体识别装置,其特征在于,所述群体识别装置包括:
第一确定模块,用于基于多个候选项集确定多个频繁项集,项集包括一个或多个参考元素;
获取模块,用于获取通过二分类模型确定的所述频繁项集...
【专利技术属性】
技术研发人员:周武,俞颖晔,
申请(专利权)人:杭州海康威视数字技术股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。