多列基准列聚合特征生成方法、系统及可读存储介质技术方案

技术编号：35644986 阅读：13 留言：0更新日期：2022-11-19 16:37

本发明专利技术提供了一种多列基准列聚合特征生成方法、系统及可读存储介质，所述多列基准列聚合特征生成方法包括：S1：对每基准列进行编码；S2：生成一列对所有基准列组合编码的组合基准列；S3：基于S2中组合基准列生成统计特征，本发明专利技术能够有效加速生成多列基准列的聚合特征，同时提高了数据分析和数据挖掘的效率。同时提高了数据分析和数据挖掘的效率。同时提高了数据分析和数据挖掘的效率。

全部详细技术资料下载

【技术实现步骤摘要】
多列基准列聚合特征生成方法、系统及可读存储介质

[0001]本专利技术涉及数据处理
，尤其涉及多列基准列聚合特征生成方法、系统及可读存储介质。

技术介绍

[0002]在对表数据进行数据分析或者数据挖掘的过程中，通常需要对表数据做转换或统计，来挖掘数据中的特征。其中一种统计方式非常常用，它就是基于一列或多列类别特征对数据分类，然后对其他特征量进行统计。例如，在电商推荐系统中，统计基于用户ID对商品价格求平均值和总和，在和整体均值做比较，反映了用户过去的购买力；统计基于用户ID和商品类别ID对商品价格求平均值和总和，这能够更加细致的反映出用户的偏好；更进一步还能统计基于用户ID，商品类别ID和品牌ID的其他列的统计量。统计基于用户ID对商品价格求平均值和总和，在和整体均值做比较，是列基准列的统计，统计基于用户ID和商品类别ID对商品价格求平均值和总和，是多列基准列的统计。然而当作为基准的列越多，统计的复杂度就越高，有些数据分析的代码库里面的实现方法，随着基准列的增加，复杂度甚至呈指数级增加。所以基于多列统计的算法效率的优化很重要，尤其是当表数据本身就很大的时候。
[0003]现有的解决方法无非采用工具，例如python，现在python是最常用的数据分析与挖掘工具，而Pandas是python中最出名的开源数据分析与操作工具，以下例子都由Pandas进行说明。使用Pandas做基于单列或者多列的统计，可以通过Groupby单列或者多列特征，在计算统计量得以实现。尽管不同数据分析的工具对这类问题的效率...

【技术保护点】

【技术特征摘要】
1.一种多列基准列聚合特征生成方法，其特征在于，所述多列基准列聚合特征生成方法包括：S1：对每列基准列进行编码；S2：获得对所有基准列进行组合编码的组合基准列；S3：基于所述组合基准列获取多列基准列聚合特征。2.根据权利要求1所述的多列基准列聚合特征生成方法，其特征在于，所述S1具体包括：S11：将每列基准列编码成从零开始的稠密连续特征；S12：用数字对稠密连续特征中的连续特征进行类别区分标识。3.根据权利要求2所述的多列基准列聚合特征生成方法，其特征在于，在所述S11中，使用pandas的factorize函数将每列基准列编码成从零开始的稠密连续特征。4.根据权利要求2所述的多列基准列聚合特征生成方法，其特征在于，所述S2具体包括：S21：在稠密连续特征中任取两个连续特征，分别作为矩阵的行标和列标；S22：在基准列数量为大于2个时，执行S23；反之，则继续执行S1：S23：使用前两列生成的组合编码与第三列再进行矩阵形式的组合编码，再用得...

【专利技术属性】
技术研发人员：陈海波，罗志鹏，
申请(专利权)人：深延科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人