特征索引编码方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24035883 阅读：21 留言：0更新日期：2020-05-07 01:53

本申请提供了一种特征索引编码方法、装置、电子设备及存储介质，属于机器学习技术领域。所述方法包括：从待处理数据中获取至少一个特征，所述特征包括主键、辅键以及特征值；对于任一特征，根据哈希算法确定所述主键和所述辅键对应的索引编码值；将所述特征中的主键和辅键替换为所述索引编码值。通过哈希计算对特征的主键和辅键进行处理，确定对应的索引编码值，从而不需要对所有的待处理数据进行特征统计，一次计算即可为所有的待处理数据中特征的键值创建索引，降低了算法运行的时间复杂度，提高了数据的处理效率。

Feature index coding method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
特征索引编码方法、装置、电子设备及存储介质
本申请涉及机器学习
，特别涉及一种特征索引编码方法、装置、电子设备及存储介质。
技术介绍
在使用机器学习进行建模时，首先要做的一项工作是收集样本数据，使用收集到的样本数据来进行模型训练。通常情况下，收集样本数据大多是汇总用户行为、用户画像、物品画像及各类基于人类先验知识的统计类数据等。收集到的样本数据往往是如图1所示的明文数据。由于电子设备可以对数值进行计算，而无法对明文数据进行计算，因此需要对样本数据进行处理，即将明文数据转换为向量，再交由电子设备进行处理。将原始的明文数据转为向量的过程可以称为特征索引编码。相关技术中，通常使用统计类的方法来实现特征索引编码，即先对样本数据中特征的键值进行统计，为每个特征的键值分配全局唯一的索引标识。然而，在样本数据的数据量级非常大时，如果采用统计类的方法对所有样本数据中特征的键值进行统计，会花费大量的时间，甚至有可能建立特征索引编码的时间超过了模型训练的时间，导致样本数据处理的效率低。
技术实现思路
本申请实施例提供了一种特征索引编码方法、装置、电子设备及存储介质，可以降低算法运行的时间复杂度，提高数据的处理效率。所述技术方案如下：一方面，提供了一种特征索引编码方法，其特征在于，所述方法包括：从待处理数据中获取至少一个特征，所述特征包括主键、辅键以及特征值；对于任一特征，根据哈希算法确定所述主键和所述辅键对应的索引编码值；将所述特征中的主键和辅键替换为所述...

【技术保护点】
1.一种特征索引编码方法，其特征在于，所述方法包括：/n从待处理数据中获取至少一个特征，所述特征包括主键、辅键以及特征值；/n对于任一特征，根据哈希算法确定所述主键和所述辅键对应的索引编码值；/n将所述特征中的主键和辅键替换为所述索引编码值。/n

【技术特征摘要】
1.一种特征索引编码方法，其特征在于，所述方法包括：
从待处理数据中获取至少一个特征，所述特征包括主键、辅键以及特征值；
对于任一特征，根据哈希算法确定所述主键和所述辅键对应的索引编码值；
将所述特征中的主键和辅键替换为所述索引编码值。

2.根据权利要求1所述的方法，其特征在于，所述特征为离散型特征；
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值，包括：
根据同一哈希算法，采用相同的参数分别确定所述主键对应的第一编码值和所述辅键对应的第二编码值；
将所述第一编码值和所述第二编码值进行拼接，得到所述索引编码值。

3.根据权利要求1所述的方法，其特征在于，所述特征为离散型特征；
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值，包括：
根据同一哈希算法，采用不同的参数分别确定所述主键对应的第一编码值和所述辅键对应的第二编码值；
将所述第一编码值和所述第二编码值进行拼接，得到所述索引编码值。

4.根据权利要求1所述的方法，其特征在于，所述特征为离散型特征；
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值，包括：
根据第一哈希算法确定所述主键对应的第一编码值；
根据第二哈希算法确定所述辅键对应的第二编码值，所述第一哈希算法和所述第二哈希算法为不同的哈希算法；
将所述第一编码值和所述第二编码值进行拼接，得到所述索引编码值。

5.根据权利要求1所述的方法，其特征在于，所述特征为连续型特征；
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值，包括：
根据所述哈希算法确定所述主键对应的第一编码值；
将目标占位符作为所述辅键对应的第二编码值；
将所述第一编码值和所述第二编码值进行拼接，得到所述索引编码值。

6.根据权利要求1所述的方法，其特征在于，所述哈希算法为MurmurHash3算法。

7.根据权利要求2-6任一项权利要求所述的方法，其特征在于，所述第一编码值位于所述索引编码值的尾部，所述第二编码值位于所述索引编码值的头部。

8.根据权利要求1所述的方法，其特征在于，所述从待处理数据中获取至少一个特征，包括：
对所述...

【专利技术属性】
技术研发人员：李伟，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人