特征索引编码方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24035883 阅读:21 留言:0更新日期:2020-05-07 01:53
本申请提供了一种特征索引编码方法、装置、电子设备及存储介质,属于机器学习技术领域。所述方法包括:从待处理数据中获取至少一个特征,所述特征包括主键、辅键以及特征值;对于任一特征,根据哈希算法确定所述主键和所述辅键对应的索引编码值;将所述特征中的主键和辅键替换为所述索引编码值。通过哈希计算对特征的主键和辅键进行处理,确定对应的索引编码值,从而不需要对所有的待处理数据进行特征统计,一次计算即可为所有的待处理数据中特征的键值创建索引,降低了算法运行的时间复杂度,提高了数据的处理效率。

Feature index coding method, device, electronic equipment and storage medium

【技术实现步骤摘要】
特征索引编码方法、装置、电子设备及存储介质
本申请涉及机器学习
,特别涉及一种特征索引编码方法、装置、电子设备及存储介质。
技术介绍
在使用机器学习进行建模时,首先要做的一项工作是收集样本数据,使用收集到的样本数据来进行模型训练。通常情况下,收集样本数据大多是汇总用户行为、用户画像、物品画像及各类基于人类先验知识的统计类数据等。收集到的样本数据往往是如图1所示的明文数据。由于电子设备可以对数值进行计算,而无法对明文数据进行计算,因此需要对样本数据进行处理,即将明文数据转换为向量,再交由电子设备进行处理。将原始的明文数据转为向量的过程可以称为特征索引编码。相关技术中,通常使用统计类的方法来实现特征索引编码,即先对样本数据中特征的键值进行统计,为每个特征的键值分配全局唯一的索引标识。然而,在样本数据的数据量级非常大时,如果采用统计类的方法对所有样本数据中特征的键值进行统计,会花费大量的时间,甚至有可能建立特征索引编码的时间超过了模型训练的时间,导致样本数据处理的效率低。
技术实现思路
本申请实施例提供了一种特征索引编码方法、装置、电子设备及存储介质,可以降低算法运行的时间复杂度,提高数据的处理效率。所述技术方案如下:一方面,提供了一种特征索引编码方法,其特征在于,所述方法包括:从待处理数据中获取至少一个特征,所述特征包括主键、辅键以及特征值;对于任一特征,根据哈希算法确定所述主键和所述辅键对应的索引编码值;将所述特征中的主键和辅键替换为所述索引编码值。另一方面,提供了一种特征索引编码装置,其特征在于,所述装置包括:获取模块,用于从待处理数据中获取至少一个特征,所述特征包括主键、辅键以及特征值;确定模块,用于对于任一特征,根据哈希算法确定所述主键和所述辅键对应的索引编码值;替换模块,用于将所述特征中的主键和辅键替换为所述索引编码值。在一种可选的实现方式中,所述特征为离散型特征;所述确定模块,还用于根据同一哈希算法,采用相同的参数分别确定所述主键对应的第一编码值和所述辅键对应的第二编码值;将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。在一种可选的实现方式中,所述特征为离散型特征;所述确定模块,还用于根据同一哈希算法,采用不同的参数分别确定所述主键对应的第一编码值和所述辅键对应的第二编码值;将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。在一种可选的实现方式中,所述特征为离散型特征;所述确定模块,还用于根据第一哈希算法确定所述主键对应的第一编码值;根据第二哈希算法确定所述辅键对应的第二编码值,所述第一哈希算法和所述第二哈希算法为不同的哈希算法;将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。在一种可选的实现方式中,所述特征为连续型特征;所述确定模块,还用于根据所述哈希算法确定所述主键对应的第一编码值;将目标占位符作为所述辅键对应的第二编码值;将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。在一种可选的实现方式中,所述哈希算法为MurmurHash3算法。在一种可选的实现方式中,所述第一编码值位于所述索引编码值的尾部,所述第二编码值位于所述索引编码值的头部。在一种可选的实现方式中,所述获取模块,还用于对所述待处理数据中包括的字符串进行分割,得到多个字符串;将包括至少一个目标字符的字符串作为所述特征,所述目标字符用于分隔所述主键、所述辅键和所述特征值。在一种可选的实现方式中,所述装置还包括:所述获取模块,还用于获取原始样本数据,所述原始样本数据包括用户画像特征、用户行为特征、物品画像特征中的至少一种;拆分模块,用于对原始样本数据按照特征类别进行拆分,得到至少一种所述待处理数据。另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的特征索引编码方法中所执行的操作。另一方面,提供了一种存储介质,所述存储介质中存储有至少一段程序代码,所述至少一段程序代码用于执行本申请实施例中的特征索引编码方法。本申请实施例提供的技术方案带来的有益效果是:在本申请实施例中,通过哈希计算对特征的主键和辅键进行处理,确定对应的索引编码值,从而不需要对所有的待处理数据进行特征统计,一次计算即可为所有的待处理数据中特征的键值创建索引,降低了算法运行的时间复杂度,提高了数据的处理效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是一种明文类型的样本数据的示意图;图2是一种向量索引的样本数据的示意图;图3是根据本申请实施例提供的一种编码系统的结构框图;图4是根据本申请实施例提供的一种特征索引编码方法的流程图;图5是根据本申请实施例提供的一种索引编码拼接生成示意图;图6是根据本申请实施例提供的一种哈希算法将字符串转换为编码值的流程;图7是根据本申请实施例提供的一种特征索引编码装置的框图;图8是根据本申请实施例提供的一种终端的结构示意图;图9是根据本申请实施例提供的一种服务器的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。本申请实施例提供了一种特征索引编码方法,可以用于机器学习过程中对样本数据进行处理的场景。在使用机器学习进行建模时,需要对模型进行训练,而模型训练离不开样本数据。通常情况下,收集到的样本数据往往是如图1所示的明文数据。参见图1,图1示例性示出了两条样本数据101和102,以样本数据101为例,样本1->因变量:1.0表示样本1的因变量的值为1.0,而相应的自变量包括“点击行为->餐饮类次数:23.0,性别->男性:1.0,年龄->20-30岁之间:1.0,物品->类别为餐饮:1.0,物品1000085->点击率:0.02,…”。样本数据102与样本数据101相类似,不再赘述。这些收集到的数据为原始样本数据,通常来自于用户行为、用户画像、物品画像以及各类基于人类先验知识的统计类数据,最终以图1所示的方式进行呈现。由于电子设备不能对明文数据进本文档来自技高网...

【技术保护点】
1.一种特征索引编码方法,其特征在于,所述方法包括:/n从待处理数据中获取至少一个特征,所述特征包括主键、辅键以及特征值;/n对于任一特征,根据哈希算法确定所述主键和所述辅键对应的索引编码值;/n将所述特征中的主键和辅键替换为所述索引编码值。/n

【技术特征摘要】
1.一种特征索引编码方法,其特征在于,所述方法包括:
从待处理数据中获取至少一个特征,所述特征包括主键、辅键以及特征值;
对于任一特征,根据哈希算法确定所述主键和所述辅键对应的索引编码值;
将所述特征中的主键和辅键替换为所述索引编码值。


2.根据权利要求1所述的方法,其特征在于,所述特征为离散型特征;
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值,包括:
根据同一哈希算法,采用相同的参数分别确定所述主键对应的第一编码值和所述辅键对应的第二编码值;
将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。


3.根据权利要求1所述的方法,其特征在于,所述特征为离散型特征;
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值,包括:
根据同一哈希算法,采用不同的参数分别确定所述主键对应的第一编码值和所述辅键对应的第二编码值;
将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。


4.根据权利要求1所述的方法,其特征在于,所述特征为离散型特征;
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值,包括:
根据第一哈希算法确定所述主键对应的第一编码值;
根据第二哈希算法确定所述辅键对应的第二编码值,所述第一哈希算法和所述第二哈希算法为不同的哈希算法;
将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。


5.根据权利要求1所述的方法,其特征在于,所述特征为连续型特征;
所述根据哈希算法确定所述主键和所述辅键对应的索引编码值,包括:
根据所述哈希算法确定所述主键对应的第一编码值;
将目标占位符作为所述辅键对应的第二编码值;
将所述第一编码值和所述第二编码值进行拼接,得到所述索引编码值。


6.根据权利要求1所述的方法,其特征在于,所述哈希算法为MurmurHash3算法。


7.根据权利要求2-6任一项权利要求所述的方法,其特征在于,所述第一编码值位于所述索引编码值的尾部,所述第二编码值位于所述索引编码值的头部。


8.根据权利要求1所述的方法,其特征在于,所述从待处理数据中获取至少一个特征,包括:
对所述...

【专利技术属性】
技术研发人员:李伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1