【技术实现步骤摘要】
特征编码方法及装置
本申请涉及编码
,尤其涉及一种特征编码方法及装置。
技术介绍
在相关技术中,很多领域都涉及到特征的编码处理。比如在机器学习领域,当所需学习的特征包括特征“性别”(比如对应的取值可以包括“男”、“女”)、“所在区域”(比如对应的取值可以包括“亚洲”、“欧洲”、“非洲”)、“所用浏览器”(比如对应的取值可以为“浏览器A”、“浏览器B”、“浏览器C”和“浏览器D”)等时,直接对上述特征进行学习的效率很低。为此,可以将上述特征编码为数字。比如对于特征“性别”而言,可以设定取值“男”为0、取值“女”为1,对于特征“所在区域”而言,可以设定取值“亚洲”为0、取值“欧洲”为1、取值“非洲”为2等。那么,对于一组特征取值“男+欧洲+浏览器C”可以采用编码信息(0,1,2)表示,而对于另一组特征取值“女+亚洲+浏览器D”可以采用编码信息(1,0,3)表示。那么,对上述数字类型的编码信息进行处理时,可以显著提升机器学习的效率。但是,上述编码信息并不能够直接应用于机器学习中,因为机器学习使用的分类器往往默认数据是连续、有序的,而上述编码信息是随机分配得到的。因 ...
【技术保护点】
1.一种特征编码方法,其特征在于,包括:将特征的取值的标识码映射为s+1个小于p的非负整数,其中p为不小于
【技术特征摘要】
1.一种特征编码方法,其特征在于,包括:将特征的取值的标识码映射为s+1个小于p的非负整数,其中p为不小于的素数,M为所述特征的取值的总数量、s为特征的取值对应的编码信息之间的最大碰撞数;将所述非负整数映射为r×p点集的r点子集,其中r为所述特征的取值对应的编码信息包含的非零位的数量,且r>1、根据所述r点子集中的元素在所述r×p点集中的位置,将所述r点子集映射为所述特征的取值对应的编码信息。2.根据权利要求1所述的方法,其特征在于,所述特征包括离散特征。3.根据权利要求1所述的方法,其特征在于,所述将特征的取值的标识码映射为s+1个小于p的非负整数,包括:通过单射将特征的取值的标识码映射为s+1个小于p的非负整数。4.根据权利要求3所述的方法,其特征在于,所述单射包括:p进制表示系数映射。5.根据权利要求1所述的方法,其特征在于,所述将所述非负整数映射为r×p点集的r点子集,包括:通过由所述r×p点集到p元域上二维仿射空间的嵌入映射,将所述非负整数映射为r×p点集的r点子集;其中,所述嵌入映射满足下述条件:使所述编码信息中的所有非零位嵌入到所述二维仿射空间中由方程f确定的曲线中,且所述方程f为至多s次的多项式。6.根据权利要求1所述的方法,其特征在于,所述标识码为不大于M的顺序编号。7.一种特征编码方法,其特征在于,包括:将特征的取值的标识码映射为中间数;将所述中间数映射为点集的子集,所述子集包含的元素数量为所述特征的取值对应的编码信息包含的非零位的数量;根据所述子集中的元素在所述点集中的位置,将所述子集映射为所述特征的取值对应的编码信息。8.一种特征编码装...
【专利技术属性】
技术研发人员:张祺智,游源,李文杰,李体云,包洪英,钱锟,郭东白,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。