This specification provides a method and device for generating feature data, which converts the data to be processed into attributes, splices the transformed data into data, and hashes the obtained spliced data, and filters the feature data with more prominent attributes by using the eigenvalues of hash mapping. It can quickly find out the salient attribute class features or attribute class derivative features, which have strong EXPLANABILITY and can be understood by business experts and quickly run into business. At the same time, the Hash method adopted in the embodiment of this specification can transform data rapidly, and realizes a lightweight violent derivation implementation method, which enables all attributes and their enumerations to be within the range of input features, ensures the completeness of features, and improves the accuracy of feature data generation.
【技术实现步骤摘要】
一种特征数据的生成方法及装置
本说明书属于计算机
,尤其涉及一种特征数据的生成方法及装置。
技术介绍
特征数据可以表示原始数据中具有一定物理意义的数据,特征数据可以用于数据分析、模型建设、策略建设等中。目前在一个完整的数据分析、模型建设、策略建设流程中,特征工程的时间占比通常比较大。因此,特征数据的自动生成在数据分析、模型建设、策略建设中是一项比较重要的技术。现有技术中,特征数据的生成方法通常使用决策树、随机森林的方式,这些方法可能会导致一些属性的枚举无法被选中,使得特征数据生成的准确性不高,或者对于物理空间要求较高,运行效率比较低等,影响数据处理效率。
技术实现思路
本说明书实施例提供的一种特征数据的生成方法、装置、处理设备及系统是通过包括以下的实施方式实现的:一方面本说明书实施例提供了一种特征数据的生成方法,包括:将待处理数据转换成属性类变量;将不同的所述属性类变量进行拼接,获得拼接数据;利用哈希函数将所述拼接数据进行哈希映射,确定出所述拼接数据对应的第一特征值;根据所述拼接数据以及所述拼接数据对应的第一特征值,对所述拼接数据进行筛选,筛选出所述待处理数据的 ...
【技术保护点】
1.一种特征数据的生成方法,包括:将待处理数据转换成属性类变量;将不同的所述属性类变量进行拼接,获得拼接数据;利用哈希函数将所述拼接数据进行哈希映射,确定出所述拼接数据对应的第一特征值;根据所述拼接数据以及所述拼接数据对应的第一特征值,对所述拼接数据进行筛选,筛选出所述待处理数据的特征数据。
【技术特征摘要】
1.一种特征数据的生成方法,包括:将待处理数据转换成属性类变量;将不同的所述属性类变量进行拼接,获得拼接数据;利用哈希函数将所述拼接数据进行哈希映射,确定出所述拼接数据对应的第一特征值;根据所述拼接数据以及所述拼接数据对应的第一特征值,对所述拼接数据进行筛选,筛选出所述待处理数据的特征数据。2.如权利要求1所述的方法,所述方法还包括:判断所述特征数据的第一特征值是否唯一,若不唯一,则将所述第一特征值不唯一的特征数据作为待选特征数据;更新所述哈希函数,利用更新后的哈希函数对所述待选特征数据进行哈希映射,确定出所述待选特征数据对应的第二特征值;根据所述待选特征数据以及所述待选特征数据对应的第二特征值,对所述待选特征数据进行筛选,获得筛选后特征数据;将所述筛选后特征数据和所述第一特征值唯一的特征数据作为筛选出的特征数据。3.如权利要求2所述的方法,所述方法还包括:判断所述筛选后特征数据的第二特征值是否唯一,若不唯一,则将所述第二特征值不唯一的筛选后特征数据作为待选特征数据;更新所述哈希函数,利用更新后的哈希函数对所述待选特征数据进行哈希映射和筛选,直至筛选后特征数据对应的第二特征值唯一,将第二特征值唯一的筛选后特征数据、第一特征值唯一的特征数据作为筛选出的特征数据。4.如权利要求2所述的方法,所述判断所述特征数据的第一特征值是否唯一,包括:将所述拼接数据与所述第一特征值之间的映射关系保存至映射关系表;根据所述映射关系表,判断所述特征数据对应的第一特征值是否重复,若存在重复的第一特征值,则确定所述特征数据的第一特征值不唯一。5.如权利要求2所述的方法,所述第二特征值的确定方法包括:将哈希映射获得的特征值进行叠加,获得所述第二特征值。6.如权利要求1所述的方法,所述对所述拼接数据进行筛选,筛选出所述待处理数据的特征数据,包括:使用L1范数正则化对所述拼接数据进行筛选,筛选出所述特征数据。7.如权利要求1所述的方法,所述将待处理数据转换成属性类变量,包括:若所述待处理数据为数值型数据,则将所述待处理数据进行离散化,获得所述待处理数据的属性类变量;若所述待处理数据为字符型数据,则将所述待处理数据进行正则化处理,获得所述待处理数据的属性类变量。8.一种特征数据的生成装置,包括:数据转换模块,用于将待处理数据转换成属性类变量;数据拼接模块,用于将不同的所述属性类变量进行拼接,获得拼接数据;哈希映射模块,用于利用哈希函数将所...
【专利技术属性】
技术研发人员:陈露佳,唐渝洲,王维强,赵闻飙,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。