【技术实现步骤摘要】
基于大数据的特征处理方法、装置和计算机设备
本申请涉及特征工程
,特别是涉及一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质。
技术介绍
随着移动互联网和O2O模式的迅猛发展,网络信息数据大幅增加,如何利用这些庞大而杂乱的信息数据,从中挖据出有价值的信息成为了热点研究内容,特征工程也发挥着越来越重要的作用。而为应对大量数据的处理需求,各种大数据处理平台应运而生。基于现有大数据处理平台进行特征处理时,单独特征处理算法仅能基于该算法唯一确定的功能对特征进行处理,当待处理的特征集包括需要进行不同处理的特征时,则需要人工选择对应的特征处理算法后,再执行不同的特征处理算法。比如,当特征集中既包括需要归一化处理的特征又包括需要标准化的特征时,在进行特征集预处理时,则需要利用归一化和标准化两个单独的算法才能完成。也即,基于大数据的现有特征处理方法存在处理灵活性低的问题。
技术实现思路
基于此,有必要针对基于大数据的现有特征处理方法存在处理灵活性低的技术问题,提供一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质。一种基于大数据的特征处理方法,所述方法包括 ...
【技术保护点】
1.一种基于大数据的特征处理方法,其特征在于,所述方法包括:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。
【技术特征摘要】
1.一种基于大数据的特征处理方法,其特征在于,所述方法包括:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。2.根据权利要求1所述的方法,其特征在于,所述根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理,包括:根据各所述特征的特征属性和所述特征配置信息,得到与各所述特征对应的处理模式;分别按照与各所述特征对应的处理模式对各所述特征进行处理。3.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征评估,所述待处理的特征集包括新增特征,所述分别按照与各所述特征对应的处理模式对各所述特征进行处理,包括:按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;根据所述关联度结果获得待选择的新增特征。4.根据权利要求3所述的方法,其特征在于,所述根据各所述特征的特征属性和所述特征配置信息得到与各所述特征对应的处理模式,包括:识别各所述特征的特征属性,所述特征属性包括特征值属性;基于所述各新增特征的特征值属性分别得到与所述特征值属性对应的特征配置信息,根据所述特征配置信息确定所述各新增特征的处理模式。5.根据权利要求4所述的方法,其特征在于,所述特征值属性的类型包括连续型和离散型,所述按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果,包括:当所述新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据所述相关性系数得到关联度结果;当所述新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据所述互信息得到关联度结果。6.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征选择,所述分别按照与各所述特征对应的处理模式对各所述特征进行处理,包括:分别按照与各所述特征对应的处理模式计算各所述特征的重要度,得到重要度结果;根据所述重要度结果获得待选择的特征。7.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征转换,所述根据各所述特征的特征属性和所述特征配置信息得到与各所述特征对应的处理模式,包括:识别各所述特征的...
【专利技术属性】
技术研发人员:卢欣,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。