基于大数据的特征处理方法、装置和计算机设备制造方法及图纸

技术编号:22056703 阅读:19 留言:0更新日期:2019-09-07 15:46
本申请涉及一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质,所述方法包括:获取待处理的特征集和特征集中各特征的特征属性;接收对特征集进行处理的处理指令;根据处理指令获取与特征集中的各特征匹配的特征配置信息;根据各特征的特征属性和特征配置信息分别对各特征进行处理。本申请提供的方案能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,基于该特征处理方法无需人工进行算法的选择与切换,进一步提高了特征处理的效率。

Feature Processing Method, Device and Computer Equipment Based on Large Data

【技术实现步骤摘要】
基于大数据的特征处理方法、装置和计算机设备
本申请涉及特征工程
,特别是涉及一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质。
技术介绍
随着移动互联网和O2O模式的迅猛发展,网络信息数据大幅增加,如何利用这些庞大而杂乱的信息数据,从中挖据出有价值的信息成为了热点研究内容,特征工程也发挥着越来越重要的作用。而为应对大量数据的处理需求,各种大数据处理平台应运而生。基于现有大数据处理平台进行特征处理时,单独特征处理算法仅能基于该算法唯一确定的功能对特征进行处理,当待处理的特征集包括需要进行不同处理的特征时,则需要人工选择对应的特征处理算法后,再执行不同的特征处理算法。比如,当特征集中既包括需要归一化处理的特征又包括需要标准化的特征时,在进行特征集预处理时,则需要利用归一化和标准化两个单独的算法才能完成。也即,基于大数据的现有特征处理方法存在处理灵活性低的问题。
技术实现思路
基于此,有必要针对基于大数据的现有特征处理方法存在处理灵活性低的技术问题,提供一种基于大数据的特征处理方法、装置、计算机设备和可读存储介质。一种基于大数据的特征处理方法,所述方法包括:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。一种基于大数据的特征处理装置,所述装置包括:特征获取模块,用于获取待处理的特征集和所述特征集中各特征的特征属性;接收模块,用于接收对所述特征集进行处理的处理指令;配置信息获取模块,用于根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;特征处理模块,用于根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。上述基于大数据的特征处理方法、装置、计算机设备和可读存储介质,当需要进行特征处理时,获取与特征一一对应的特征配置信息,并根据待处理的特征集中各特征的特征属性和特征配置信息确定各特征的处理模式,使得各特征能够按照对应的处理模式进行特征处理。当待处理特征集包括需要采取不同方式进行处理的特征时,也能够根据特征与特征配置信息之间的对应关系灵活选择对应的处理模式,从而实现通过一个算法提供不同处理方式,提高了特征处理的灵活性。并且,基于该特征处理方法无需人工进行算法的选择与切换,进一步提高了特征处理的效率。附图说明图1为一个实施例中基于大数据的特征处理方法的应用环境图;图2为一个实施例中基于大数据的特征处理方法的流程示意图;图3为一个实施例中特征评估步骤的流程示意图;图4为一个实施例中特征评估步骤的流程示意图;图5为一个实施例中连续型特征评估步骤的流程示意图;图6为一个实施例中离散型特征评估步骤的流程示意图;图7为一个实施例中特征选择步骤的流程示意图;图8为一个实施例中特征选择步骤的流程示意图;图9为一个实施例中特征选择步骤的流程示意图;图10为一个实施例中特征转换步骤的流程示意图;图11为一个实施例中等值离散步骤的流程示意图;图12为一个实施例中等频离散步骤的流程示意图;图13为一个实施例中特征转换步骤的流程示意图;图14为一个实施例中处理结果显示信息生成步骤的流程示意图;图15为一个实施例中基于大数据的特征处理方法的流程示意图;图16为一个实施例中基于大数据的特征处理装置的结构框图;图17为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中基于大数据的特征处理方法的应用环境图。参照图1,该基于大数据的特征处理方法应用于如图1所示的特征处理系统。该基于大数据的特征处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现,基于服务器120可实现特征工程所涵盖的多种特征处理。其中,特征工程是将原始的数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能够在未知数据中获得更好的模型准确率。具体地,通过终端110获取处理任务(比如待处理的特征数据、相关参数和处理指令等),并发送至服务器120,再由服务器120根据接收到的任务执行特征处理。具体地,服务器可采用Spark计算框架、Tesla加速计算平台或其他大数据处理平台来实现本申请的特征处理方法。其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎,可用来构建大型的、低延迟的数据分析应用程序。Tesla加速计算平台是加速大数据分析与科学计算的领先平台,提供大数据的加速计算处理。以服务器120为服务器集群为例,该服务器集群由管理服务器121和至少两台执行服务器122组成。其中,管理服务器121用于负责接收和分配任务,执行服务器122用于接收并处理管理服务器121分配的任务,并将处理结果返回至管理服务器121,再由管理服务器121对各执行服务器122的处理结果进行归纳和汇总,得到最终结果。如图2所示,在一个实施例中,提供了一种基于大数据的特征处理方法。在本实施例中,主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该基于大数据的特征处理方法具体包括如下步骤:S210,获取待处理的特征集和特征集中各特征的特征属性。其中,待处理的特征集是指在特征工程建设中需要进行处理的特征的集合。具体地,特征集是指在训练预测模型时,与该预测模型相关的样本数据中不同类别的数据的集合,同一类别的数据即为同一个特征。比如,在广告点击率预估模型中,样本数据中的用户年龄、性别、职业、广告文本、广告所属行业等不同类别的数据即指不同的特征,所有特征的集合即组成了特征集。每一个特征进一步又可包括不同的特征值,比如,性别特征进一步又包括男和女两个对应的特征值。特征属性是指可用于表征该特征或者该特征所具备的性质,比如特征标识、特征类别、特征值属性等,特征类别包括分类数据、数值型和顺序型,特征值属性包括离散型和连续型。在实际应用中,特征属性可根据特征处理需求进行配置。其中,待处理的特征集来源于大数据源,在本实施例中可实现对大数据中相关特征的处理。具体地,本文档来自技高网...

【技术保护点】
1.一种基于大数据的特征处理方法,其特征在于,所述方法包括:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。

【技术特征摘要】
1.一种基于大数据的特征处理方法,其特征在于,所述方法包括:获取待处理的特征集和所述特征集中各特征的特征属性;接收对所述特征集进行处理的处理指令;根据所述处理指令获取与所述特征集中的各特征匹配的特征配置信息;根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理。2.根据权利要求1所述的方法,其特征在于,所述根据各所述特征的特征属性和所述特征配置信息分别对各所述特征进行处理,包括:根据各所述特征的特征属性和所述特征配置信息,得到与各所述特征对应的处理模式;分别按照与各所述特征对应的处理模式对各所述特征进行处理。3.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征评估,所述待处理的特征集包括新增特征,所述分别按照与各所述特征对应的处理模式对各所述特征进行处理,包括:按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果;根据所述关联度结果获得待选择的新增特征。4.根据权利要求3所述的方法,其特征在于,所述根据各所述特征的特征属性和所述特征配置信息得到与各所述特征对应的处理模式,包括:识别各所述特征的特征属性,所述特征属性包括特征值属性;基于所述各新增特征的特征值属性分别得到与所述特征值属性对应的特征配置信息,根据所述特征配置信息确定所述各新增特征的处理模式。5.根据权利要求4所述的方法,其特征在于,所述特征值属性的类型包括连续型和离散型,所述按照所述处理模式分别计算各新增特征之间,和/或各新增特征与历史特征之间的关联度,得到关联度结果,包括:当所述新增特征的特征值属性为连续型时,分别计算各新增特征之间,和/或各新增特征与历史特征之间的相关性系数,根据所述相关性系数得到关联度结果;当所述新增特征的特征值属性为离散型时,计算各新增特征之间,和/或各新增特征与历史特征之间的互信息,根据所述互信息得到关联度结果。6.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征选择,所述分别按照与各所述特征对应的处理模式对各所述特征进行处理,包括:分别按照与各所述特征对应的处理模式计算各所述特征的重要度,得到重要度结果;根据所述重要度结果获得待选择的特征。7.根据权利要求2所述的方法,其特征在于,所述处理指令包括特征转换,所述根据各所述特征的特征属性和所述特征配置信息得到与各所述特征对应的处理模式,包括:识别各所述特征的...

【专利技术属性】
技术研发人员:卢欣
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1