一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25636962 阅读:19 留言:0更新日期:2020-09-15 21:29
本申请涉及一种数据处理方法、装置、电子设备及存储介质,属于数据处理技术领域。该方法包括:获取输入的与样本相关的原数据;根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数;分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。该方法通过从不同角度将重要的特征选择出来,这样可以保证在降维的同时,尽可能保证数据信息的完整性,降低了信息损失的概率。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质
本申请属于数据处理
,具体涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
数据特征通常是原数据的属性或特性的汇总,包含原数据的大部分信息,因此数据特征的选取尤为重要。而现有的特征选择方法只有在数据质量足够好时,选出的特征才能代表原数据,包含原数据的大部分信息。但对于数据质量不够好的数据,尤其是维数特别高但质量却不高的数据,现有的特征选择方法便无法选出能够代表原数据的特征集合,会使得信息缺失。
技术实现思路
鉴于此,本申请的目的在于提供一种数据处理方法、装置、电子设备及存储介质,以改善现有特征选择方法针对高维原数据无法选出能够代表原数据的特征集合,使得信息缺失的问题。本申请的实施例是这样实现的:第一方面,本申请实施例提供了一种数据处理方法,包括:获取输入的与样本相关的原数据;根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途;分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。本申请实施例中,将多种特征选择算法进行分类与封装,并且赋予每种特征选择算法一定的权重系数,使得在对原数据进行处理时,可以针对不同的任务选择对应的特征选择算法对特征的重要性进行评估,再结合权重系数将不同特征选择算法选取出的特征进行融合,进而选出能代表原数据的重要特征,通过从不同角度将重要的特征选择出来,这样可以保证在降维的同时,尽可能保证数据信息的完整性,降低了信息损失的概率。结合第一方面实施例的一种可能的实施方式,在将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,所述方法还包括:对所述数据特征集中的特征按重要性进行排序;根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。本申请实施例中,在得到融合后的数据特征集之后,对数据特征集中的特征按重要性进行排序,再根据排序结果选取重要性靠前的预设数量的特征,组成新的数据特征集,在尽可能保证数据信息的完整性的前提下,对数据进一步降维度,以简化数据处理难度。结合第一方面实施例的一种可能的实施方式,通过以下步骤确定每一种特征选择算法对应的权重系数:利用不同特征选择算法选取出的特征来单独训练与该任务类型对应的模型;根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数。本申请实施例中,通过利用不同特征选择算法选取出的特征来单独建模,根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数,使得最终赋予的每种特征选择算法的权重系数尽可能的准确合理,从而使得最终得到的数据特征集能最大限度的代表原数据。结合第一方面实施例的一种可能的实施方式,所述任务类型为分类任务、或回归任务,相应地,所述本地数据库中预设有多种适用于分类任务的特征选择算法以及多种适用于回归任务的特征选择算法。本申请实施例中,将当前普遍涉及的适用于分类以及回归问题的特征选择算法预设在本地数据库中,从而增加了方案的实用性和普及性。结合第一方面实施例的一种可能的实施方式,通过以下步骤来获取任务类型:从输入的与样本相关的原数据中获取任务标签;根据所述任务标签得到所述任务类型。本申请实施例中,通过对数据打标签的方式来获得任务类型,使得该方法可以适用于不同的应用场景,增加了方案的适用性与灵活性。结合第一方面实施例的一种可能的实施方式,获取输入的与样本相关的原数据,包括:获取输入的多个商品各自的与商品属性相关的原数据,每个商品的原数据的维度相同,均包括:价格、是否产地直发、体积、销量、品质、购买群体。本申请实施例中,通过获取包含价格、是否产地直发、体积、销量、品质、购买群体在内的多种维度的原始数据,使得原始数据的维度尽可能的多,从而保证最终筛选出的数据特征集的可靠性和实用性,并且保证每个商品的原数据的维度相同,以消除维度差异带来的误差。第二方面,本申请实施例还提供了一种数据处理装置,包括:获取模块、选择模块、提取模块以及融合模块;获取模块,用于获取输入的与样本相关的原数据;选择模块,用于根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途;提取模块,用于分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;融合模块,用于将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。结合第二方面实施例的一种可能的实施方式,所述装置还包括:排序模块以及筛选模块;排序模块,用于在所述融合模块将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,对所述数据特征集中的特征按重要性进行排序;筛选模块,用于根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。第三方面,本申请实施例还提供了一种电子设备,包括:存储器和处理器,所述处理器与所述存储器连接;所述存储器,用于存储程序;所述处理器,用于调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。第四方面,本申请实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。图1示出了本申请实施例提供的一种数据处理方法的流程示意图。图2示出了本申请实施例提供的又一种数据处理方法的流程示意图。图3示出了本申请实施例提供的一种数据处理装置的模块框图。图4示出了本申请实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取输入的与样本相关的原数据;/n根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途;/n分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;/n将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取输入的与样本相关的原数据;
根据获取到的任务类型从本地数据库中选择与该任务类型对应的多种特征选择算法,其中,所述本地数据库中预设有多种适用于该任务类型的特征选择算法,每一种特征选择算法对应一个权重系数,所述任务类型表征提取出的数据特征的用途;
分别利用每种特征选择算法对所述原数据进行特征提取,得到每种特征选择算法提取出的多种数据特征;
将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集。


2.根据权利要求1所述的方法,其特征在于,在将每种特征选择算法提取出的多种数据特征以及对应的权重系数进行特征加权求和,得到数据特征集之后,所述方法还包括:
对所述数据特征集中的特征按重要性进行排序;
根据排序结果从所述数据特征集中选取重要性靠前的预设数量的特征,组成新的数据特征集。


3.根据权利要求1所述的方法,其特征在于,通过以下步骤确定每一种特征选择算法对应的权重系数:
利用不同特征选择算法选取出的特征来单独训练与该任务类型对应的模型;
根据不同特征选择算法选取出的特征各自训练出的模型的准确率来确定每一种特征选择算法对应的权重系数。


4.根据权利要求1所述的方法,其特征在于,所述任务类型为分类任务、或回归任务,相应地,所述本地数据库中预设有多种适用于分类任务的特征选择算法以及多种适用于回归任务的特征选择算法。


5.根据权利要求1所述的方法,其特征在于,通过以下步骤来获取任务类型:
从输入的与样本相关的原数据中获取任务标签;
根据所述任务标签得到所述任务类型。


6.根据权利要求...

【专利技术属性】
技术研发人员:王建华陈斌斌
申请(专利权)人:创新奇智广州科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1