针对机器学习的特征处理方法及特征处理系统技术方案

技术编号:17615804 阅读:42 留言:0更新日期:2018-04-04 06:58
提供了一种针对机器学习的特征处理方法及特征处理系统,其中,所述特征处理方法包括:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。通过上述方式,可获得与连续特征相应的包括分箱特征的多个特征,使得组成机器学习样本的特征更为有效,从而提升了机器学习模型的效果。

Feature processing and feature processing system for machine learning

Provides a feature for machine learning method and character processing system, which includes the characteristics of processing methods: (A) to obtain data records, among them, the data record includes at least one attribute information; (B) every continuous feature of continuous features at least a portion of the attribute information based on the at least one attribute information in the implementation of the basic operation box and at least one additional operation, the basic characteristics of the box to produce with each successive correspondence and at least one additional feature; (C) produced at least includes the basic box features are generated and at least an additional feature of machine learning sample. Through these ways, we can get multiple features which include corresponding box features corresponding to continuous features, making the features of machine learning samples more effective, thus improving the effect of machine learning model.

【技术实现步骤摘要】
针对机器学习的特征处理方法及特征处理系统
本专利技术总体说来涉及人工智能领域,更具体地说,涉及一种针对机器学习的特征处理方法及特征处理系统。
技术介绍
随着海量数据的出现,人工智能技术得到了迅速发展,而为了从大量数据中挖掘出价值,需要基于数据记录来产生适用于机器学习的样本。这里,每条数据记录可被看做关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的各个事项,这些事项可称为“属性”。如何将原始数据记录的各个属性转化为机器学习样本的特征,很可能对机器学习模型的效果带来很大的影响。例如,在图像或音频信号处理领域,常常将特征按照频域中的局部块进行直方图化(例如,第US20160247502A1号美国专利申请、第US20160239528A1号美国专利申请和第CN101276060号中国专利等),一方面,这种经典的处理方法依托于图像或音频信号的固有特性,现有技术中也普遍采用单一的直方图划分方式而缺乏相应的补充,另一方面,在很多实际的应用场景中,数据的内在规律很难如图像或音频信号那样明显,因此,无法有效地捕捉到适当的直方图划分方式,比如,按照传统分箱方式提取的特征很容易使得机器学习模型不稳定,即,在不同的分箱方式下,同样的模型对同样的数据预测效果差距很大,学习的效果非常依赖于箱数的选择,显著增加了模型调参的工作量,也导致模型较难到达最佳效果。事实上,机器学习模型的预测效果与模型的选择、可用的数据和特征的提取等有关。也就是说,一方面,可通过改进特征提取方式来提高模型预测效果,而另一方面,如果特征提取不适当,则将导致预测效果的恶化。然而,在确定特征提取方式的过程中,往往需要技术人员不仅掌握机器学习的知识,还需要对实际预测问题有深入的理解,而预测问题往往结合着不同行业的不同实践经验,导致很难达到满意的效果。
技术实现思路
本专利技术的示例性实施例旨在克服现有的机器学习特征处理方式难以达到满意的机器学习效果的缺陷。根据本专利技术的示例性实施例,提供一种针对机器学习的特征处理方法,包括:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。可选地,在所述特征处理方法中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。可选地,在所述特征处理方法中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。可选地,在所述特征处理方法中,分箱方式包括有监督分箱和/或无监督分箱下的分箱方式。可选地,在所述特征处理方法中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。可选地,在所述特征处理方法中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。可选地,在所述特征处理方法中,在步骤(B)中,执行基本分箱运算和/或附加分箱运算,以产生与所述每一个连续特征对应的多维度的基本分箱特征和/或附加分箱特征,其中,每个维度指示对应的箱子中是否被分到了相应的连续特征;或者,每个维度指示对应的箱子中被分到的相应的连续特征的特征值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的平均值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的中间值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的边界值。可选地,在所述特征处理方法中,在步骤(C)中产生的机器学习样本还包括基于所述至少一部分属性信息产生的所述连续特征之中的至少一个连续特征。可选地,在所述方法中,步骤(C)中产生的机器学习样本被直接用于机器学习模型训练处理和/或机器学习模型预测处理。根据本专利技术的另一示例性实施例,提供一种针对机器学习的特征处理系统,包括:数据记录获取装置,用于获取数据记录,其中,所述数据记录包括至少一个属性信息;特征产生装置,用于针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;机器学习样本产生装置,用于产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。可选地,在所述特征处理系统中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。可选地,在所述特征处理系统中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。可选地,在所述特征处理系统中,分箱方式包括有监督分箱和/或无监督分箱下的分箱方式。可选地,在所述特征处理系统中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。可选地,在所述特征处理系统中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。可选地,在所述特征处理系统中,特征产生装置执行基本分箱运算和/或附加分箱运算,以产生与所述每一个连续特征对应的多维度的基本分箱特征和/或附加分箱特征,其中,每个维度指示对应的箱子中是否被分到了相应的连续特征;或者,每个维度指示对应的箱子中被分到的相应的连续特征的特征值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的平均值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的中间值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的边界值。可选地,在所述特征处理系统中,特征产生装置在执行基本分箱运算和/或附加分箱运算时,额外设置离群箱,使得具有离群值的连续特征被分到所述离群箱。可选地,在所述特征处理系统中,由机器学习样本产生装置产生的机器学习样本还包括基于所述至少一部分属性信息产生的所述连续特征之中的至少一个连续特征。可选地,在所述特征处理系统中,由机器学习样本产生装置产生的机器学习样本被直接用于机器学习模型训练处理和/或机器学习模型预测处理。根据本专利技术的另一示例性实施例,提供一种执行针对机器学习的特征处理的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。可选地,在所述计算装置中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。可选地,在所述计算装置中,所述至少一个附加运算包括与本文档来自技高网
...
针对机器学习的特征处理方法及特征处理系统

【技术保护点】
一种针对机器学习的特征处理方法,包括:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。

【技术特征摘要】
2016.09.27 CN 20161085742531.一种针对机器学习的特征处理方法,包括:(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。2.如权利要求1所述的特征处理方法,其中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。3.如权利要求1或2所述的特征处理方法,其中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。4.如权利要求3所述的特征处理方法,其中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。5.如权利要求4所述的特征处理方法,其中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。6.如权利要求3所述的特征处理方法,其中,在步骤(B)中,执行基本分箱运算和/或附加分箱运算,以产生与所述每一个连续特征对应的多维度的基本分箱特征和/或附加分箱特征,其中,每个维度指示对应的箱子中是否被分到了相应的连续特征;或者,每个维度指示对应的箱子中被分到的相应的连续特征的特征值;或者,每个维度指示对应的箱子中被分到的所有连续特征...

【专利技术属性】
技术研发人员:罗远飞涂威威
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1