数据处理方法和装置制造方法及图纸

技术编号:19321620 阅读:26 留言:0更新日期:2018-11-03 11:30
本发明专利技术提供一种数据处理方法和装置。本发明专利技术的数据处理方法包括下列步骤:‑用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;‑从预测模型算法库中选择参与预测模型训练运算的预测模型;‑在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。

Data processing method and device

The invention provides a data processing method and device. The data processing method of the present invention includes the following steps: (1) using machine learning method to train data cleaning rules for data cleaning, and using the data cleaning judgment model trained to make data cleaning judgment for training data of prediction model; (2) selecting a prediction model from the algorithm library of prediction model to participate in training operation of prediction model. Prediction model; In the process of training operation of prediction model, the parameters of specific prediction model participating in training operation of prediction model are optimized.

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及计算机领域,尤其涉及一种数据处理方法和装置、电子设备及可读存储介质。
技术介绍
销量预测是一种根据商品历史销量数量预测商品未来销量数据的方法,机器学习在销量预测中得到了广泛的应用,机器学习预测模型在进行训练之前需要对数据进行大量的数据清洗工作;预测过程中往往会选用多个预测模型,每个预测模型需要单独进行调优,然后将多个预测模型的预测结果进行综合作为商品最后的销量预测值。概括而言,通过机器学习进行销量预测通常包括如下步骤:-在训练预测模型前制定清洗规则。-对每个商品使用多个预测方法进行预测,然后取近期预测效果最好的预测方法的预测结果作为预测值。其中,在进行预测模型训练时,模型最优参数的微调有两种方法,一种是每隔一段时间搜索一次最优训练参数,另一种方法是每次训练之前搜索最优训练参数。训练数据中有一部分数据可能由于系统故障,或由于特殊原因会体现出一些特征,比如明显极高或极小。训练过程中这一部分数据会使预测模型出现偏差,降低预测准确度,因此需要对所有这一部分数据进行过滤处理,即所谓的数据清洗。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:首先,数据清洗是很重要的一个工作,往往需要人为制定大量清洗规则,而且清洗规则需要随时间及业务进行调整,费时费力。而且很多数据不能得到及时清洗,因此会扭曲预测模型。其次,由于要对每个商品使用多个预测方法进行预测,然后取近期预测效果最好的预测方法的预测结果作为预测值,这就需要对所有的预测算法都进行一遍计算,如果数据量比较巨大,计算资源会成为瓶颈。此外,模型训练时模型最优参数的微调往往也需要算法进行多次运行,以找到最优参数,这同样会销耗大量计算资源。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理方法和装置、电子设备及可读存储介质,由此能够将以往的预测经验提取出来(这些经验包括如何进行数据筛选,如何进行模型选择,如何对具体模型进行参数调优),在以后的预测中加以利用,从而在提高预测准确率的同时减少计算量。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据处理方法。根据本专利技术一种优选实施方式,本专利技术的数据处理方法包括下列步骤:-用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;-从预测模型算法库中选择参与预测模型训练运算的预测模型;-在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。在本专利技术中,优选的是,为了训练数据清洗判决模型,提供清洗库,所述清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。进一步优选的是,在利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断时,利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断,其中,将所有数据清洗判决模型判决得到的异常数据放进可疑数据库,其中:如果所有数据清洗判决模型判决结果均为异常数据,则直接将此数据加进清洗库,作为下次数据清洗判决模型训练的经验数据;如果多个数据清洗判决模型判决结果不一致,则在进行人工识别后选择将相应数据加进清洗库或不做处理。根据本专利技术一种优选实施方式,能采用的数据清洗判决模型包括以下各项中的至少一项:SVM、随机森林、逻辑回归、贝叶斯分类器。当然也能采用其它合适的分类模型。根据本专利技术一种优选实施方式,在进行预测模型选择时,从预测模型算法库所拥有的N个预测模型算法中选出预测误差率最低的N1个预测算法参与预测模型训练运算,然后将剩下的N2个预测算法按概率参与预测模型训练运算。进一步优选的是,按概率参与预测模型训练运算的预测算法的选择概率Pi由如下公式获得:Pi=(1/Δi)/(sumN2(1/Δi)),其中,i代表候选算法的编号,i=1,2,……,N2;Δi为第i个候选算法的算法误差率;sumN2()为求和函数,其将N2个候选算法的选择系数1/Δi求和。此外,优选借助所选出的预测算法进行预测,得到数量与所选出的预测算法的个数对应的预测值,选择这些所选出的预测算法中在预定时段内平均预测误差最低的算法的预测结果作为预测输出,待真实销量产生后,根据所选用于进行预测输出的算法的预测值与真实销量的比较来更新模型效果。根据本专利技术一种优选实施方式,针对参与预测模型训练运算的每个具体预测模型,从预测模型训练参数库中取出针对该预测模型已知的最优参数,然后对所取出的已知最优参数进行随机试探。如果参数调试空间比较巨大,而且最优参数随时间发生变化,如果每次训练都对参数空间进行遍历则需要耗费较多的计算资源,所以可以每次只选择性的找一些最有可能成为最优参数的参数进行试运行,看运行效果,以决定是否需要进行参数更新。也就是说采取一定的试探策略。因而,本专利技术中优选从预测模型训练参数库中所取出的已知最优参数只涉及最有可能成为最优参数的参数。此外,优选在随机试探时,对于每个所取出的已知最优参数,根据调节步长和调节步数生成新的试探参数。进一步优选的是,将试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练,得到不同的误差,将最小误差对应的参数值更新到预测模型训练参数库。为实现本专利技术的上述目的,根据本专利技术实施例的另一方面,提供了一种数据处理装置。根据本专利技术一种优选实施方式,本专利技术的数据处理装置包括下列模块:-数据清洗规则训练模块,所述数据清洗规则训练模块能用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;-预测模型选择模块,所述预测模型选择模块能从预测模型算法库中选择参与预测模型训练运算的预测模型;-预测模型参数调优模块,所述预测模型参数调优模块能在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。在本专利技术中,优选的是,数据清洗规则训练模块为了训练数据清洗判决模型,提供有清洗库,所述清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。进一步优选的是,在利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断时,数据清洗规则训练模块能利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断,并提供有可疑数据库,其中,能将所有数据清洗判决模型判决得到的异常数据放进可疑数据库,其中:如果所有数据清洗判决模型判决结果均为异常数据,则直接将此数据加进清洗库,作为下次数据清洗判决模型训练的经验数据;如果多个数据清洗判决模型判决结果不一致,则在进行人工识别后选择将相应数据加进清洗库或不做处理。根据本专利技术一种优选实施方式,能采用的数据清洗判决模型包括以下各项中的至少一项:SVM、随机森林、逻辑回归、贝叶斯分类器。当然也能采用其它合适的分类模型。根据本专利技术一种优选实施方式,在进行本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,所述数据处理方法包括:用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;从预测模型算法库中选择参与预测模型训练运算的预测模型;在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述数据处理方法包括:用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;从预测模型算法库中选择参与预测模型训练运算的预测模型;在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。2.根据权利要求1所述的方法,其特征在于,为了训练数据清洗判决模型,提供清洗库,所述清洗库中存放异常数据的特征,其中,异常数据的来源包括以下各项中的至少一项:历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。3.根据权利要求2所述的方法,其特征在于,所述利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断包括:利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断,其中,将所有数据清洗判决模型判决得到的异常数据放进可疑数据库,其中:如果所有数据清洗判决模型判决结果均为异常数据,则直接将此数据加进清洗库,作为下次数据清洗判决模型训练的经验数据;如果多个数据清洗判决模型判决结果不一致,则在进行人工识别后选择将相应数据加进清洗库或不做处理。4.根据权利要求1至3中任一项所述的方法,其特征在于,能采用的数据清洗判决模型包括以下各项中的至少一项:SVM、随机森林、逻辑回归、贝叶斯分类器。5.根据权利要求1至3中任一项所述的方法,其特征在于,在进行预测模型选择时,从预测模型算法库所拥有的N个预测模型算法中选出预测误差率最低的N1个预测算法参与预测模型训练运算,然后将剩下的N2个预测算法按概率参与预测模型训练运算。6.根据权利要求5所述的方法,其特征在于,所述概率Pi由如下公式获得:Pi=(1/Δi)/(sumN2(1/Δi)),其中,i代表候选算法的编号,i=1,2,……,N2;Δi为第i个候选算法的算法误差率;sumN2()为求和函数,其将N2个候选算法的选择系数1/Δi求和。7.根据权利要求5所述的方法,其特征在于,借助所选出的预测算法进行预测,得到数量与所选出的预测算法的个数对应的预测值,选择这些所选出的预测算法中在预定时段内平均预测误差最低的算法的预测结果作为预测输出,待真实销量产生后,根据所选用于进行预测输出的算法的预测值与真实销量的比较来更新模型效果。8.根据权利要求1至3中任一项所述的方法,其特征在于,针对参与预测模型训练运算的每个具体预测模型,从预测模型训练参数库中取出针对该预测模型已知的最优参数,然后对所取出的已知最优参数进行随机试探。9.根据权利要求8所述的方法,其特征在于,所取出的已知最优参数只涉及最有可能成为最优参数的参数。10.根据权利要求8所述的方法,其特征在于,在随机试探时,对于每个所取出的已知最优参数,根据调节步长和调节步数生成新的试探参数。11.根据权利要求10所述的方法,其特征在于,将试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练,得到不同的误差,将最小误差对应的参数值更新到预测模型训练参数库。12.一种数据处理装置,其特征在于,所述数据处理装置包括:数据清洗规则训练模块,所述数据清洗规则训练模块能用机器学习法来训练数据清洗规则以进行数据清洗,并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断;预测模型选择模块,所述预测模型选择模块能从预测模型算法库中选择参与预测模型训练运算的预测模型;预测模型参数调优模块,...

【专利技术属性】
技术研发人员:栾宏伟胡壁宋全旺宋磊杨冬越
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1