数据处理方法和装置制造方法及图纸

技术编号：19321620 阅读：26 留言：0更新日期：2018-11-03 11:30

本发明专利技术提供一种数据处理方法和装置。本发明专利技术的数据处理方法包括下列步骤：‑用机器学习法来训练数据清洗规则以进行数据清洗，并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断；‑从预测模型算法库中选择参与预测模型训练运算的预测模型；‑在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。

Data processing method and device

The invention provides a data processing method and device. The data processing method of the present invention includes the following steps: (1) using machine learning method to train data cleaning rules for data cleaning, and using the data cleaning judgment model trained to make data cleaning judgment for training data of prediction model; (2) selecting a prediction model from the algorithm library of prediction model to participate in training operation of prediction model. Prediction model; In the process of training operation of prediction model, the parameters of specific prediction model participating in training operation of prediction model are optimized.

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及计算机领域，尤其涉及一种数据处理方法和装置、电子设备及可读存储介质。
技术介绍
销量预测是一种根据商品历史销量数量预测商品未来销量数据的方法，机器学习在销量预测中得到了广泛的应用，机器学习预测模型在进行训练之前需要对数据进行大量的数据清洗工作；预测过程中往往会选用多个预测模型，每个预测模型需要单独进行调优，然后将多个预测模型的预测结果进行综合作为商品最后的销量预测值。概括而言，通过机器学习进行销量预测通常包括如下步骤：-在训练预测模型前制定清洗规则。-对每个商品使用多个预测方法进行预测，然后取近期预测效果最好的预测方法的预测结果作为预测值。其中，在进行预测模型训练时，模型最优参数的微调有两种方法，一种是每隔一段时间搜索一次最优训练参数，另一种方法是每次训练之前搜索最优训练参数。训练数据中有一部分数据可能由于系统故障，或由于特殊原因会体现出一些特征，比如明显极高或极小。训练过程中这一部分数据会使预测模型出现偏差，降低预测准确度，因此需要对所有这一部分数据进行过滤处理，即所谓的数据清洗。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：首先，数据清洗是很重要的一个工作，往往需要人为制定大量清洗规则，而且清洗规则需要随时间及业务进行调整，费时费力。而且很多数据不能得到及时清洗，因此会扭曲预测模型。其次，由于要对每个商品使用多个预测方法进行预测，然后取近期预测效果最好的预测方法的预测结果作为预测值，这就需要对所有的预测算法都进行一遍计算，如果数据量比较巨大，计算资源会成为瓶颈。此外，模型训练时模型最优参数的微调往往...

【技术保护点】
1.一种数据处理方法，其特征在于，所述数据处理方法包括：用机器学习法来训练数据清洗规则以进行数据清洗，并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断；从预测模型算法库中选择参与预测模型训练运算的预测模型；在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述数据处理方法包括：用机器学习法来训练数据清洗规则以进行数据清洗，并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断；从预测模型算法库中选择参与预测模型训练运算的预测模型；在预测模型训练运算过程中对参与预测模型训练运算的具体预测模型进行参数调优。2.根据权利要求1所述的方法，其特征在于，为了训练数据清洗判决模型，提供清洗库，所述清洗库中存放异常数据的特征，其中，异常数据的来源包括以下各项中的至少一项：历史异常数据、业务方反馈的新发现的异常数据、由所有数据清洗判决模型一致判断为异常数据的数据、或经一个或多个数据清洗判决模型判断为异常数据并经人工识别后确认为异常数据的可疑数据。3.根据权利要求2所述的方法，其特征在于，所述利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断包括：利用训练出的数据清洗判决模型对预测模型训练数据抽取出的特征进行数据清洗判断，其中，将所有数据清洗判决模型判决得到的异常数据放进可疑数据库，其中：如果所有数据清洗判决模型判决结果均为异常数据，则直接将此数据加进清洗库，作为下次数据清洗判决模型训练的经验数据；如果多个数据清洗判决模型判决结果不一致，则在进行人工识别后选择将相应数据加进清洗库或不做处理。4.根据权利要求1至3中任一项所述的方法，其特征在于，能采用的数据清洗判决模型包括以下各项中的至少一项：SVM、随机森林、逻辑回归、贝叶斯分类器。5.根据权利要求1至3中任一项所述的方法，其特征在于，在进行预测模型选择时，从预测模型算法库所拥有的N个预测模型算法中选出预测误差率最低的N1个预测算法参与预测模型训练运算，然后将剩下的N2个预测算法按概率参与预测模型训练运算。6.根据权利要求5所述的方法，其特征在于，所述概率Pi由如下公式获得：Pi＝(1/Δi)/(sumN2(1/Δi))，其中，i代表候选算法的编号，i＝1，2，……，N2；Δi为第i个候选算法的算法误差率；sumN2()为求和函数，其将N2个候选算法的选择系数1/Δi求和。7.根据权利要求5所述的方法，其特征在于，借助所选出的预测算法进行预测，得到数量与所选出的预测算法的个数对应的预测值，选择这些所选出的预测算法中在预定时段内平均预测误差最低的算法的预测结果作为预测输出，待真实销量产生后，根据所选用于进行预测输出的算法的预测值与真实销量的比较来更新模型效果。8.根据权利要求1至3中任一项所述的方法，其特征在于，针对参与预测模型训练运算的每个具体预测模型，从预测模型训练参数库中取出针对该预测模型已知的最优参数，然后对所取出的已知最优参数进行随机试探。9.根据权利要求8所述的方法，其特征在于，所取出的已知最优参数只涉及最有可能成为最优参数的参数。10.根据权利要求8所述的方法，其特征在于，在随机试探时，对于每个所取出的已知最优参数，根据调节步长和调节步数生成新的试探参数。11.根据权利要求10所述的方法，其特征在于，将试探参数赋予对应的获选预测模型并结合经清洗后的预测模型训练数据进行预测模型训练，得到不同的误差，将最小误差对应的参数值更新到预测模型训练参数库。12.一种数据处理装置，其特征在于，所述数据处理装置包括：数据清洗规则训练模块，所述数据清洗规则训练模块能用机器学习法来训练数据清洗规则以进行数据清洗，并且利用训练出的数据清洗判决模型对预测模型训练数据进行数据清洗判断；预测模型选择模块，所述预测模型选择模块能从预测模型算法库中选择参与预测模型训练运算的预测模型；预测模型参数调优模块，...

【专利技术属性】
技术研发人员：栾宏伟，胡壁，宋全旺，宋磊，杨冬越，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人