数据处理方法、装置、介质以及电子设备制造方法及图纸

技术编号：23401255 阅读：73 留言：0更新日期：2020-02-22 13:23

本发明专利技术的实施方式提供了一种数据处理方法，包括构建基于强化学习的自动定价模型，获得离线数据和多个销量预测模型，基于离线数据、第一销量预测模型以及第二销量预测模型，对自动定价模型进行预训练，基于在线数据以及第三销量预测模型，对自动定价模型进行在线训练，并基于自动定价模型处理在线数据，产生第一价格作为定价结果，以及通过第四销量预测模型预测使得销售额达到最大的第二价格，所述第二价格用于监控第一价格是否发生异常。此外，本发明专利技术的实施方式还提供了一种数据处理装置、计算机可读存储介质以及电子设备。

Data processing methods, devices, media and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、介质以及电子设备
本专利技术的实施方式涉及人工智能
，更具体地，本专利技术的实施方式涉及一种数据处理方法、装置、介质以及电子设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。众所周知，产品的价格与产品的销量密切相关，如何制定产品的价格策略是电商领域的一个重要问题。而面对海量的数据，人工制定价格策略效果极差，需要通过技术手段寻求解决方案。在相关技术中，产品定价通常采用基于经验规则或者基于销量预测的定价模型。基于经验规则的定价模型是以人的经验作为基础，通过设定规则的方式实现自动定价。基于销量预测的定价模型是通过预测在不同定价情况下的销量，实现自动定价的方案。
技术实现思路
但是，本专利技术人发现，基于规则的定价方式在泛化、可扩展性方面较差，需要人定期对规则进行检查维护，同时不易探索到最优定价策略；基于销量预测的定价模型依赖销量预测模型的准确性，而销量预测的准确性又往往难以保证，另外，成交金额对于模型定价影响的反馈存在延迟，模型无法做出当前组合目标的最优统筹决策。为此，非常需要一种改进的数据处理方法，以解决上述技术问题。在本上下文中，本专利技术的实施方式期望提供一种数据处理方法，以获得更优的定价结果，同时保障自动定价的安全性，降低人力成本。在本专利技术实施方式的第一方面中，提供了一种数据处理方法，包括构建基于强化学习的自动定价模型，获得离线数据和多个销量预测模型，...

【技术保护点】
1.一种数据处理方法，包括：/n构建基于强化学习的自动定价模型；/n获得离线数据和多个销量预测模型，其中，所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型；/n基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型，对所述自动定价模型进行预训练，其中，所述第一销量预测模型基于调价后的价格进行销量预测，所述第二销量预测模型基于未调价的价格进行销量预测；/n基于在线数据以及所述第三销量预测模型，对所述自动定价模型进行在线训练，并基于所述自动定价模型处理所述在线数据，产生第一价格作为定价结果，其中，所述第三销量预测模型基于未调价的价格进行销量预测；以及/n通过所述第四销量预测模型预测使得销售额达到最大的第二价格，所述第二价格用于监控所述第一价格是否发生异常。/n

【技术特征摘要】
1.一种数据处理方法，包括：
构建基于强化学习的自动定价模型；
获得离线数据和多个销量预测模型，其中，所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型；
基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型，对所述自动定价模型进行预训练，其中，所述第一销量预测模型基于调价后的价格进行销量预测，所述第二销量预测模型基于未调价的价格进行销量预测；
基于在线数据以及所述第三销量预测模型，对所述自动定价模型进行在线训练，并基于所述自动定价模型处理所述在线数据，产生第一价格作为定价结果，其中，所述第三销量预测模型基于未调价的价格进行销量预测；以及
通过所述第四销量预测模型预测使得销售额达到最大的第二价格，所述第二价格用于监控所述第一价格是否发生异常。

2.根据权利要求1所述的方法，其中，所述自动定价模型包括基于深度确定性策略梯度算法的强化学习模型，所述销量预测模型为XGBoost模型。

3.根据权利要求1所述的方法，其中，所述自动定价模型至少基于t时刻的状态输出t时刻的动作，根据t+1时刻的状态确定奖励值，并基于所述奖励值训练模型参数，其中：
所述状态包括页面价格、成本价格、销售量、库存、商品点击量、评论数、商品类目、即将过期的商品库存、竞品价格、商品等级中的一种或多种。

4.根据权利要求3所述的方法，其中：
在训练初期，所述动作表示为权重向量，由所述权重向量和基于所述状态确定的状态向量的内积确定价格调整参数；
在训练后期，所述动作表示为价格调整参数；
所述自动定价模型还用于根据预定的风险控制规则限制所述价格调整参数的取值范围。

5.根据权利要求3所述的方法，其中，所述奖励值基于以下数据确定：
t时刻的销售额或者销售额的增长量；以及
基于库存和/或单件利润的势函数的值。

6.根据权利要求3所述的方法，其中，所述基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型，对所述自动定价模型进行预训练包括：
基于所述离线数据中的t时刻的数据，通过所述自动定价模型确定动作；
基于所述离线数据中的t时刻的数据以及所述动作，通过所述第一销量预测模型预测调...

【专利技术属性】
技术研发人员：董家骥，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人