数据处理方法、装置、介质以及电子设备制造方法及图纸

技术编号:23401255 阅读:73 留言:0更新日期:2020-02-22 13:23
本发明专利技术的实施方式提供了一种数据处理方法,包括构建基于强化学习的自动定价模型,获得离线数据和多个销量预测模型,基于离线数据、第一销量预测模型以及第二销量预测模型,对自动定价模型进行预训练,基于在线数据以及第三销量预测模型,对自动定价模型进行在线训练,并基于自动定价模型处理在线数据,产生第一价格作为定价结果,以及通过第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控第一价格是否发生异常。此外,本发明专利技术的实施方式还提供了一种数据处理装置、计算机可读存储介质以及电子设备。

Data processing methods, devices, media and electronic equipment

【技术实现步骤摘要】
数据处理方法、装置、介质以及电子设备
本专利技术的实施方式涉及人工智能
,更具体地,本专利技术的实施方式涉及一种数据处理方法、装置、介质以及电子设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。众所周知,产品的价格与产品的销量密切相关,如何制定产品的价格策略是电商领域的一个重要问题。而面对海量的数据,人工制定价格策略效果极差,需要通过技术手段寻求解决方案。在相关技术中,产品定价通常采用基于经验规则或者基于销量预测的定价模型。基于经验规则的定价模型是以人的经验作为基础,通过设定规则的方式实现自动定价。基于销量预测的定价模型是通过预测在不同定价情况下的销量,实现自动定价的方案。
技术实现思路
但是,本专利技术人发现,基于规则的定价方式在泛化、可扩展性方面较差,需要人定期对规则进行检查维护,同时不易探索到最优定价策略;基于销量预测的定价模型依赖销量预测模型的准确性,而销量预测的准确性又往往难以保证,另外,成交金额对于模型定价影响的反馈存在延迟,模型无法做出当前组合目标的最优统筹决策。为此,非常需要一种改进的数据处理方法,以解决上述技术问题。在本上下文中,本专利技术的实施方式期望提供一种数据处理方法,以获得更优的定价结果,同时保障自动定价的安全性,降低人力成本。在本专利技术实施方式的第一方面中,提供了一种数据处理方法,包括构建基于强化学习的自动定价模型,获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型,基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测,基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测,以及通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。在本专利技术的一个实施例中,所述自动定价模型包括基于深度确定性策略梯度算法的强化学习模型,所述销量预测模型为XGBoost模型。在本专利技术的另一个实施例中,所述自动定价模型至少基于t时刻的状态输出t时刻的动作,根据t+1时刻的状态确定奖励值,并基于所述奖励值训练模型参数,其中,所述状态包括页面价格、成本价格、销售量、库存、商品点击量、评论数、商品类目、即将过期的商品库存、竞品价格、商品等级中的一种或多种。在本专利技术的又一个实施例中,在训练初期,所述动作表示为权重向量,由所述权重向量和基于所述状态确定的状态向量的内积确定价格调整参数,在训练后期,所述动作表示为价格调整参数,所述自动定价模型还用于根据预定的风险控制规则限制所述价格调整参数的取值范围。在本专利技术的又一个实施例中,所述奖励值基于t时刻的销售额或者销售额的增长量,以及基于库存和/或单件利润的势函数的值确定。在本专利技术的又一个实施例中,所述基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练包括,基于所述离线数据中的t时刻的数据,通过所述自动定价模型确定动作,基于所述离线数据中的t时刻的数据以及所述动作,通过所述第一销量预测模型预测调价后t+1时刻的第一预测数据,通过所述第二销量预测模型预测未调价情况下的t+1时刻的第二预测数据,基于所述第一预测数据和所述第二预测数据的差异,确定奖励值,以及基于所述奖励值,调整所述自动定价模型的参数,实现对所述自动定价模型的预训练。在本专利技术的又一个实施例中,所述基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练包括通过所述第三销量预测模型预测未调价情况下的下一时刻的第三预测数据,基于所述第三预测数据与下一时刻实际销量的差异,确定奖励值,基于所述奖励值,调整所述自动定价模型的参数,实现对所述自动定价模型的在线训练。在本专利技术的再一个实施例中,所述第二价格用于监控所述第一价格是否发生异常包括当所述第一价格与所述第二价格的比值连续超出预定范围达到预定次数时,确定所述第一价格发生异常。在本专利技术实施方式的第二方面中,提供了一种数据处理装置,包括构建模块、获得模块、预训练模块、定价模块以及监控模块。构建模块,用于构建基于强化学习的自动定价模型。获得模块,用于获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型。预训练模块,用于基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测。定价模块,用于基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测。监控模块,用于通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。在本专利技术实施方式的第三方面中,提供了一种介质,其上存储有可执行指令,所述指令被处理单元执行时使所述处理单元执行上述任一项所述的方法。在本专利技术实施方式的第四方面中,提供了一种电子设备,包括处理单元,以及存储单元,其上存储有可执行指令,所述指令被所述处理单元执行时使所述处理单元执行如上所述的方法。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1示意性地示出了根据本专利技术实施方式的数据处理方法的应用场景的示意图;图2示意性地示出了根据本专利技术示例性实施例的数据处理方法的流程图;图3示意性地示出了根据本专利技术示例性实施例的对所述自动定价模型进行预训练的流程图;图4示意性地示出了根据本专利技术示例性实施例的对所述自动定价模型进行在线训练的流程图;图5示意性地示出了根据本专利技术示例性实施例的数据处理装置的框图;图6示意性地示出了根据本专利技术示例性实施例的计算机可读存储介质的示意图;以及图7示意性地示出了根据本专利技术示例性实施例的电子设备的方框图。在附图中,相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围本文档来自技高网...

【技术保护点】
1.一种数据处理方法,包括:/n构建基于强化学习的自动定价模型;/n获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型;/n基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测;/n基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测;以及/n通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。/n

【技术特征摘要】
1.一种数据处理方法,包括:
构建基于强化学习的自动定价模型;
获得离线数据和多个销量预测模型,其中,所述多个销量预测模型包括第一销量预测模型、第二销量预测模型、第三销量预测模型以及第四销量预测模型;
基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练,其中,所述第一销量预测模型基于调价后的价格进行销量预测,所述第二销量预测模型基于未调价的价格进行销量预测;
基于在线数据以及所述第三销量预测模型,对所述自动定价模型进行在线训练,并基于所述自动定价模型处理所述在线数据,产生第一价格作为定价结果,其中,所述第三销量预测模型基于未调价的价格进行销量预测;以及
通过所述第四销量预测模型预测使得销售额达到最大的第二价格,所述第二价格用于监控所述第一价格是否发生异常。


2.根据权利要求1所述的方法,其中,所述自动定价模型包括基于深度确定性策略梯度算法的强化学习模型,所述销量预测模型为XGBoost模型。


3.根据权利要求1所述的方法,其中,所述自动定价模型至少基于t时刻的状态输出t时刻的动作,根据t+1时刻的状态确定奖励值,并基于所述奖励值训练模型参数,其中:
所述状态包括页面价格、成本价格、销售量、库存、商品点击量、评论数、商品类目、即将过期的商品库存、竞品价格、商品等级中的一种或多种。


4.根据权利要求3所述的方法,其中:
在训练初期,所述动作表示为权重向量,由所述权重向量和基于所述状态确定的状态向量的内积确定价格调整参数;
在训练后期,所述动作表示为价格调整参数;
所述自动定价模型还用于根据预定的风险控制规则限制所述价格调整参数的取值范围。


5.根据权利要求3所述的方法,其中,所述奖励值基于以下数据确定:
t时刻的销售额或者销售额的增长量;以及
基于库存和/或单件利润的势函数的值。


6.根据权利要求3所述的方法,其中,所述基于所述离线数据、所述第一销量预测模型以及所述第二销量预测模型,对所述自动定价模型进行预训练包括:
基于所述离线数据中的t时刻的数据,通过所述自动定价模型确定动作;
基于所述离线数据中的t时刻的数据以及所述动作,通过所述第一销量预测模型预测调...

【专利技术属性】
技术研发人员:董家骥
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1