基于模拟训练的价格谈判策略模型学习方法技术

技术编号：26173899 阅读：49 留言：0更新日期：2020-10-31 13:59

本发明专利技术公开一种基于模拟训练的价格谈判策略模型学习方法，该方法以(1)基于机器学习的价格谈判对手模拟器构建、(2)基于虚拟环境的智能价格谈判策略优化、(3)价格谈判策略的迁移优化三大模块为特点，解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于模拟训练的价格谈判策略模型学习方法
本专利技术涉及一种基于模拟训练的价格谈判策略模型学习方法，具体是一种在基于机器学习方法构建的虚拟环境(即模拟器)中对在线交易平台的智能价格谈判策略进行训练的方法，属于人工智能及互联网数据处理

技术介绍
在线电商平台的价格谈判过程中，价格谈判的过程通常由买方发起，买卖双方根据交易涉及的商品信息和己方对商品价值的评估，通过自身的价格策略交替对商品进行出价，直至双方就最终成交价格达成一致，或谈判破裂为止。从卖方的角度看来，这是一个典型的序列决策过程，价格谈判的目标是在尽可能提高成交价格的同时保证谈判能够成功。由于价格谈判中，卖方无从得知买方的价格策略，并且买方仍能够通过交易平台对相似的其他商品进行比价，因此价格谈判的过程一般是一个持续的、动态变化的过程，卖家在此过程中需要根据个人经验进行决策，即决定下一轮是否要接受对方的报价，或提出怎样的报价。强化学习是学习过程要求智能体与环境不断交互试错，以帮助智能体在环境中逐渐学得最优控制策略(即最优决策策略)，从而自动完成决策任务。然...

【技术保护点】
1.一种基于模拟训练的价格谈判策略模型学习方法，其特征在于，通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现；/n价格谈判对手模拟环境构造模块中，从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据，并对交互数据进行学习；学习过程中，基于卖方视角对交互数据作状态和动作数据分析，并将状态数据和动作数据分别编码为S和a，编码完成后，根据时间先后顺序，将交互数据排列为对应的状态-动作序列，即(S

【技术特征摘要】
1.一种基于模拟训练的价格谈判策略模型学习方法，其特征在于，通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现；
价格谈判对手模拟环境构造模块中，从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据，并对交互数据进行学习；学习过程中，基于卖方视角对交互数据作状态和动作数据分析，并将状态数据和动作数据分别编码为S和a，编码完成后，根据时间先后顺序，将交互数据排列为对应的状态-动作序列，即(S0,a0,S1,a1,…,ST)序列；利用机器学习方法，从前述状态-动作序列中学习得到两类对手策略模型，即一般买家策略模型和对抗式对手策略模型；将这两类对手策略模型混合，混合后的策略模型作为价格谈判对手模拟器，该模拟器输入当前的状态数据与卖方执行的动作数据，并输出动作数据执行完成后的下一个状态数据；
价格谈判对手模拟器构建完成后，卖家策略搜索模块利用策略搜索方法，与价格谈判对手模拟器交互，进行策略优化；
策略迁移模块需要收集部署卖家策略搜索模块提供的策略后，交易平台产生的新的交互数据，用于对价格谈判对手模拟器的进一步更新，并通过卖家策略搜索模块重新搜索策略。

2.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，价格谈判对手模拟器构建过程主要分为三步：
首先，构建一般买家策略模型，该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式；
其次，构建对抗式对手策略模型，该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式；
最后，通过选择一个策略选择函数，将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型，作为价格谈判对手模拟器使用。

3.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，构建一般买家策略模型时，采用神经网络作为一般买家策略模型，准备好状态-动作序列后，由于模型的输入为当前一步的状态和动作，输出为下一步状态，将从真实环境中收集到的交互数据、即状态-动作序列(S0,a0,S1,a1,…,ST)进行切分，划分出多个(St,at,St+1)的元组，其中St为策略模型当前一步的状态，at为当前一步的动作，St+1为策略模型输出的下一步状态；其中(St,at)作为一般买家策略模型的输入，St+1为输出；一般买家策略模型需要学习这个输入到输出的对应关系；使用监督学习方法对这个对应关系进行学习，具体方案如下：
首先，对真实环境中的在线交易平台的历史交互数据进行划分，得到由多个(St,at,St+1)元组组成的数据集，St+1为St的下一个状态；
然后，使用监督学习方法，将(St,at)作为样本，St+1作为预测目标，从划分后的数据集中训练出模拟器模型；
最后，训练后模拟器模型根据输入的状态-动作对(St,at)，预测下一个状态St+1，作为价格谈判对手模拟器中的一般买家策略模型使用。

4.根据权利要求3所述的基于模拟训练的价格谈判策略模型学习方法，其特征在于，使用对抗学习训练一般买家策略模型，具体方案如下：
(1)建立若干神经网络作为卖方策略模型和价格谈判对手模型；
(2)建立一个神经网络作为判别器，用于判别某条生成(S0,a0,S1,a1,…,Sn)序列的可信度；
(3)通过卖方策略模型和价格谈判对手模型进行交互训练，生成一批(S0,a0,S1,a1,…,Sn)序列，用生成的(S0,a0,S1,a1,…,Sn)序列和交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列更新判别器，将交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列数据集记为D，训练过程中的生成的(S0,a0,S1,a1,…,Sn)序列数据集记为D’，更新目标如下：

其中f为判别器，f(τ),f(τ′)分别表示判别器在D中单条(S0,a0,S1,a1,…,Sn)序列和D’中单条(S0,a0,S1,a1,…,Sn)序列上输出的可信度。具体实施时，可令判别器f计算出f(St,at,St+1)作为状态-动作-状态对(St,at,St+1)三元组置信度，并按照的方式计算判别器对单条序列输出的...

【专利技术属性】
技术研发人员：俞扬，詹德川，周志华，姜允执，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人