当前位置: 首页 > 专利查询>南京大学专利>正文

基于模拟训练的价格谈判策略模型学习方法技术

技术编号:26173899 阅读:47 留言:0更新日期:2020-10-31 13:59
本发明专利技术公开一种基于模拟训练的价格谈判策略模型学习方法,该方法以(1)基于机器学习的价格谈判对手模拟器构建、(2)基于虚拟环境的智能价格谈判策略优化、(3)价格谈判策略的迁移优化三大模块为特点,解决以往智能价格谈判领域的方案试错成本高、泛化性能差、策略易受攻击的问题。

【技术实现步骤摘要】
基于模拟训练的价格谈判策略模型学习方法
本专利技术涉及一种基于模拟训练的价格谈判策略模型学习方法,具体是一种在基于机器学习方法构建的虚拟环境(即模拟器)中对在线交易平台的智能价格谈判策略进行训练的方法,属于人工智能及互联网数据处理

技术介绍
在线电商平台的价格谈判过程中,价格谈判的过程通常由买方发起,买卖双方根据交易涉及的商品信息和己方对商品价值的评估,通过自身的价格策略交替对商品进行出价,直至双方就最终成交价格达成一致,或谈判破裂为止。从卖方的角度看来,这是一个典型的序列决策过程,价格谈判的目标是在尽可能提高成交价格的同时保证谈判能够成功。由于价格谈判中,卖方无从得知买方的价格策略,并且买方仍能够通过交易平台对相似的其他商品进行比价,因此价格谈判的过程一般是一个持续的、动态变化的过程,卖家在此过程中需要根据个人经验进行决策,即决定下一轮是否要接受对方的报价,或提出怎样的报价。强化学习是学习过程要求智能体与环境不断交互试错,以帮助智能体在环境中逐渐学得最优控制策略(即最优决策策略),从而自动完成决策任务。然而,强化学习的过程中令智能体与环境进行大量交互试错的过程,在实际的价格谈判过程中是难以实行的。如果在实际的谈判过程中直接使用强化学习,则需要使用大量不同的价格策略配置在真实的交易平台中进行试错,然后从这些策略与平台中的买家的交互轨迹中,学习得到最优的价格策略,显然这种方法会带来巨大的经济损失和时间成本,是无法接受的。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于模拟训练的价格谈判策略模型学习方法。技术方案:一种基于模拟训练的价格谈判策略模型学习方法,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现,由于在现实中的在线交易平台上,通常在一段较短时间内仅有一名买家与卖家进行价格谈判过程,因此本专利技术在对价格谈判对手模拟环境构造时,只考虑一对一的价格谈判过程,在每次卖方出价后,谈判对手模拟环境给出买方的新一轮出价。价格谈判对手模拟环境构造模块中,从真实环境的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型,二者分别对应平台中的普通买家和恶意攻击者;随后将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据。价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化。例如优化目标为最大化成交价格的均值,并根据实际场景,建立约束,如限制成交价格大于底价等,通过策略搜索方法,得到价格谈判策略。由于价格谈判对手模拟器和真实买家策略的状态和动作空间具有一致性,可将在价格谈判对手模拟环境中学得的价格谈判策略直接应用到真实交易平台上的价格谈判过程中,但在实际价格谈判场景中,买家的策略通常也随时间的变化而不断改变,因此将搜索得到的价格谈判策略部署后,策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略,以提高价格谈判对手模拟器和从模拟器中搜索得到的价格谈判策略模型的准确度和适应性。所述状态S包含买方的个人信息、近期浏览商品等要素,以及对当前商品的历史出价等要素,所述动作a则为卖方针对对方出价给出的应对,如新出价或成交等。有益效果:本专利技术通过对交易平台中的真实买家行为进行建模、构建价格谈判对手模拟环境的方式,有效的降低了利用强化学习搜索价格谈判策略时的采样代价和采样风险,使得强化学习得以应用至价格谈判领域。此外,本专利技术中通过在价格谈判模拟环境中加入对抗式对手的方法,令使用该模拟环境进行搜索得到的价格谈判策略具有较好的鲁棒性,能够有效的应对真实环境中可能存在的恶意攻击者,降低恶意数据的影响,提高价格谈判策略在遭受恶意攻击时的收益。附图说明图1是本专利技术模块之间交互关系图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,基于模拟训练的价格谈判策略模型学习方法,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现,由于在现实中的在线交易平台上,通常在一段较短时间内仅有一名买家与卖家进行价格谈判过程,因此本专利技术在对价格谈判对手模拟环境构造时,只考虑一对一的价格谈判过程,在每次卖方出价后,谈判对手模拟环境给出买方的新一轮出价。价格谈判对手模拟环境构造模块中,实现价格谈判对手模拟器构建,从真实环境的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型,二者分别对应平台中的普通买家和恶意攻击者;随后将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据。状态S包含买方的个人信息、近期浏览商品等要素,以及对当前商品的历史出价等要素,动作a则为卖方针对对方出价给出的应对,如新出价或成交等。价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化。例如优化目标为最大化成交价格的均值,并根据实际场景,建立约束,如限制成交价格大于底价等,通过策略搜索方法,得到价格谈判策略。由于价格谈判对手模拟器和真实买家策略的状态和动作空间具有一致性,可将在价格谈判对手模拟环境中学得的价格谈判策略直接应用到真实交易平台上的价格谈判过程中,但在实际价格谈判场景中,买家的策略通常也随时间的变化而不断改变,因此将搜索得到的价格谈判策略部署后,策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略。价格谈判对手模拟器构建过程主要分为三步:首先,构建一般买家策略模型,该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式;其次,构建本文档来自技高网...

【技术保护点】
1.一种基于模拟训练的价格谈判策略模型学习方法,其特征在于,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现;/n价格谈判对手模拟环境构造模块中,从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S

【技术特征摘要】
1.一种基于模拟训练的价格谈判策略模型学习方法,其特征在于,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现;
价格谈判对手模拟环境构造模块中,从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型;将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据;
价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化;
策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略。


2.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,价格谈判对手模拟器构建过程主要分为三步:
首先,构建一般买家策略模型,该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式;
其次,构建对抗式对手策略模型,该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式;
最后,通过选择一个策略选择函数,将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型,作为价格谈判对手模拟器使用。


3.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,构建一般买家策略模型时,采用神经网络作为一般买家策略模型,准备好状态-动作序列后,由于模型的输入为当前一步的状态和动作,输出为下一步状态,将从真实环境中收集到的交互数据、即状态-动作序列(S0,a0,S1,a1,…,ST)进行切分,划分出多个(St,at,St+1)的元组,其中St为策略模型当前一步的状态,at为当前一步的动作,St+1为策略模型输出的下一步状态;其中(St,at)作为一般买家策略模型的输入,St+1为输出;一般买家策略模型需要学习这个输入到输出的对应关系;使用监督学习方法对这个对应关系进行学习,具体方案如下:
首先,对真实环境中的在线交易平台的历史交互数据进行划分,得到由多个(St,at,St+1)元组组成的数据集,St+1为St的下一个状态;
然后,使用监督学习方法,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模拟器模型根据输入的状态-动作对(St,at),预测下一个状态St+1,作为价格谈判对手模拟器中的一般买家策略模型使用。


4.根据权利要求3所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,使用对抗学习训练一般买家策略模型,具体方案如下:
(1)建立若干神经网络作为卖方策略模型和价格谈判对手模型;
(2)建立一个神经网络作为判别器,用于判别某条生成(S0,a0,S1,a1,…,Sn)序列的可信度;
(3)通过卖方策略模型和价格谈判对手模型进行交互训练,生成一批(S0,a0,S1,a1,…,Sn)序列,用生成的(S0,a0,S1,a1,…,Sn)序列和交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列更新判别器,将交易平台产生的真实交互数据的(S0,a0,S1,a1,…,Sn)序列数据集记为D,训练过程中的生成的(S0,a0,S1,a1,…,Sn)序列数据集记为D’,更新目标如下:



其中f为判别器,f(τ),f(τ′)分别表示判别器在D中单条(S0,a0,S1,a1,…,Sn)序列和D’中单条(S0,a0,S1,a1,…,Sn)序列上输出的可信度。具体实施时,可令判别器f计算出f(St,at,St+1)作为状态-动作-状态对(St,at,St+1)三元组置信度,并按照的方式计算判别器对单条序列输出的...

【专利技术属性】
技术研发人员:俞扬詹德川周志华姜允执
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1