基于机器学习构建模拟环境的智能营销策略的训练方法技术

技术编号：24685066 阅读：33 留言：0更新日期：2020-06-27 08:24

本发明专利技术公开了一种基于机器学习构建模拟环境的智能营销策略的训练方法，主要包括(1)基于机器学习的模拟营销平台环境构建、(2)基于模拟营销平台环境的营销策略搜索、(3)营销策略迁移优化三大部分，解决营销系统领域里的试错成本高、营销平台变化快、营销策略求解难的问题。

Training method of intelligent marketing strategy based on machine learning to build simulation environment

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习构建模拟环境的智能营销策略的训练方法
本专利技术涉及一种基于机器学习构建模拟环境的智能营销策略的训练方法，涉及人工智能及互联网数据处理

技术介绍
营销的过程通常是营销者设计好素材，选择营销受众(即目标群体)、预算等可配置参数，将素材投放在社交媒体平台上，平台根据内部的策略进行展示，根据投放平台反馈的统计数据信息，如浏览量、下载量，实际费用等，更新受众、预算等可配置参数，直至该投放过程结束。这是一个典型的序列决策过程，营销的目标是使得实际费用尽可能低的情况下，在目标受众上的转化率(可定为下载量或浏览量)尽可能高。由于素材投放之后，平台内部会在大量的投放素材之间进行竞价和推荐，最终进行展示，而平台的策略无法直接获得，也间接导致素材的投放是一个持续的、动态变化的过程，投放者需要凭借直觉和经验决策，即决定如何进行下一次投放。强化学习通过让智能体与环境不断交互试错，提升智能体自身的决策能力和效率，使智能体在环境中逐渐学得最优控制策略(即最优决策策略)，自动完成决策任务。然而，强化学习的学习过程需要智能体与...

【技术保护点】
1.一种基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现；/n营销环境模拟器构造模块利用真实营销环境中的历史交互数据，首先以投放者视角，对交互数据作状态和动作编码为S和a，其中状态S包含平台反馈的统计信息，动作a为投放行为，并按照时间先后顺序，得到对应的状态-动作序列，即(S0,a0,S1,a1,…,ST)序列；营销环境模拟器利用机器学习方法，从编码并划分完成的状态-动作序列中学得营销环境模型，作为营销环境模拟器，该模型输入当前的“状态”与执行的“动作”，输出动作执行完成后的下一个“状态”；/n营销环境模拟器构造完成后，...

【技术特征摘要】
1.一种基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现；
营销环境模拟器构造模块利用真实营销环境中的历史交互数据，首先以投放者视角，对交互数据作状态和动作编码为S和a，其中状态S包含平台反馈的统计信息，动作a为投放行为，并按照时间先后顺序，得到对应的状态-动作序列，即(S0,a0,S1,a1,…,ST)序列；营销环境模拟器利用机器学习方法，从编码并划分完成的状态-动作序列中学得营销环境模型，作为营销环境模拟器，该模型输入当前的“状态”与执行的“动作”，输出动作执行完成后的下一个“状态”；
营销环境模拟器构造完成后，策略搜索模块利用策略搜索方法，和营销环境模拟器交互，进行策略优化；为了增强策略的鲁棒性，在训练时进行噪声扰动；
将搜索得到的营销策略部署后，策略迁移优化模块需要收集部署后产生的新的交互数据，用于对营销环境模拟器的进一步更新，并重新搜索策略，以提高各个模型的准确度和适应性。

2.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：策略搜索模块中，策略优化目标为最大化下载量与实际花费的比值，并根据实际场景，建立约束，通过搜索之后，得到投放策略。

3.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：使用监督学习算法获得营销环境模拟器流程为：
首先，对真实营销环境中的历史营销的交互数据进行划分，得到多个(St,at,St+1)元组，St+1为St的下一个状态；
然后，使用监督学习方法，将(St,at)作为样本，St+1作为预测目标，从划分后的数据集中训练出模拟器模型；
最后，训练后模型根据输入的状态-动作对，预测下一个状态，作为营销环境模拟器使用。

4.如权利要求3所述的基于机器学习构建模拟环境的智能营销策略的训练方法，其特征在于：采用对抗学习技术缓解监督学习带来的复合误差的影响，具体实施过程如下：
首先，建立若干神经网络作为投放策略模型和营销环境模型；
其次，建立一个神经网络作为判别器，用于判别某条生成(S0,a0,S1,a1,…,Sn)轨迹序列的可信度；
然后，通过投放策略模型和营销环境模型进行投放者和营销环境交互，生成一批(S0,a0,S1,a1,…,Sn)轨迹序列，用生成的(S0,a0,S1,a1,…,Sn)轨迹序列和真实数据中的(S0,a0,S1,a1,…,Sn)轨迹序列更新判别器，将真实轨迹序列数据集记为D，训练过程中的生成的轨迹序列数据集记为D’，更新目标如下：

其中f为判别器，f(τ),f(τ′)分别表示判别器在单条真实轨迹和生成轨迹上输出的可信度；
再次，用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)轨迹序列打分，即输出可信度，作为该条轨迹的期望奖励，用强化学习算法更新营销投放策略和营销环境模型；
然后，重复以上两步，直到达到最大循环次数；
最后，将通过以上过程训练完成后的营销环境模型作为营销环境模拟器使用。

【专利技术属性】
技术研发人员：俞扬，秦熔均，姜允执，池飞，
申请(专利权)人：南栖仙策南京科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人