一种行为引导资源投放策略生成方法及装置制造方法及图纸

技术编号:26173106 阅读:13 留言:0更新日期:2020-10-31 13:54
本申请提供了一种行为引导资源投放策略生成方法及装置,首先,获取多个历史异常事件的历史事件信息;其次,针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;然后,基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于生成针对所述目标用户的投放行为引导资源的目标投放策略。与现有技术中相比,能够根据用户当前的状态信息生成投放策略,进而实现精确定位用户所需的行为引导资源,投放精度高。

【技术实现步骤摘要】
一种行为引导资源投放策略生成方法及装置
本申请涉及计算机
,尤其是涉及一种行为引导资源投放策略生成方法及装置。
技术介绍
在许多生活与工作场景中,人们由于缺少必要的信息,会做出一些异常行为,进而形成异常事件,这些异常事件通常会影响工作的效率,严重时,甚至会威胁到财产或人身安全。在这时,可以通过向这些人们投放一些行为引导资源,来降低接到行为引导资源的人做出异常行为的概率,从而降低出现异常事件的概率。然而不同的人对于行为引导资源的反映效果不同,所适合的行为引导资源也不同,如何制定行为引导资源的投放策略是一个亟待解决的技术问题。目前,通常采用针对不同种类的人群所需的行为引导资源,统一进行行为引导资源投放的策略,但是,这种策略无法准确投放单个用户所需要的行为引导资源,投放精度较低。
技术实现思路
有鉴于此,本申请的目的在于提供一种行为引导资源投放策略生成方法及装置,能够精确定位用户所需的行为引导资源,投放精度高。根据本申请的一个方面,提供一种电子设备,可以包括一个或多个存储介质、一个或多个与存储介质通信的处理器和总线。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行所述机器可读指令,可以执行一个或多个以下操作:获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:根据所述目标投放策略,对所述目标用户投放行为引导资源;确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。在本申请的一些实施例中,处理器执行所述机器可读指令时,可以执行一个或多个以下操作:根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。根据本申请的一个方面,提供一种行为引导资源投放策略生成方法,包括:获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。在本申请的一些实施例中,所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型,包括:利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。本文档来自技高网...

【技术保护点】
1.一种行为引导资源投放策略生成方法,其特征在于,所述方法包括:/n获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;/n针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;/n基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;/n所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。/n

【技术特征摘要】
1.一种行为引导资源投放策略生成方法,其特征在于,所述方法包括:
获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中包括发生异常行为的历史用户在发生异常行为时的第一状态信息和接收到行为引导资源预设时间段之后的第二状态信息,以及所述历史用户对应的历史资源投放信息;
针对每个所述历史事件信息,确定所述第一状态信息对应的第一状态特征、所述第二状态信息对应的第二状态特征、历史资源投放特征以及历史资源投放效果特征;
基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型;
所述训练好的投放策略生成模型,用于基于目标用户的第一目标状态信息,生成针对所述目标用户的投放行为引导资源的目标投放策略。


2.根据权利要求1所述的方法,其特征在于,所述基于每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,训练投放策略生成模型,包括:
利用每个历史事件信息对应的所述第一状态特征、所述第二状态特征、所述历史资源投放特征及所述历史资源投放效果特征,对预先构建好的深度增强学习模型进行训练,得到使所述深度增强学习模型输出的行为引导资源的投放策略对应的行为变化期望最大的第一模型参数;
利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略;
根据所述测试投放策略,对所述至少一个测试用户进行行为引导资源的测试投放,并确定测试投放的预设时间段之后,所述测试用户的第二测试状态信息;
根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数;
将参数为所述第二模型参数的深度增强学习模型作为训练好的投放策略生成模型。


3.根据权利要求2所述的方法,其特征在于,所述利用所述第一模型参数及所述深度增强学习模型,以及至少一个测试用户的第一测试状态信息,生成针对所述测试用户的投放行为引导资源的测试投放策略,包括:
根据所述至少一个测试用户的第一测试状态信息,确定每个所述第一测试状态信息对应的第一测试状态特征;
将每个所述第一测试状态特征输入至参数为所述第一模型参数的深度增强学习模型中,得到针对所述测试用户的投放行为引导资源的测试投放策略。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一测试状态信息、第二测试状态信息,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数,包括:
根据所述第二测试状态信息,确定所述第二测试状态信息对应的第二测试状态特征;
根据所述第一测试状态特征及所述第二测试状态特征,确定所述测试用户对应的测试资源投放效果特征;
利用所述第一测试状态信息、第二测试状态信息、测试资源投放反馈特征,以及预设的反向传播代价函数,对所述深度增强学习模型的参数进行更新,得到第二模型参数。


5.根据权利要求1所述的方法,其特征在于,所述目标用户的数量为至少一个,所述训练好的投放策略生成模型,具体用于:
基于每个目标用户的第一目标状态信息,确定每个目标用户对应的第一目标状态特征;
将每个第一目标状态特征输入至所述行为引导资源投放策略生成模型中,得到针对全部目标用户的投放行为引导资源的目标投放策略。


6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述目标投放策略,对所述目标用户投放行为引导资源;
确定在根据所述目标投放策略,对所述目标用户投放行为引导资源预设时间段之后,每个目标用户的第二目标状态信息;
根据每个目标用户的所述第一状态信息、所述第二状态信息,以及预设的反向传播代价函数,对所述投放策略生成模型的参数进行更新。


7.根据权利要求6所述的方法,其特征在于,所述根据所述目标投放策略,对所述目标用户投放行为引导资源,包括:
根据所述目标投放策略指示的需要进行行为引导资源投放的目标投放用户、以及每个目标投放用户对应的投放时间及投放内容,对所述目标投放用户进行行为引导资源的投放。


8.一种行为引导资源投放策略生成装置,其特征在于,所述装置包括:
获取模块,用于获取多个历史异常事件的历史事件信息,其中,所述历史事件信息中...

【专利技术属性】
技术研发人员:郄小虎郭健
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1