一种用户行为模拟方法、装置、电子设备及存储介质制造方法及图纸

技术编号：29373054 阅读：24 留言：0更新日期：2021-07-23 22:00

本申请提供了一种用户行为模拟方法、装置、电子设备及存储介质，该方法包括：根据获取的地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹；针对每个状态信息及对应的行为信息的组合，从预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新行为价值函数，并返回根据地图配置信息及行为价值函数，在游戏地图中对用户进行行为模拟，得到预测行为轨迹的步骤，直至收敛；在获取到当前状态信息之后，根据行为价值函数，计算不同行为信息对应的奖励信息，根据计算得到的取值较高的奖励信息对应的行为信息，模拟用户行为。这样，最终得到能够模拟用户行为的行为价值函数，用于模拟用户行为。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户行为模拟方法、装置、电子设备及存储介质
本申请涉及行为分析
，特别是涉及一种用户行为模拟方法、装置、电子设备及存储介质。
技术介绍
掷骰通关类型的游戏是一种常见的小游戏类型，在这类游戏中的主要元素有游戏角色、游戏地图和骰子，其中，游戏角色是用户在游戏中的代理，游戏地图是游戏角色在游戏过程中所处的环境，在用户每次做决策时，需要投掷一次骰子。用户的行为受到骰子掷出点数的制约。举例而言，在爬房子游戏中，用户需要同时操纵2个游戏角色，首先，用户每轮可以投掷一次骰子，并根据骰子掷出的点数做出相应的决策，进而通过操纵决策中选定的游戏角色，与游戏地图进行交互，在游戏地图的格子上前进掷出的点数个格子，直到2个游戏角色同时达到指定的位置，完成游戏的通关。其中，用户每次投掷骰子的成本为c，在游戏地图的格子上，会随机摆放M个礼物，用户操纵的角色如果踩到了某个格子上，就会获得这个格子上摆放的礼物，得到特定的金额，而且，当游戏通关后，用户也会得到特定金额的奖励。因此，假设用户在一局游戏中一共获取的奖品金额为V，用户进行一...

【技术保护点】
1.一种用户行为模拟方法，其特征在于，所述方法包括：/n获取游戏地图的地图配置信息及用户的行为价值函数；/n根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹，所述预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息；/n针对每个所述状态信息及对应的行为信息的组合，从所述预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，并返回所述根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹的步骤，直至所述行为价值函数收敛；/n在获取到当前...

【技术特征摘要】
1.一种用户行为模拟方法，其特征在于，所述方法包括：
获取游戏地图的地图配置信息及用户的行为价值函数；
根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹，所述预测行为轨迹中包括多个连续的轨迹信息，每个轨迹信息包括状态信息、行为信息及奖励信息；
针对每个所述状态信息及对应的行为信息的组合，从所述预测行为轨迹中查找该组合对应的轨迹信息，根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，并返回所述根据所述地图配置信息及所述行为价值函数，在所述游戏地图中对所述用户进行行为模拟，得到预测行为轨迹的步骤，直至所述行为价值函数收敛；
在获取到当前状态信息之后，根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，根据计算得到的取值最高的奖励信息对应的行为信息，模拟用户在当前状态的行为。

2.根据权利要求1所述的方法，其特征在于，所述根据查找到的轨迹信息中的奖励信息，更新所述行为价值函数，包括：
针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值，其中，每个奖励信息的权重与其对应的轨迹信息与该轨迹信息之间的距离成反比；
计算每个组合对应的多个轨迹信息的回报值的均值，作为该组合的回报值，更新所述行为价值函数中该组合的回报值。

3.根据权利要求2所述的方法，其特征在于，采用如下公式，针对每个查找到的轨迹信息，对该轨迹信息及其之后查找到的其他轨迹信息中的奖励信息进行加权求和，得到该轨迹信息的回报值：

其中，γ是预设折现因子，取值为0≤γ≤1，Gt为该轨迹信息的回报值，t为当前轨迹信息的位置，Rt+1、Rt+2……Rt+k+1为该轨迹信息之后的轨迹信息的奖励信息，inf表示无穷大。

4.根据权利要求2所述的方法，其特征在于，所述行为信息对应多个预设用户行为中的任一种，所述根据收敛后的所述行为价值函数及所述当前状态信息，分别计算不同行为信息对应的奖励信息，包括：
针对每个行为信息，确定所述当前状态信息与该行为信息分别对应的组合，作为候选组合；
根据收敛后的所述行为价值函数，计算每个候选组合对应的回报值，作为该候选组合中行为信息对应的奖励信息。

5.根据权利要求1所述的方法，其特征在于，所述状态信息中包括第一角色的位置、第二角色的位置以及投掷点数，所述行为信息中包括选择所述第一角色或选择所述...

【专利技术属性】
技术研发人员：陈坤龙，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：新加坡;SG

全部详细技术资料下载我是这个专利的主人