【技术实现步骤摘要】
基于生成对抗模仿学习的用户轨迹生成方法及装置
[0001]本公开涉及用户轨迹生成
,具体涉及一种基于生成对抗模仿学习的用户轨迹生成方法及装置。
技术介绍
[0002]人工合成的轨迹对于网络服务优化、运输调度等实际应用场景是有帮助的。例如,在蜂窝网络中,可以基于合成的轨迹,模拟网络用户移动和通信的详细过程,从而获得网络的可靠性能分析。同样,我们可以根据人工合成的轨迹来模拟在实施某些政策(例如,道路扩建)之前和之后的交通拥堵情况,以便进行城市规划。
[0003]然而,由于高尺度、复杂的时空相关性和迁移率轨迹的随机性,人的轨迹的合成具有挑战性。深度学习范式的兴起为合成高质量的人类轨迹提供了有前途的解决方案,其中最成功、最突出的方法是基于生成对抗网络(GAN)。GAN利用生成器来合成新数据,并利用鉴别器来区分生成的数据和实际数据;然后,通过生成器网络和鉴别器网络之间的相互博弈对网络进行训练,以生成与真实数据相似度较高的数据。现有技术利用GAN强大的建模能力,将其与CNN和RNN相结合以合成人类轨迹。但是,人类的轨迹是由 ...
【技术保护点】
【技术特征摘要】
1.一种基于生成对抗模仿学习的用户轨迹生成方法,包括:构建基于生成对抗模仿学习的策略函数网络和回报函数网络;基于用户的历史移动轨迹对所述策略函数网络和回报函数网络进行训练,得到用户轨迹生成模型;将用户的状态信息输入所述用户轨迹生成模型中,生成用户的移动轨迹,其中,所述状态信息至少包括第一用户属性状态和第二用户属性状态,所述第一用户属性状态包括用户所在的地点,所述第二用户属性状态包括除用户所在的地点之外与用户相关的特征状态。2.根据权利要求1所述的方法,其中,在构建基于生成对抗模仿学习的策略函数网络和回报函数网络之前,所述方法还包括基于马尔科夫决策过程构建用户移动行为模型,具体包括:确定用户的状态空间,其中,所述状态空间包括时间状态、所述第一用户属性状态以及所述第二用户属性状态;确定用户的动作空间,其中,所述动作空间包括停留、住所回归、偏好回归以及探索;基于所述状态空间和所述动作空间构建用户的状态转移函数,其中,所述用户的状态转移函数表示用户当前处于状态s
i
、进行动作a
i
时,到达下一状态s
i+1
的概率分布。3.根据权利要求2所述的方法,其中,在用户当前所处的状态包括用户当前所在的地点l
i
时,基于所述状态空间和所述动作空间构建用户的状态转移函数,包括:在用户当前的动作为停留或住所回归时,下一状态s
i+1
为当前所在的地点的概率确定;在用户当前的动作为偏好回归时,下一状态s
i+1
所在的地点根据如下概率分布确定:P(l
i+1
=l|s
i
,a
i
=Return)=k
l
/k
all
其中,k
l
表示用户访问地点l的次数,k
all
表示用户对所有地点的总访问次数;在用户当前的动作为探索时,将用户未访问过的地点按照与当前地点的距离远近进行排序,确定下一状态s
i+1
访问新地点的概率分布,所述概率分布表示为:P(l
i+1
=l|s
i
,a
i
=Explore)
∝
k(l,l
i
)
‑
α
其中,k(l,l
i
)为排序大小,参数α表示用户对距离的敏感程度。4.根据权利要求2所述的方法,其中,所述策略函数网络的构建包括:基于用户移动行为模型对用户的历史移动轨迹进行特征提取,得到用户的目标状态特征;对所述目标状态特征进行处理得到密集表示向量;使用自我注意机制从所述密集表示向量中提取非线性网络;使用softmax激活函数对所述非线性网络进行归一化处理,输出策略结果,其中,所述策略结果包括每个动作在相应状态下的概率分布。5.根据权利要求4所述的方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。