【技术实现步骤摘要】
一种基于深度强化学习的日程安排推荐方法
本专利技术涉及人工智能和强化学习
,特别是一种基于深度强化学习的日程安排推荐方法。
技术介绍
城市的快速发展使得能够满足人们日常需求的POI(PointofInterest,兴趣点)具有数量多,分布广且无规律等特征。必不可少地,在日常生活中人们每天都会考虑自己的日常安排来满足自己的需求。比如,用户在一天内的需求包括先去理发店里理发,再去餐馆里吃饭,最后去超市购物。然而,人们在制定这个日程安排时通常都会思考这些问题。比如,我应该去哪个地方理发?我应该先去理发店理发,还是先去超市购物呢?不同的日程安排产生的结果也是不同的,如需要行走的距离长,交通拥堵,或享受到的POI服务质量低等。推荐合理的日程安排,人们会节省大量的时间和距离且得到更好的服务。因此,对于人们在城市生活中的日程安排,开发独特的技术来为人们提供便利是非常重要的。强化学习描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化的问题,其具有状态、动作、状态转移、奖励和策略等要素。由于强化学习是一个无监督方法 ...
【技术保护点】
1.一种基于深度强化学习的日程安排推荐方法,其特征在于,包括训练日程安排模型的步骤:/n步骤1:根据用户当前位置的坐标和用户需求列表NL,从POI数据集中读取距离用户当前位置最近的kn个候选POI的id;其中,k表示用户需求列表NL中的用户需求类别数,n表示为用户提供同一需求类别的POI个数;/n步骤2:根据用户当前位置和kn个候选POI的id,从POI特征数据集中读取kn个候选POI的特征,并对每个候选POI的每个特征进行归一化;所述POI的特征为向量
【技术特征摘要】
1.一种基于深度强化学习的日程安排推荐方法,其特征在于,包括训练日程安排模型的步骤:
步骤1:根据用户当前位置的坐标和用户需求列表NL,从POI数据集中读取距离用户当前位置最近的kn个候选POI的id;其中,k表示用户需求列表NL中的用户需求类别数,n表示为用户提供同一需求类别的POI个数;
步骤2:根据用户当前位置和kn个候选POI的id,从POI特征数据集中读取kn个候选POI的特征,并对每个候选POI的每个特征进行归一化;所述POI的特征为向量
其中,#distance表示用户当前位置与候选POI之间的距离,或在kn个候选POI中任意两个POI之间的距离;#walking-distance表示用户从当前位置到任一个候选POI需要步行的距离,或在kn个候选POI中用户从一个POI到另一个POI需要步行的距离;#cost表示用户从当前位置到任一个候选POI需要支出的费用,或在kn个候选POI中用户从一个POI到另一个POI需要支出的费用;#expedite表示用户当前位置与候选POI之间交通状态为畅通的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为畅通的路段在整个路段的占比;#slow-moving表示用户当前位置与候选POI之间交通状态为缓行的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为缓行的路段在整个路段的占比;#congestion表示用户当前位置与候选POI之间交通状态为拥堵的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为拥堵的路段在整个路段的占比;#unknown表示用户当前位置与候选POI之间交通状态为未知的路段在整个路段的占比,或在kn个候选POI中任意两个POI之间交通状态为未知的路段在整个路段的占比;#duration用户从当前位置到任一个候选POI需花费的时间,或在kn个候选POI中用户从一个POI到另一个POI需花费的时间;#rating表示用户对kn个候选POI的服务评分;
步骤3:设置最大训练次数为E;
步骤4:将用户在时间步t的状态st输入到活动因素权衡网络DAFB中,得到所有候选POI的概率分布;
其中,st=<NLt,dst,Xt>,NLt是用户在时间步t的需求列表,dst是用户在时间步t的日程安排,Xt包含了用户在时间步t可选的当初始时间步即t=0时,ds0是空集;
在候选POI的概率分布中,每个POI被选中的概率为:
其中,表示用户在状态st下进行选择POI的动作at*的概率;表示在状态st下进行选择POI的动作at*的活动因素权衡网络DAFB,θ表示活动因素权衡...
【专利技术属性】
技术研发人员:李天瑞,刘佳,黄维,翟东海,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。