一种基于图注意力机制强化学习的货源推荐方法技术

技术编号：33634641 阅读：30 留言：0更新日期：2022-06-02 01:44

本发明专利技术公开了一种基于图注意力机制强化学习的货源推荐方法，使用Actor

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图注意力机制强化学习的货源推荐方法

[0001]本专利技术涉及一种基于图注意力机制强化学习的货源推荐方法，属于

技术介绍

[0002]随着中国经济的迅猛发展，物流需求迅速增加，运输能力受到挑战。此外，我国物流业还面临着司机与货主信息不对称、车辆闲置、返程空载等问题，导致货运成本高。然而，移动互联网技术的兴起为提高运输效率带来了新的机遇。车货匹配是一个新的机遇，它涉及到车货信息集成平台的建立和合理的车货分配。通过车货资源的共享，这样的物流服务平台已经成为提高运输效率、降低运输成本的重要手段。
[0003]就目前市面上主流车货匹配平台来看，这些平台的使用流程为：货主通过App发布货源信息，司机通过App筛选出符合运输条件的货源。由于在线货源的数量巨大，司机需要浏览大量货源，或频繁切换筛选条件才能找到真正合适的货源。因此开发货源推荐系统，来提高司机的搜货效率以及提升平台整体的成交率是很有必要的。
[0004]现代推荐系统正面临着巨大的压力，要应对不断涌现的新用户、不断变化的推荐候选库和上下文相关的利益。而传统的推荐方法注重对用户一致的偏好进行建模，不能反映用户兴趣和环境的高动态性。在这种情况下，交互式推荐是一种有效的解决方案，它结合了动态推荐流程来提高推荐性能。交互式推荐系统将向单个用户推荐货源，然后在迭代期间接收反馈以调整其策略。许多研究将交互推荐模型作为一个多武装强盗(MAB)问题。这种方法通常假设用户的偏好在推荐过程中是一致的，并关注于当前和未来奖励之间的权衡。因此，它们面临着处理动...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制强化学习的货源推荐方法，其特征在于：包括如下具体步骤：步骤1，构建图注意力机制强化学习模型GAMRL，使用Actor网络生成操作，收集用户近期行为数据作为embedding层的输入数据，使用embedding方法对输入数据向量化,将embedding矩阵嵌入到多层自注意力机制层以对数据进行进一步筛选，并使用残差网络保证多层注意力的训练结果；步骤2，设计Critic网络对Actor网络生成的操作进行评估，建立局部物流关系网络来表示用户与货源之间的特定关系，使用图注意力机制GAM捕获局部物流关系网络的高级结构信息，通过训练出来的结果对Actor行为进行评价。2.根据权利要求1所述的基于图注意力机制强化学习的货源推荐方法，其特征在于：所述步骤1中，用户近期行为数据为：用户最近点击浏览的货源信息以及接单的货源信息，货源数据具体表现为：I＝{i
t
‑1,i
t
‑2,i
t
‑3,
…
,i
t
‑
n
}，其中i
t
‑1表示用户t
‑
1时刻感兴趣的货源；与所述若干个近期行为项目相关的尚未被接单的货源信息设为所述用户推荐列表的候选集D(i)。3.根据权利要求1所述的基于图注意力机制强化学习的货源推荐方法，其特征在于：所述步骤1中，自注意力机制层的具体流程为：步骤1.1，通过embedding层获得用户最近行为的向量表示为获得embedding矩阵表示为E∈R
|I|
×
d
，其中d是潜在空间的维数，|I|表示货源矩阵I的维数；使用位置embedding矩阵P∈R
n
×
l
，维持用户先前感兴趣的货源顺序，将两个矩阵嵌入到一个矩阵M，如下所示：然后初始化权重矩阵，将上述矩阵M乘以三个权重矩阵W
Q
、W
K
、W
V
，分别得到三个值Q、K、V，计算公式为：Q＝M
·
W
q
#(1)K＝M
·
W
k
#(2)V＝M
·
W
v
#(3)得到的Q、K、V分别表示query,key和value；步骤1.2，根据前述步骤中得到的Q和K计算每两个输入向量之间的相关性，也就是计算注意力值score，采用缩放点积的方式进行计算：score＝Q
·
K
T
＝(M
·
W
q
)
·
(M
·
W
k
)
T
#(4)步骤1.3，对前述步骤中计算的注意力值score施以softmax激活函数，并乘以value值，得到每一个向量对应自注意力层的输出向量：其中为了梯度的稳定，作为调节Q
·
K取值范围的比例因子；将此嵌入到ReLU激活函数层；叠加多层自注意力层，以提高特征提取的准确度，并使用残差网络保证多层自注意力模块的训练效果，所述训练结果输出为S
t
；将所述t时刻的状态S
t
输入策略函数生成所述用户推荐列表和预测动作a
t
(即货源i
p
)，然后将所述状态S
t
和预测动作a
t
作为Critic网络的
输入。4.根据权利要求1所述的基于图注意力机制强化学习的货源推荐方法，其特征在于：所述步骤2中，Critic网络基于输入状态设计一个局部物流关系网络，构造基于实体
‑
关系...

【专利技术属性】
技术研发人员：孙知信，张保继，孙哲，赵学健，胡冰，宫婧，汪胡青，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人