一种基于图注意力机制强化学习的货源推荐方法技术

技术编号:33634641 阅读:30 留言:0更新日期:2022-06-02 01:44
本发明专利技术公开了一种基于图注意力机制强化学习的货源推荐方法,使用Actor

【技术实现步骤摘要】
一种基于图注意力机制强化学习的货源推荐方法


[0001]本专利技术涉及一种基于图注意力机制强化学习的货源推荐方法,属于


技术介绍

[0002]随着中国经济的迅猛发展,物流需求迅速增加,运输能力受到挑战。此外,我国物流业还面临着司机与货主信息不对称、车辆闲置、返程空载等问题,导致货运成本高。然而,移动互联网技术的兴起为提高运输效率带来了新的机遇。车货匹配是一个新的机遇,它涉及到车货信息集成平台的建立和合理的车货分配。通过车货资源的共享,这样的物流服务平台已经成为提高运输效率、降低运输成本的重要手段。
[0003]就目前市面上主流车货匹配平台来看,这些平台的使用流程为:货主通过App发布货源信息,司机通过App筛选出符合运输条件的货源。由于在线货源的数量巨大,司机需要浏览大量货源,或频繁切换筛选条件才能找到真正合适的货源。因此开发货源推荐系统,来提高司机的搜货效率以及提升平台整体的成交率是很有必要的。
[0004]现代推荐系统正面临着巨大的压力,要应对不断涌现的新用户、不断变化的推荐候选库和上下文相关的利益。而传统的推荐方法注重对用户一致的偏好进行建模,不能反映用户兴趣和环境的高动态性。在这种情况下,交互式推荐是一种有效的解决方案,它结合了动态推荐流程来提高推荐性能。交互式推荐系统将向单个用户推荐货源,然后在迭代期间接收反馈以调整其策略。许多研究将交互推荐模型作为一个多武装强盗(MAB)问题。这种方法通常假设用户的偏好在推荐过程中是一致的,并关注于当前和未来奖励之间的权衡。因此,它们面临着处理动态改变用户偏好或兴趣的环境的挑战。强化学习(RL)是一种很有前途的交互式推荐方法。在推荐系统中,RL方法具有从用户的即时反馈中学习的能力,已经取得了显著的效果。
[0005]由于RL具有处理动态交互的潜力,因此被广泛认为是一种可能更好的交互式推荐解决方案。然而,在交互式推荐中,现有的RL技术大多关注的是实用性而不是性能。主要原因是系统提供的信息有限且不完整,难以对决策过程进行合理控制。此外,交互式推荐系统通常包含大量离散的候选动作,导致基于RL的技术时间复杂度高,准确率低。此外,所有基于Deep Q Network(DQN)的工作都需要处理大量的离散操作,因为DQN包含了一个考虑所有操作的最大化操作。当动作的大小增加时,最大化操作将变得极其缓慢,甚至被卡住。基于政策梯度的方法在这种情况下也会陷入困境,因为它可能收敛于局部最大值而不是全局最大值。
[0006]近年来,知识感知的推荐系统越来越流行,因为知识图可以转移上下文信息的关系,提高推荐性能。在上述研究的启发下,申请人提出了一种基于图注意力机制强化学习(GAMRL)模型用于交互式推荐,并使用Actor

Critic框架来制定整个过程。通过设计一个局部物流关系网络以表示货源之间的关系,使推荐系统能够根据这些关系进行推荐,而Critic网络则以局部物流关系网络为引导来提高性能。利用Critic网络来评价Actor的表现,让Actor优化自己,向正确的方向发展。此外,申请人还利用批判网络内部的图注意力机
制(GAM)捕获局部物流关系网络内部的高级结构信息和深度确定性政策梯度(DDPG)来训练模型。

技术实现思路

[0007]为了解决现有技术中存在的问题,本专利技术提出了一种基于图注意力机制强化学习(GAMRL)框架用于交互式推荐,对用户与推荐系统之间的显式交互进行建模,以提高推荐的响应性和准确性。本专利技术使用Actor

Critic框架来制定整个过程,能够预测出符合司机偏好的货源给司机,提高物流的效率和司机满意度。
[0008]为实现上述目的,本专利技术采用的技术方案为:一种基于图注意力机制强化学习的货源推荐方法,包括如下具体步骤:
[0009]步骤1,构建图注意力机制强化学习模型GAMRL,使用Actor网络生成操作,收集用户近期行为数据作为embedding层的输入数据,使用embedding方法对输入数据向量化,将embedding矩阵嵌入到多层自注意力机制层以对数据进行进一步筛选,并使用残差网络保证多层注意力的训练结果;
[0010]步骤2,设计Critic网络对Actor网络生成的操作进行评估,建立局部物流关系网络来表示用户与货源之间的特定关系,使用图注意力机制GAM捕获局部物流关系网络的高级结构信息,通过训练出来的结果对Actor行为进行评价。
[0011]进一步的,所述步骤1中,用户近期行为数据为:用户最近点击浏览的货源信息以及接单的货源信息,货源数据具体表现为:I={i
t

1,
i
t

2,
i
t

3,

,
i
t

n
},其中i
t
‑1表示用户t

1时刻感兴趣的货源;与所述若干个近期行为项目相关的尚未被接单的货源信息设为所述用户推荐列表的候选集D(i)。
[0012]进一步的,所述步骤1中,自注意力机制层的具体流程为:
[0013]步骤1.1,通过embedding层获得用户最近行为的向量表示为获得embedding矩阵表示为E∈R
|I|
×
d
,其中d是潜在空间的维数,|I|表示货源矩阵I的维数;使用位置embedding矩阵P∈R
n
×
l
,维持用户先前感兴趣的货源顺序,将两个矩阵嵌入到一个矩阵M,如下所示:
[0014][0015]然后初始化权重矩阵,将上述矩阵M乘以三个权重矩阵W
Q
、W
K
、W
V
,分别得到三个值Q、K、V,计算公式为:
[0016]Q=M
·
W
q
#(1)
[0017]K=M
·
W
k
#(2)
[0018]V=M
·
W
v
#(3)
[0019]得到的Q、K、V分别表示query,key和value;
[0020]步骤1.2,根据前述步骤中得到的Q和K计算每两个输入向量之间的相关性,也就是计算注意力值score,采用缩放点积的方式进行计算:
[0021]score=Q
·
K
T
=(M
·
W
q
)
·
(M
·
W
k
)
T
#(4)
[0022]步骤1.3,对前述步骤中计算的注意力值score施以softmax激活函数,并乘以value值,得到每一个向量对应自注意力层的输出向量:
[0023][0024]其中为了梯度的稳定,作为调节Q
·
K取值范围的比例因子;将此嵌入到ReLU激活本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力机制强化学习的货源推荐方法,其特征在于:包括如下具体步骤:步骤1,构建图注意力机制强化学习模型GAMRL,使用Actor网络生成操作,收集用户近期行为数据作为embedding层的输入数据,使用embedding方法对输入数据向量化,将embedding矩阵嵌入到多层自注意力机制层以对数据进行进一步筛选,并使用残差网络保证多层注意力的训练结果;步骤2,设计Critic网络对Actor网络生成的操作进行评估,建立局部物流关系网络来表示用户与货源之间的特定关系,使用图注意力机制GAM捕获局部物流关系网络的高级结构信息,通过训练出来的结果对Actor行为进行评价。2.根据权利要求1所述的基于图注意力机制强化学习的货源推荐方法,其特征在于:所述步骤1中,用户近期行为数据为:用户最近点击浏览的货源信息以及接单的货源信息,货源数据具体表现为:I={i
t
‑1,i
t
‑2,i
t
‑3,

,i
t

n
},其中i
t
‑1表示用户t

1时刻感兴趣的货源;与所述若干个近期行为项目相关的尚未被接单的货源信息设为所述用户推荐列表的候选集D(i)。3.根据权利要求1所述的基于图注意力机制强化学习的货源推荐方法,其特征在于:所述步骤1中,自注意力机制层的具体流程为:步骤1.1,通过embedding层获得用户最近行为的向量表示为获得embedding矩阵表示为E∈R
|I|
×
d
,其中d是潜在空间的维数,|I|表示货源矩阵I的维数;使用位置embedding矩阵P∈R
n
×
l
,维持用户先前感兴趣的货源顺序,将两个矩阵嵌入到一个矩阵M,如下所示:然后初始化权重矩阵,将上述矩阵M乘以三个权重矩阵W
Q
、W
K
、W
V
,分别得到三个值Q、K、V,计算公式为:Q=M
·
W
q
#(1)K=M
·
W
k
#(2)V=M
·
W
v
#(3)得到的Q、K、V分别表示query,key和value;步骤1.2,根据前述步骤中得到的Q和K计算每两个输入向量之间的相关性,也就是计算注意力值score,采用缩放点积的方式进行计算:score=Q
·
K
T
=(M
·
W
q
)
·
(M
·
W
k
)
T
#(4)步骤1.3,对前述步骤中计算的注意力值score施以softmax激活函数,并乘以value值,得到每一个向量对应自注意力层的输出向量:其中为了梯度的稳定,作为调节Q
·
K取值范围的比例因子;将此嵌入到ReLU激活函数层;叠加多层自注意力层,以提高特征提取的准确度,并使用残差网络保证多层自注意力模块的训练效果,所述训练结果输出为S
t
;将所述t时刻的状态S
t
输入策略函数生成所述用户推荐列表和预测动作a
t
(即货源i
p
),然后将所述状态S
t
和预测动作a
t
作为Critic网络的
输入。4.根据权利要求1所述的基于图注意力机制强化学习的货源推荐方法,其特征在于:所述步骤2中,Critic网络基于输入状态设计一个局部物流关系网络,构造基于实体

关系...

【专利技术属性】
技术研发人员:孙知信张保继孙哲赵学健胡冰宫婧汪胡青
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1