一种基于多智能体的推荐方法和装置制造方法及图纸

技术编号:34342784 阅读:44 留言:0更新日期:2022-07-31 04:13
本公开提供一种基于多智能体的推荐方法和装置,该方法包括:在确定当前智能体的当前输入信息的情况下,获取当前智能体的历史状态信息;将当前智能体的历史状态信息以及当前输入信息输入至策略网络中,生成当前智能体的第一真实值以及其他智能体的第一真实值;基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值;将当前智能体的回馈值、其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出当前智能体和其他智能体对应的评估值向量;将评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,确定推荐值智能体集合。实现从个体智能体和智能体集合两个层面考量得到最终推荐值,从而更加准确。从而更加准确。从而更加准确。

A recommendation method and device based on Multi-Agent

【技术实现步骤摘要】
一种基于多智能体的推荐方法和装置


[0001]本公开涉及人工智能
,尤其涉及一种基于多智能体的推荐方法和装置。

技术介绍

[0002]在一些社交网络平台中,用户在发布消息时往往会提到其他相关用户(用"@"符号表示)。平台如果能在这些场景中自动推荐可能提及的相关用户作为候选项,可以有效提高用户的使用体验。现有技术中,通常是通过用户最近发布的消息或随机选择几条历史消息,来推断用户的喜好以及与其他用户的关系。然而在这个推断过程中会忽略掉用户之间的关系,导致输出的推荐结果不准确。

技术实现思路

[0003]本公开提供一种基于多智能体的推荐方法和装置,实现了分别从个体(智能体)和群体(智能体集合)层面考量得到最终推荐值,从而更加客观准确的推荐。
[0004]第一方面,本公开提供一种基于多智能体的推荐方法,包括:
[0005]在确定当前智能体的当前输入信息的情况下,获取当前智能体的历史状态信息,其中,所述历史状态信息包括当前智能体的历史输入信息以及涉及其他智能体的列表信息;
[0006]将当前智能体的历史状态信息以及当前输入信息输入至策略网络中,生成当前智能体的第一真实值以及其他智能体的第一真实值;
[0007]基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值;
[0008]将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量;
[0009]将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,确定推荐值智能体集合。
[0010]根据本公开提供的基于多智能体的推荐方法,所述基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值,包括:
[0011]基于当前智能体的历史状态信息以及当前输入信息,通过所述策略网络获得每次输入信息对应的所述其他智能体相对于当前智能体的初始推荐值;
[0012]为每次输入信息标注样本标签,其中,所述样本标签的标签值为1或0;
[0013]对当前智能体的第一真实值进行采样,得到采样值;
[0014]基于所述采样值和所述标签值,更新所述回馈值。
[0015]根据本公开提供的基于多智能体的推荐方法,所述将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量,包括:
[0016]将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入
至评价网络中,输出所述当前智能体和所述其他智能体对应的评价值;
[0017]通过评价网络对所述评价值进行评估,输出所述当前智能体和所述其他智能体对应的评估值向量。
[0018]根据本公开提供的基于多智能体的推荐方法,所述将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,包括:
[0019]将所述评估值向量输入至策略网络中,得到更新的策略网络;
[0020]基于所述更新的策略网络、当前智能体的历史状态信息以及当前输入信息,生成当前智能体的第二真实值和其他智能体的第二真实值;
[0021]基于预设的智能体效用矩阵确定其他智能体相对于当前智能体的权重值;其中,智能体效用矩阵包括每个智能体的权重值;
[0022]基于所述当前智能体的第二真实值、其他智能体的第二真实值以及所述权重值,输出其他智能体相对于当前智能体的最终推荐值。
[0023]根据本公开提供的基于多智能体的推荐方法,所述确定推荐值智能体集合,包括:
[0024]将所述其他智能体相对于当前智能体的推荐值与预设的阈值进行比较;
[0025]若所述推荐值大于等于预设的阈值,则为当前智能体推荐推荐值智能体集合,其中所述推荐值智能体集合为与当前智能体的输入信息和历史状态信息相关的智能体的总和;
[0026]若所述推荐值小于所述预设的阈值,则为当前智能体随机推荐智能体。
[0027]根据本公开提供的基于多智能体的推荐方法,基于所述采样值和所述标签值,更新所述回馈值通过以下公式实现:
[0028][0029]其中,p
t
表示历史状态信息中的历史正样本的数量,n
t
表示历史状态信息中的历史负样本的数量,G
t
表示第t次的标签值,表示智能体i在第t次的推荐值。
[0030]根据本公开提供的基于多智能体的推荐方法,所述方法还包括:
[0031]基于第一损失函数和第二损失函数,更新所述智能体效用矩阵中的权重值;其中,所述第一损失函数为:
[0032][0033]所述第二损失函数为:
[0034][0035]其中,p
t
表示历史状态信息中的历史正样本的数量,n
t
表示历史状态信息中的历史负样本的数量,G
t
表示第t次的标签值,o
t
表示推荐值,μ表示每一个智能体的策略,i和j表示智能体,s
ij
表示智能体i的状态和智能体j的状态之间的相似性,智能体效用矩阵分解为两个小矩阵分别用A和B表示,分别具有尺寸N
×
d和d
×
N,且d小于N,a
i
是矩阵A的第i行,a
j
是矩
阵A的第j行,b
i
是矩阵B的第i列,b
j
是矩阵B的第j列。
[0036]第二方面,本公开提供一种基于多智能体的推荐装置,包括:
[0037]获取模块,用于在确定当前智能体的当前输入信息的情况下,获取当前智能体的历史状态信息,其中,所述历史状态信息包括当前智能体的历史输入信息以及涉及其他智能体的列表信息;
[0038]生成模块,用于将当前智能体的历史状态信息以及当前输入信息输入至策略网络中,生成当前智能体的第一真实值以及其他智能体的第一真实值;
[0039]处理模块,用于基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值;
[0040]输入模块,用于将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量;
[0041]确定模块,用于将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,确定推荐值智能体集合。
[0042]第三方面,本公开提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述基于多智能体的推荐方法的步骤。
[0043]第四方面,本公开提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一项所述基于多智能体的推荐方法的步骤。...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体的推荐方法,其特征在于,包括:在确定当前智能体的当前输入信息的情况下,获取当前智能体的历史状态信息,其中,所述历史状态信息包括当前智能体的历史输入信息以及涉及其他智能体的列表信息;将当前智能体的历史状态信息以及当前输入信息输入至策略网络中,生成当前智能体的第一真实值以及其他智能体的第一真实值;基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值;将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量;将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,确定推荐值智能体集合。2.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值,包括:基于当前智能体的历史状态信息以及当前输入信息,通过所述策略网络获得每次输入信息对应的所述其他智能体相对于当前智能体的初始推荐值;为每次输入信息标注样本标签,其中,所述样本标签的标签值为1或0;对当前智能体的第一真实值进行采样,得到采样值;基于所述采样值和所述标签值,更新所述回馈值。3.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量,包括:将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评价值;通过评价网络对所述评价值进行评估,输出所述当前智能体和所述其他智能体对应的评估值向量。4.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,包括:将所述评估值向量输入至策略网络中,得到更新的策略网络;基于所述更新的策略网络、当前智能体的历史状态信息以及当前输入信息,生成当前智能体的第二真实值和其他智能体的第二真实值;基于预设的智能体效用矩阵确定其他智能体相对于当前智能体的权重值;其中,智能体效用矩阵包括每个智能体的权重值;基于所述当前智能体的第二真实值、其他智能体的第二真实值以及所述权重值,输出其他智能体相对于当前智能体的最终推荐值。5.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述确定推荐值智能体集合,包括:将所述其他智能体相对于当前智能体的推荐值与预设的阈值进行比较;若所述推荐值大于等于预设的阈值,则为当前智能体推荐推荐值智能体集合,其中所述推荐值智能体集合为与当前智能体的输入信息和历史状态信息相关的智能体的总和;若所述推荐值小于所述预设的阈值,则为当前智能体随机推荐智能体。
6.根据权利要求2所述的基...

【专利技术属性】
技术研发人员:沈力
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1