【技术实现步骤摘要】
一种基于多智能体的推荐方法和装置
[0001]本公开涉及人工智能
,尤其涉及一种基于多智能体的推荐方法和装置。
技术介绍
[0002]在一些社交网络平台中,用户在发布消息时往往会提到其他相关用户(用"@"符号表示)。平台如果能在这些场景中自动推荐可能提及的相关用户作为候选项,可以有效提高用户的使用体验。现有技术中,通常是通过用户最近发布的消息或随机选择几条历史消息,来推断用户的喜好以及与其他用户的关系。然而在这个推断过程中会忽略掉用户之间的关系,导致输出的推荐结果不准确。
技术实现思路
[0003]本公开提供一种基于多智能体的推荐方法和装置,实现了分别从个体(智能体)和群体(智能体集合)层面考量得到最终推荐值,从而更加客观准确的推荐。
[0004]第一方面,本公开提供一种基于多智能体的推荐方法,包括:
[0005]在确定当前智能体的当前输入信息的情况下,获取当前智能体的历史状态信息,其中,所述历史状态信息包括当前智能体的历史输入信息以及涉及其他智能体的列表信息;
[0006]将当前智能体的历史状态信息以及当前输入信息输入至策略网络中,生成当前智能体的第一真实值以及其他智能体的第一真实值;
[0007]基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值;
[0008]将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量;
[0009]将所述评估值向
【技术保护点】
【技术特征摘要】
1.一种基于多智能体的推荐方法,其特征在于,包括:在确定当前智能体的当前输入信息的情况下,获取当前智能体的历史状态信息,其中,所述历史状态信息包括当前智能体的历史输入信息以及涉及其他智能体的列表信息;将当前智能体的历史状态信息以及当前输入信息输入至策略网络中,生成当前智能体的第一真实值以及其他智能体的第一真实值;基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值;将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量;将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,确定推荐值智能体集合。2.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述基于当前智能体的第一真实值以及其他智能体的第一真实值进行处理,得到回馈值,包括:基于当前智能体的历史状态信息以及当前输入信息,通过所述策略网络获得每次输入信息对应的所述其他智能体相对于当前智能体的初始推荐值;为每次输入信息标注样本标签,其中,所述样本标签的标签值为1或0;对当前智能体的第一真实值进行采样,得到采样值;基于所述采样值和所述标签值,更新所述回馈值。3.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评估值向量,包括:将所述当前智能体的回馈值、所述其他智能体的回馈值以及预设的折扣因子输入至评价网络中,输出所述当前智能体和所述其他智能体对应的评价值;通过评价网络对所述评价值进行评估,输出所述当前智能体和所述其他智能体对应的评估值向量。4.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述将所述评估值向量输入至策略网络中,输出其他智能体相对于当前智能体的最终推荐值,包括:将所述评估值向量输入至策略网络中,得到更新的策略网络;基于所述更新的策略网络、当前智能体的历史状态信息以及当前输入信息,生成当前智能体的第二真实值和其他智能体的第二真实值;基于预设的智能体效用矩阵确定其他智能体相对于当前智能体的权重值;其中,智能体效用矩阵包括每个智能体的权重值;基于所述当前智能体的第二真实值、其他智能体的第二真实值以及所述权重值,输出其他智能体相对于当前智能体的最终推荐值。5.根据权利要求1所述的基于多智能体的推荐方法,其特征在于,所述确定推荐值智能体集合,包括:将所述其他智能体相对于当前智能体的推荐值与预设的阈值进行比较;若所述推荐值大于等于预设的阈值,则为当前智能体推荐推荐值智能体集合,其中所述推荐值智能体集合为与当前智能体的输入信息和历史状态信息相关的智能体的总和;若所述推荐值小于所述预设的阈值,则为当前智能体随机推荐智能体。
6.根据权利要求2所述的基...
【专利技术属性】
技术研发人员:沈力,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。