一种面向风格可选的用户可控序列推荐方法技术

技术编号：41255181 阅读：4 留言：0更新日期：2024-05-11 09:15

本发明专利技术属于序列推荐、可控推荐领域，提出了一种面向风格可选的用户可控序列推荐方法，包括步骤：步骤1、在面向风格可选的用户可控序列推荐场景下，提供用户控件，收集用户指令与用户历史行为信息；步骤2、预训练阶段，利用经典序列推荐模型对用户行为序列进行训练；步骤3、指令微调阶段，包括指令嵌入阶段、兴趣对齐阶段和指令判别阶段。本发明专利技术所提供方法不仅能为用户提供与其兴趣偏好相匹配的内容，还可以根据用户指令对模型风格进行有目的的实时调整，进一步提升推荐系统可控性，实现真正意义上的模型风格可控，提供更及时、准确的推荐，且适用于多种不同类型的主干网络，具有较高的灵活性和通用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于序列推荐、可控推荐领域。

技术介绍

1、推荐系统是一种能够过滤信息的系统，可以帮助用户在信息过载的情况下快速有效地获取感兴趣的内容。序列推荐系统对用户-物品交互序列进行动态建模，利用其中丰富的用户行为信息，捕捉用户的长期偏好和短期兴趣，更贴切真实任务场景。推荐系统的可控性是当前需要重点关注的问题，提高可控性有助于更准确的建模用户偏好，生成更令用户满意的推荐结果。然而，大部分现有工作缺乏对可控性的考虑，不断推荐用户兴趣范围内的物品，短时间内可获得较高的用户满意度，但久而久之可能会导致用户陷入“过滤气泡”问题。

2、推荐系统不可控是指用户在面对推荐结果时，无法直接影响或调整推荐内容以满足其个性化需求。在不可控推荐系统中，用户往往只能被动地选择接受或不接受推荐结果，而很难主动地影响所接收到的推荐结果，另一方面，推荐系统很难实时捕捉到用户的兴趣变化，导致推荐内容缺乏及时性，这些问题都有可能给用户的体验带来负面影响。

3、不可控主要来源于内容不可控和风格不可控两个方面。内容可控是指用户能够对物品的具体属性、特征以及用户本身的属性、特征进行调整，这要求用户对物品或自身的属性或特征有明确的需求和想法。风格可控与内容可控相互独立且互补，风格可控意味着用户可以通过调整模型参数来控制推荐结果的分布，从而提高推荐结果的探索性、多样性，与内容可控相比，风格可控是一种更加灵活和简单的控制方式。针对推荐系统中的内容不可控问题，现有研究从多样性、公平性和用户可控推荐系统三个方面出发，取得了较好的效果，但仍无法解决风格不可控问题。

技术实现思路

1、本专利技术提供了一种面向风格可选的用户可控序列推荐方法，为一种适用于面向风格可选的用户可控序列推荐场景的算法。在所提出场景下，系统提供多个用户控件，用户可以通过调整控件给出指令，改变影响模型风格的参数，实现对推荐结果分布的控制。所提供算法采用预训练、指令微调的方法进行训练，通过设计指令嵌入阶段、兴趣对齐阶段与指令判别阶段，加深模型与用户的交互，实现对用户原始兴趣的维护与对用户指令作用的强调。所提供方法不仅能为用户提供与其兴趣偏好相匹配的内容，还可以根据用户指令对模型风格进行有目的的实时调整，进一步提升推荐系统可控性，实现真正意义上的模型风格可控。

2、本专利技术采用如下技术方案：

3、本专利技术提出一种面向风格可选的用户可控序列推荐方法，为一种适用于面向风格可选的用户可控序列推荐场景的算法，该算法包括预训练阶段、指令微调阶段，其中指令微调阶段包括指令嵌入阶段、兴趣对齐阶段和指令判别阶段。主要包括如下步骤：

4、步骤1、在面向风格可选的用户可控序列推荐场景下，提供用户控件，收集用户指令和用户历史行为信息；

5、步骤2、预训练阶段，利用经典序列推荐模型对用户行为序列进行训练；

6、步骤3、指令微调阶段，将用户指令信息嵌入模型输入，并重新设计了训练目标；包括指令嵌入阶段、兴趣对齐阶段和指令判别阶段。

7、进一步的，所述步骤3，在主要推荐任务基础上增加对比学习任务与指令判别任务作为辅助任务，并重新设计了损失函数。对比学习任务用于维护用户原始兴趣，指令判别任务用于强调用户指令作用；具体包括：

8、步骤3.1、首先，指令嵌入阶段：将用户真实指令与一组随机构造的用户指令并行地映射为提示，嵌入至用户行为序列中来改造模型输入；

9、步骤3.2、其次，兴趣对齐阶段：抽取出模型输出的用户真实表征与随机表征中相同的用户兴趣部分，通过对比学习实现对用户原始兴趣的维护；

10、步骤3.3、然后，指令判别阶段：抽取出用户真实表征与随机表征中的用户指令部分，通过反向预测出指令参数，并着重它们与原始指令参数之间的一致性，实现对用户指令参数的强调；

11、步骤3.4、最后，为每个用户-物品对计算得分，生成推荐列表；设计损失函数，对模型进行优化和训练。

12、进一步的，所述步骤1，在面向风格可选的用户可控序列推荐场景下，可以收集并保存用户的历史行为数据，同时为用户提供用户控件，收集用户给出的影响模型风格的指令参数，用户根据个人需要调整用户控件，修改影响模型风格的参数，从而控制推荐模型的偏向，生成不同的推荐结果，实时调整推荐结果的分布。

13、进一步的，用户指令涉及多种参数，包括流行度、相似度等，每一个参数对应一个用户控件，参数可调整为一定区间内的离散值，推荐系统根据用户指令实时生成或调整推荐结果的分布。

14、进一步的，所述步骤2，可在多种不同类型的主干网络上进行预训练。

15、进一步的，所述步骤3.1，指令嵌入阶段以提示学习为基础，可以根据用户的当前指令，灵活的响应用户的实时需求，而不是仅仅基于过去的行为。

16、进一步的，所述步骤3.2，兴趣对齐阶段以对比学习为基础，可以根据提取出用户表征中的用户兴趣部分，确保推荐内容与用户历史喜好相符，不会偏离用户的原始兴趣。

17、进一步的，所述步骤3.3，指令判别阶段以神经网络分类器为基础，可以根据提取出用户表征中的用户指令部分，确保模型对用户指令有准确的理解，强调与指令相符合的推荐内容，实现真正意义上的用户可控。

18、进一步的，所述步骤3.4，通过计算用户-物品对得分，预测用户感兴趣的下一个物品；通过融合多种损失函数，满足多个任务目标，提高模型性能。

19、具体的，步骤1：在面向风格可选的用户可控序列推荐场景下，提供用户控件，收集用户指令与用户历史行为信息：

20、1.1利用现已公开的推荐数据集，其中包含批量的用户历史交互行为数据；

21、1.2利用数据集中的交互数据统计计算出所需的流行度、相似度参数。

22、某个物品的流行度用数据集中该物品的交互次数占所有物品交互次数的总和的比例来衡量，相似度是指在某一个用户交互序列中当前物品和上一个用户交互物品之间的相似度，用余弦相似度来衡量。

23、具体的，步骤2：预训练阶段：

24、2.1每个用户都有一个历史行为序列，将用户历史行为序列输入预训练模型，模型根据输入的用户行为序列输出一个用户表征。预训练阶段所采用的模型可以是基于transformer、rnn或gnn的经典序列推荐模型；

25、2.2通过计算用户表征与物品表征的内积，得到用户对物品的预测评分，生成推荐列表；

26、2.3预训练阶段采用贝叶斯个性化排序损失作为优化目标，针对主要的推荐任务对模型进行训练。

27、具体的，步骤3.1：指令嵌入阶段：

28、3.1.1，除了真实的用户指令参数外，额外构造一组随机用户指令参数，两组用户指令参数并行地进行后续的操作；

29、3.1.2将真实用户指令参数与随机用户指令参数并行地映射为提示，针对不同类型的预训练模型以前缀或全连接节点的形式嵌入至用户历史行为序列中，作为指令微调阶段的输入，模型对应输本文档来自技高网...

【技术保护点】

1.一种面向风格可选的用户可控序列推荐方法，其特征在于，包括步骤：

2.如权利要求1所述的方法，其特征在于，

3.如权利要求1所述的方法，其特征在于，所述步骤2：

4.如权利要求1所述的方法，其特征在于，

5.如权利要求4所述的方法，其特征在于，

6.如权利要求4所述的方法，其特征在于，

7.如权利要求4所述的方法，其特征在于，

8.如权利要求4所述的方法，其特征在于，

9.如权利要求4所述的方法，其特征在于，

【技术特征摘要】

1.一种面向风格可选的用户可控序列推荐方法，其特征在于，包括步骤：

2.如权利要求1所述的方法，其特征在于，

3.如权利要求1所述的方法，其特征在于，所述步骤2：

4.如权利要求1所述的方法，其特征在于，

5...

【专利技术属性】
技术研发人员：温雷蕾，卫志华，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人