处理长尾分布的推荐方法、装置及计算机存储介质、终端制造方法及图纸

技术编号：37667574 阅读：31 留言：0更新日期：2023-05-26 04:27

本发明专利技术提供一种处理长尾分布的推荐方法、装置及计算机存储介质、终端，属于数据分析技术领域。本发明专利技术的推荐方法包括：获取第一数据集与第二数据集，第一数据集包括双塔模型中用户侧与物品侧的所有交互对，第二数据集包括双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对；基于第一数据集训练形成双塔模型中的第一网络模型，以得到第一模型参数；基于第二数据集形成双塔模型中的第二网络模型，以得到第二模型参数，第二模型参数向第一模型参数靠拢；对第一网络模型与第二网络模型加权处理，以得到用户对物品的偏爱分数。本发明专利技术尾部item训练的模型能够学习到首部item训练的参数，使得最终模型的输出结果在尾部也能获得不错的效果。获得不错的效果。获得不错的效果。

全部详细技术资料下载

【技术实现步骤摘要】
处理长尾分布的推荐方法、装置及计算机存储介质、终端

[0001]本专利技术属于人工智能
，具体涉及一种处理长尾分布的推荐方法、装置及计算机存储介质、终端。

技术介绍

[0002]目前常见的推荐方法为利用传统的双塔模型分别将用户特征编码和产品特征编码训练为用户向量和产品向量，再通过计算两个向量的相似度，来确定用户对产品的感兴趣程度，但是由于双塔模型中用户与产品缺少交互，从而无法保证产品推荐结果的准确性。
[0003]另外，还有的推荐系统虽然在用户侧与物品侧具有交互，但由于存在用户侧（user）和物品侧（item）之间交互存在长尾分布情况，一小部分的物品侧和用户侧存在大量的交互，而大量的物品侧和用户侧只有少量的交互，导致训练的模型很容易和头部item进行过拟合，即在模型在训练数据中效果良好，而在测试数据中的表现和训练数据中的表现差异很大，也就是说，在交互较少的item上表现不尽如意，最终导致头部文章会得到更多的曝光，热门文章变得更加热门。
[0004]目前迁移算法在处理这种具备长尾分布的数据的时候一般都是先...

【技术保护点】

【技术特征摘要】
1.一种处理长尾分布的推荐方法，其特征在于，包括下述步骤：获取第一数据集与第二数据集，其中，所述第一数据集包括双塔模型中用户侧与物品侧的所有交互对，所述第二数据集包括所述双塔模型中用户侧与物品侧交互次数低于交互次数阈值的交互对；基于所述第一数据集训练形成所述双塔模型中的第一网络模型，以得到第一模型参数；基于所述第二数据集形成所述双塔模型中的第二网络模型，以得到第二模型参数，所述第二模型参数向所述第一模型参数靠拢；对所述第一网络模型与所述第二网络模型加权处理，以得到用户对物品的偏爱分数。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一数据集训练形成所述双塔模型中的第一网络模型，包括：基于所述第一数据集，将用户侧与物品侧的特征输入所述第一网络模型，所述第一网络模型输出用户侧对物品侧的偏好得分；使用第一目标函数学习同一用户对不同物品的偏好概率分布，公式如下：；其中，p(y
i
|x
u
;θ)表示同一用户对不同物品的偏好概率分布；s(x
u
,y
i
;θ)表示第一网络模型，其中x
u
为用户侧的输入参数，y
i
为物品侧的输入参数，θ为第一网络模型最初参数；所述第一目标函数的公式如下：；其中，代表第一损失函数的损失值；r(u,i)表示如下：。3.根据权利要求2所述的方法，其特征在于，所述基于所述第二数据集训练形成所述双塔模型中的第二网络模型，包括：基于所述第二数据集，将用户侧与物品侧的特征输入所述第二网络模型，所述第二网络模型输出用户侧对物品侧的偏好得分；使用第二目标函数学习同一用户对不同物品的偏好概率分布；其中，所述第二目标函数的公式如下：；其中，代表第二损失函数的损失值；表示到第一网络模型中第一模型参数的距离，且θ为第一网
络模型最初参数，为第一网络模型学习之后的参数，w为第二模型参数；；表示正则化参数。4.根据权利要求3所述的方法，其特征在于，利用下述公式计算得到用户对物品的偏爱分数，具体如下：；其中，表示偏爱分数；表示正则化参数；表示第一网络模型；表示第二网络模型。5.一种处理长尾分布的推荐系统，其特征在于，包括：数据获取模块，用于分别获取第一数据集与第二数据集，其中，所述第一数据集包括双塔模型中用户侧与物品侧的所有交互对，所述第二数据...

【专利技术属性】
技术研发人员：何英杰，
申请(专利权)人：特斯联科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人