融合多信息源耦合张量分解的标签推荐方法技术

技术编号：17248812 阅读：118 留言：0更新日期：2018-02-11 07:04

本发明专利技术公开了一种融合多信息源耦合张量分解的标签推荐方法，首先，在标签‑资源‑用户三元组信息构造的张量CP分解同时，添加了标签与标签、标签与资源、标签与用户三个辅助信息矩阵参与联合分解，并且在构建标签与标签相似性矩阵时本发明专利技术同时考虑了标签间的共现关系和标签在WordNet中的语义相似性，以两种相似性的线性集成作为最终的标签间相似性度量。其次，在构建问题的损失函数后，用ADMM算法对目标函数进行参数优化。最后根据分解补全的预测张量更准确地向（用户，资源）对推荐Top‑N标签。本发明专利技术融合了标签的同异构信息，应用于各社会化标注系统上具有通用性。

全部详细技术资料下载

【技术实现步骤摘要】
融合多信息源耦合张量分解的标签推荐方法
本专利技术涉及一种融合多信息源耦合张量分解的标签推荐方法，属于计算机网络标注

技术介绍
随着Web2.0网站的日益发展，Web上的信息以惊人的速度快速增长，信息增长的速度远远超过人们的处理能力。此时推荐系统在有效处理信息的过程中扮演了越来越重要的角色。社会化标注系统是推荐系统的一个典型应用得到了迅速发展，如共享音乐的last.fm、共享图片的Flicker、共享书签的Delicious等，在这些社会化标注系统当中，用户主动产生标签，并通过标签标识、管理和发现信息资源。标签的推荐是当前标注系统的一个研究热点，旨在减轻用户负担，帮助用户选择合适的标签完成标注操作。与传统的推荐系统只处理用户-资源(user-item)不同，社会化标注系统需要处理用户-标签-资源(user-tag-item)三个维度，所以只考虑二元关系的模型已不再适合包含用户、资源和标签三元关系的社会化标注系统。同时张量模型已经成为研究高阶数据之间潜在关联的流行方法，因此越来越多的学者开始研究基于张量分解模型的标签推荐。但是已有的张量分解方法，在标签推荐...
融合多信息源耦合张量分解的标签推荐方法

【技术保护点】
一种融合多信息源耦合张量分解的标签推荐方法，其特征在于：具体步骤如下：Step1:基于标签共现和语义相关两种相似性度量的线性集成构造标签相似矩阵B；Step2：构造标签‑资源，Tag‑Item矩阵C；Step3：构造标签‑资源，Tag‑User矩阵D；Step4：模型构建及参数优化算法；Step5：标签推荐。

【技术特征摘要】
1.一种融合多信息源耦合张量分解的标签推荐方法，其特征在于：具体步骤如下：Step1:基于标签共现和语义相关两种相似性度量的线性集成构造标签相似矩阵B；Step2：构造标签-资源，Tag-Item矩阵C；Step3：构造标签-资源，Tag-User矩阵D；Step4：模型构建及参数优化算法；Step5：标签推荐。2.根据权利要求1所述的融合多信息源耦合张量分解的标签推荐方法，其特征在于：所述Step1包括如下步骤：Step1.1计算标签共现相似性：假设ti和tj是标签相似矩阵B数据集中的两个标签，那么它们之间共现相似性的度量方法如式1所示：|ti∩tj|表示ti和tj共同标注的资源数，|ti∪tj|表示ti和tj标注的资源总和；Step1.2计算标签语义相似性：根据标签在WordNet中语义相似性计算标签的语义相似性，数据集中两个标签ti和tj语义相似性如式2所示：其中LCS是ti和tj的最小公共超概念，depth(LCS)是从LCS到分类根的节点数目；N1是从ti到LCS路径上节点的数目，N2是从tj到LCS路径上节点的数目；Step1.3集成相似性和语义作为最后相似度：Step1.1和Step1.2分别获取标签共现相似性和标签语义层级的相互关联关系，为了使这两种方式相互补充，组合两种标签间的相似性计算作为ti和tj最后的相似度：Bi,j＝γ×cooccurrence_Bi,j+(1-γ)×senmantic_Bi,j,γ∈[0，1](3)Step1.4标签图Laplacian作为正则化项：标签图正则化的假设是如果标签i和标签j相似，那么由张量分解过程挖掘的标签的隐含特征因子矩阵U(1)中标签i和标签j的隐含特征行向量和也会非常接近；其中，Bi,j为Step1.3中计算标签i和标签j的最终相似度值；为标签的隐含特征因子矩阵U(1)第i行第d列元素，代表标签的隐含特征因子矩阵U(1)整个第d列，L称为图Laplacian矩阵，L＝D-B，D为对角矩阵，D对角元素的第i个值为相似矩阵B对应第i行的元素和，即Dii＝∑jBi,j；而tr(.)表示矩阵的迹。3.根据权利要求1所述的融合多信息源耦合张量分解的标签推荐方法，其特征在于：所述Step2包括如下步骤：将社会化标注系统的训练数据集中所有标签视为文档集，标签th标注资源vj的权重为：其中Num(h,j)表示标签th在整个标签集中出现的次数，M为系统中资源总的个数，dhj表示标签标注的资源数。4.根据权利要求1所述的融合多信息源耦合张量分解的标签推荐方法，其特征在于：所述Step3包括如下步骤：将社会化标注系统的训练数据集中所有标签视为文档集，则标签tk被用户ui使用的权重为：其中Num(k,i)表示标签tk在整个标签集中出现的次数，N为系统中总的用户数，Wki表示标签标注的用户数。5.根据权利要求1所述的融合多信息源耦合张量分解的标签推荐方法，其特征在于：所述Step4包括如下步骤：Step4.1：形式化标签推荐为基本的CP张量分解模型：设定U(1),U(2),U(3)分别是标签(Tag)、资源(Item)、用户(User)对应的隐含特征因子矩阵；其中k为张量的秩，k＜＜＜min(|Tag|,|Item|,|User|),则基于CP张量分解的标签推荐模型定义为如下约束优化问题：其中，为利用社会化标注系统的训练数据集构造的初始张量，λ为正则化参数，||||F为L2范数，为Tikhonov正则化项，防止目标表达式过拟合并提供唯一解，代表和同样大小的非...

【专利技术属性】
技术研发人员：杨忆，韩立新，刘元珍，勾智楠，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人