一种基于多源异构信息图模型的学术论文标签推荐方法技术

技术编号:13510833 阅读:237 留言:0更新日期:2016-08-11 13:27
本发明专利技术是一种基于多源异构信息图模型的学术论文标签推荐方法。本发明专利技术根据普遍存在于标签数据集的三元关系,即用户‑物品‑标签,再结合物品之间的内容信息,构建了多源异构信息图模型。该图模型可以将多种数据信息整合到一个图中,可以方便的发现哪种数据信息组合能更好地提升标签推荐的精度。除此之外,本发明专利技术设计的图模型仅仅添加少部分文本内容相似度关系,因此该图模型具有高效的执行效率。通过相关实验,本发明专利技术得到了较传统标签推荐方法更加有效的执行效率和更高的推荐精度。

【技术实现步骤摘要】
【专利摘要】本专利技术是。本专利技术根据普遍存在于标签数据集的三元关系,即用户?物品?标签,再结合物品之间的内容信息,构建了多源异构信息图模型。该图模型可以将多种数据信息整合到一个图中,可以方便的发现哪种数据信息组合能更好地提升标签推荐的精度。除此之外,本专利技术设计的图模型仅仅添加少部分文本内容相似度关系,因此该图模型具有高效的执行效率。通过相关实验,本专利技术得到了较传统标签推荐方法更加有效的执行效率和更高的推荐精度。【专利说明】
本专利技术涉及数据挖掘、信息提取和推荐系统领域,是一种基于多源异构信息图模 型的学术论文标签推荐实现方法。
技术介绍
随着互联网的快速发展,像音乐、图片、电影和论文之类的在线资源快速增长。标 签被广泛的用于对这类资源进行注释和分类,以便于用户的查找搜索。同时,标签系统也被 广泛的应用于各个网站,成为其重要的组成部分,例如音乐网站Last, fm、论文网站 CiteULike和电影评论网站豆瓣等。在这些网站中,标签以简短的词汇描述了物品,用户可 以根据物品的标签属性,快速的了解该物品,方便了其对物品的筛选查找,提升了用户的体 验。与此同时,网站希望用户可以给物品标注准确客观的标签信息,用于保证标签系统的良 性循环。在这种环境下,标签推荐应运而生,同时,标签推荐也成为当前的研究热点,受到各 个领域的关注。 标签推荐系统可以高效的为用户提供恰当的标签,节省了时间,提高了用户的参 与度,提升了用户实际体验。同时,标签推荐系统还可以规范标签的书写,减少了歧义,提高 了标签品质。 标签推荐的主要任务是为用户快速的找出合适的标签信息。在标签推荐系统中, 存在一种混合图模型的方法。利用图模型,可以很容易的利用数据集中的各种信息。图是一 种数据呈现的形式,有一定的关系结构。图中,可以很方便的在同一种标准下呈现出多种数 据信息。图中边的权重可以很好的表示各个对象关系的强弱。本专利技术根据标签数据中普遍 存在的三元关系,设计了新的层次图模型。于此同时,通过K近邻算法计算物品的文本内容 信息,并将计算得到的邻居添加到图模型中,这样可以加强物品之间的内在联系,充分利用 多种数据信息,提高推荐精度。
技术实现思路
基于上述
技术介绍
,本专利技术提出了一种基于多源异构信息图模型,高效地为学术 论文推荐相关的标签信息。传统的标签推荐方法没有能直观的呈现出标签数据的结构,然 而,赋有层次的图模型不仅可以很好的呈现出数据的内在结构,而且能很好的整合各种数 据信息。本专利技术设计的多源异构信息图模型具有多层次的特点,可以方便的观察出哪些数 据信息组合能更加有效地提高标签推荐精度,进而优化整个算法,提高推荐的性能。使用本 专利技术的标签推荐方法,可以应用于网络标签系统中,用于提供标签推荐功能和提高推荐标 签的质量,提升用户实际体验。 本专利技术提出的学术论文标签推荐方法是一种基于多源异构信息图模型的混合方 法。该方法用赋有层次的图模型直观的呈现和整合了各种数据信息,提高了推荐的精度。同 时,因只添加部分论文文本内容相似性关系,该方法可以保证推荐的执行效率。本专利技术的具 体实施步骤如下: I.论文文本信息向量化 1)提取数据集中学术论文的标题和摘要信息,用于构建论文的内容文本信息。 2)去除论文文本信息中的标点符号以及停用词,然后计算其TF-IDF( term frequency -inverse document frequency)值,获取前1^项高分词汇组成词汇表,按降序对 词汇进行排序,并对词汇表中的每个词汇进行编号。 3)根据得到的词汇表,统计每篇论文的词汇信息,组成论文的一个文本向量,其中 每一行的行号对应于数据集中论文的编号,每行是论文词汇向量化的结果,其中每一项表 示成词汇编号、词频的形式。 2.计算论文之间相似度 根据论文的文本向量,本专利技术使用余弦相似度计算论文之间的相似性。如公式(1) 所示: 「00131(1) 3.构建多源异构信息图 1)根据数据集中含有的信息,本专利技术将用户、论文以及标签看做图中的三种顶点, 用于构建多源异构信息图。 2)根据论文中含有标签信息的关系,构建论文顶点集与标签顶点集之间边的关 系。如果论文A中含有标签T,则在多源异构信息图中对应的论文A顶点和标签T顶点之间存 在边,否则不存在边。如公式(2)所示: 1〇,其他情况 3)根据论文之间的引用关系,加强论文子图内部关系,构建论文-论文边关系。如 果论文A引用了论文B,则在图中对应论文A顶点和论文B顶点之间存在边,否则不存在边。如 公式(3)所示: ~ Λ n、 f 1,如果论文A引用论文B /Λ、 / (A B) = < (3) 1〇,其他情况 4)根据论文文本内容相似性的关系,进一步加强论文子图内部关系,构建论文之 间边的关系。本专利技术使用K近邻算法找出论文前K个最邻近的论文,然后在图中给对应顶点 之间添加一条边。如公式(4)所示: ( 、(1,如果论文Ai是论文Ai的近邻 E(AilAj) = ] (4) (0,其他情況 5)根据用户查阅论文的关系,本专利技术将用户的信息添加进图中,充分利用各种信 息。如果用户U查阅过论文A,则在图中对应的用户U顶点和论文A顶点之间存在边,否则不存 在边。如公式(5)所示: (、(1,如果用户U查阅过论文A ,、 E(U1A) = ·- (5) 1〇,其他情况 4.本专利技术在多源异构信息网络图模型上,运用重启动的随机游走算法,计算各个 节点之间的结构相关性。 1)根据多源异构信息网络图模型,得到其邻接矩阵Μ,然后对邻接矩阵M经行正则 化得到标准化后的矩阵M ? 2)本专利技术在多源异构信息网络图模型上运用重启动的随机游走算法,计算图中各 个节点之间的结构相关性。如公式(6)所示: (*>) 其中c是返回出友点的概率,ft是里启动向量,表示初始状态。重启动向量%是第i维为 1的单位向量。 3)多次迭代公式(6),经过有限次的随机游走过程,图中各个顶点之间的概率达到 平稳的状态,再次迭代不会改变图中的概率分布。此时,图中每个点的概率值馬可以看为该 顶点与出发点的相似度。 4)对稳定的概率分布麥进行排序,找出与目标顶点结构相关的Top N候选顶点。【附图说明】 图1是本专利技术的多源异构信息网络图模型; 图2是本专利技术在两个数据集上与其他标签推荐模型推荐结果时间的对比;图3是本专利技术在数据集CiteULike-a上与其他标签推荐模型推荐结果召回率的对 比;图4是本专利技术在数据集CiteULike-t上与其他标签推荐模型推荐结果召回率的对 比;图5是本专利技术在数据集CiteULike-a上与其他标签推荐模型推荐结果成功率的对 比;图6是本专利技术在数据集CiteULike-t上与其他标签推荐模型推荐结果成功率的对 比;图7是本专利技术在数据集CiteULike-a上与其他标签推荐模型推荐结果nDCG的对比。 图8是本专利技术在数据集CiteULike-t上与其他标签推荐模型推荐结果nDCG的对比。【具体实施方式】下面结合【附图说明】和实际的数据集对本专利技术的【具体实施方式】进行详细的描述,以 下描述的实施例仅仅是示例性的,只用于更好的解释本专利技术,便于本专利
内的研究人 员更好的理解本专利技术的实施例,不能理解为对本专利技术的限制。 1本文档来自技高网
...

【技术保护点】
一种基于多源异构信息图模型的学术论文标签推荐方法,该方法包括相关数据的预处理部分、多源异构信息图模型的构造部分以及学术论文标签推荐方法的实现部分。具体步骤如下:步骤a.对数据集进行初始化操作,去除标签噪音数据;步骤b.将学术论文的文本信息进行向量化处理;步骤c.根据论文的文本向量计算论文之间的相似度;步骤d.根据数据中用户收藏论文关系、论文标签关系、论文引用关系和相似度关系构建多源异构信息图;步骤e.在多源异构信息图模型上,运用重启动的随机游走算法,计算各个节点之间的结构相关性。

【技术特征摘要】

【专利技术属性】
技术研发人员:程红蓉蔡腾远张盼郭彦伟唐明霜
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1