一种基于中文知识图谱的个性化推荐方法与系统技术方案

技术编号：9695138 阅读：381 留言：0更新日期：2014-02-21 01:52

本发明专利技术属于计算机软件技术领域，具体为一种基于中文知识图谱的个性化推荐方法与系统。本发明专利技术利用中文知识图谱中概念实体间的超链接关系度量出任意两个词条间的语义关联，并结合一种改进的显式语义分析模型（ESA）来实现由两组标签分别刻画的用户和待推荐物品之间的精准推荐。对于两组即便没有共同标签词条的标签组，本发明专利技术提出的改进ESA模型借助中文知识图谱也能度量出两者间的语义距离，即匹配程度，从而极大地拓展了基于标签描述的个性化推荐技术的应用场合，具有广泛的商业应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文知识图谱的个性化推荐方法与系统
本专利技术属于计算机软件
，具体涉及一种基于中文知识图谱的个性化推荐方法与系统。
技术介绍
随着Web2.0技术的深入发展，电子商务为代表的互联网商机包含巨大的市场价值。在众多电子商务网站中，如亚马逊和淘宝，针对用户的个性化推荐一直都是提升产品品牌价值和赢得客户市场的重要技术保证。所谓个性化推荐，就是系统能及时、准确地捕捉用户的兴趣爱好等个性特征，从而为其推荐符合其特征的产品，以求提高用户体验的同时增加商品的销量。个性化推荐与精准化营销有着相似的业务过程和相同的商业目的。鉴于个性化推荐技术在商业领域的巨大价值，很多学术界和工业界的学者、专家都投身于相关的研究，各种相关的系统、方法也层出不穷。其中最著名的方法包括协同过滤[I]和基于内容(content-based)的推荐[2，3]等等。协同过滤常常面临因数据稀疏带来的冷启动问题，例如系统中的新用户没有任何浏览或购买记录，就无法刻画其特征，进而无法进行推荐物品匹配。大多content-based的推荐技术都是将用户和推荐物品的特征用一组关键词或标签来描述，通过计算两者对应的向量距离来度量其相似度，从而产生推荐结果。这些已有的基于度量用户和物品特征向量相似度的推荐方法大都只在同一领域中适用，即，无论是描述用户还是待推荐物品特征的词(标签)都是产生自同一领域(网站)中。两个能成功匹配的向量总在某些维度上有重叠(同一个维度的值非零)，表明对应的两组标签中总有某些标签是相同的。但现今，交叉领域的推荐问题已经成为一个现实问题，即，用户和物品可能来自不同网站，...

【技术保护点】
一种基于中文知识图谱的个性化推荐方法，其特征在于，对一个用户和一组候选的待推荐物品，他们各自都用一组标签来刻画其特征，借助中文知识图谱和一种改进的显式语义分析模型，从候选物品中找出最匹配该用户的物品作为个性化推荐的结果；具体步骤如下：步骤一：构建中文知识图谱首先，将百科网站的概念实体即词条，映射成知识图谱中的结点，这里所谓知识图谱是一个由许多点和边组成的网络；词条页面上出现的其它参考词条数的倒数作为该结点的权重；词条间的超链接关系即参考词条则映射成网络边；图谱中的边代表相连的两个结点即词条之间的语义联系；步骤二：为刻画用户和待推荐物品特征的每组标签，构建改进的显式语义分析模型，构建的基本过程为：首先将标签组中的每个标签即词条，映射成一个“概念向量”，概念向量的每一维对应知识图谱中的一个概念，也就是一个结点；非零的维度对应于图谱中指向这个标签的结点，其值是该标签在邻居结点对应的词条页面上的tf?idf值乘以该邻居结点的权重；然后，将一组标签中的每个标签映射的概念向量求和，生成对应该标签组的“和概念向量”；这个和概念向量就代表了整组标签的语义信息；步骤三：从步骤二中获得描述用户特征标签组对...

【技术特征摘要】
1.一种基于中文知识图谱的个性化推荐方法，其特征在于，对一个用户和一组候选的待推荐物品，他们各自都用一组标签来刻画其特征，借助中文知识图谱和一种改进的显式语义分析模型，从候选物品中找出最匹配该用户的物品作为个性化推荐的结果；具体步骤如下: 步骤一:构建中文知识图谱首先，将百科网站的概念实体即词条，映射成知识图谱中的结点，这里所谓知识图谱是一个由许多点和边组成的网络；词条页面上出现的其它参考词条数的倒数作为该结点的权重；词条间的超链接关系即参考词条则映射成网络边；图谱中的边代表相连的两个结点即词条之间的语义联系；步骤二:为刻画用户和待推荐物品特征的每组标签，构建改进的显式语义分析模型，构建的基本过程为:首先将标签组中的每个标签即词条，映射成一个“概念向量”，概念向量的每一维对应知识图谱中的一个概念，也就是一个结点；非零的维度对应于图谱中指向这个标签的结点，其值是该标签在邻居结点对应的词条页面上的tf-1df值乘以该邻居结点的权重；然后，将一组标签中的每个标签映射的概念向量求和，生成对应该标签组的“和概念向量”;这个和概念向量就代表了整组标签的语义信息；步骤三:从步骤二中获得描述用户特征标签组对应的和概念向量与描述物品特征标签组对应的和概念向量后，计算两个向量的余弦相似度作为物品和用户的相似度；对于输入的每个候选物品，都计算一次它和用户的相似度，然后对所有相似度的值从高到低排序；如果要求推荐k个物品，则挑出排序在top-k的前k个物品作为输出的推荐结果。2.根据权利要求1所述的基于中文知识图谱的个性化推荐方法，其特征在于构建改进的显式语义分析模型的具体过程如下: 当系统从外部获得一组标签后，首先对该组中的每个标签一一建立对应的“概念向量”；每个标签的概念向量维数即整个中文知识图谱中的结点总数，每一维对应一个结点；假设，一个标签即一个词条t作为参考词条出现在某个结点V的词条页面上，则t的概念向量在V结点对应的维度值不为0，具体值按如下公式计算:V(t) =tf...

【专利技术属性】
技术研发人员：阳德青，肖仰华，汪卫，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人