当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于中文知识图谱的个性化推荐方法与系统技术方案

技术编号:9695138 阅读:381 留言:0更新日期:2014-02-21 01:52
本发明专利技术属于计算机软件技术领域,具体为一种基于中文知识图谱的个性化推荐方法与系统。本发明专利技术利用中文知识图谱中概念实体间的超链接关系度量出任意两个词条间的语义关联,并结合一种改进的显式语义分析模型(ESA)来实现由两组标签分别刻画的用户和待推荐物品之间的精准推荐。对于两组即便没有共同标签词条的标签组,本发明专利技术提出的改进ESA模型借助中文知识图谱也能度量出两者间的语义距离,即匹配程度,从而极大地拓展了基于标签描述的个性化推荐技术的应用场合,具有广泛的商业应用价值。

【技术实现步骤摘要】
一种基于中文知识图谱的个性化推荐方法与系统
本专利技术属于计算机软件
,具体涉及一种基于中文知识图谱的个性化推荐方法与系统。
技术介绍
随着Web2.0技术的深入发展,电子商务为代表的互联网商机包含巨大的市场价值。在众多电子商务网站中,如亚马逊和淘宝,针对用户的个性化推荐一直都是提升产品品牌价值和赢得客户市场的重要技术保证。所谓个性化推荐,就是系统能及时、准确地捕捉用户的兴趣爱好等个性特征,从而为其推荐符合其特征的产品,以求提高用户体验的同时增加商品的销量。个性化推荐与精准化营销有着相似的业务过程和相同的商业目的。鉴于个性化推荐技术在商业领域的巨大价值,很多学术界和工业界的学者、专家都投身于相关的研究,各种相关的系统、方法也层出不穷。其中最著名的方法包括协同过滤[I]和基于内容(content-based)的推荐[2,3]等等。协同过滤常常面临因数据稀疏带来的冷启动问题,例如系统中的新用户没有任何浏览或购买记录,就无法刻画其特征,进而无法进行推荐物品匹配。大多content-based的推荐技术都是将用户和推荐物品的特征用一组关键词或标签来描述,通过计算两者对应的向量距离来度量其相似度,从而产生推荐结果。这些已有的基于度量用户和物品特征向量相似度的推荐方法大都只在同一领域中适用,即,无论是描述用户还是待推荐物品特征的词(标签)都是产生自同一领域(网站)中。两个能成功匹配的向量总在某些维度上有重叠(同一个维度的值非零),表明对应的两组标签中总有某些标签是相同的。但现今,交叉领域的推荐问题已经成为一个现实问题,即,用户和物品可能来自不同网站,描述其特征的标签组也产生自不同领域,从而两组标签之间没有一个标签是相同。按照传统的向量相似度计算方法(如余弦相似度),他们之间的相似度为零,是无法匹配从而产生推荐的。众所周知,中文词库中的同义词、近义词非常繁多,如“旅游”和“旅行”,“摄影”和“照相”。如果能准确地度量这些词条之间的语义距离而不是仅仅判断两个词条是否相同,将会大大提高基于用户/物品标签组向量相似度的推荐方法的准确性,从而推广其在交叉领域的应用。有幸地是,中文知识图谱的出现为这一问题的解决带来契机,这也是本专利技术专利的主要目的和手段。
技术实现思路
本专利技术的目的在于提供一种推荐的准确性高,且能实现个性化推荐的方法与系统。本专利技术提供个性化推荐系统和方法,是基于中文知识图谱的。即本专利技术首先依据中文百科网站上的海量数据构建中文知识图谱,进而度量任意两个词条(标签)之间的语义距离,从而提高基于用户/物品特征向量的推荐技术的准确性并推广其应用场合。对于一个用户和一组候选的待推荐物品,他们各自都用一组标签来刻画其特征,本专利技术借助中文知识图谱和一种改进的显式语义分析模型,从候选物品中找出最匹配该用户的物品作为个性化推荐的结果。本专利技术提出的个性化推荐的方法与系统,其整体框架如图1所示。它包括依次相连的三个模块,即三个工作步骤。第一模块为构建中文知识图谱,第二模是为每组标签构建改进的显式语义分析模型(ESA, Explicit Semantic Analysis),第三模块3是基于语义模型度量候选的待推荐物品与用户之间的语义距离,从而筛选出最匹配的物品作为推荐结果。第一模块是构建中文知识图谱。首先,将百科网站的概念实体,即词条,映射成知识图谱(即一个由许多点和边组成的网络)中的结点,词条页面上出现的其它参考词条数的倒数作为该结点的权重;词条间的超链接关系(参考词条)则映射成网络边。图谱中的边在一定程度上代表了相连的两个结点(词条)之间的语义联系。该模块可为后续模块中标签之间语义距离的度量提供语料库。第二模块是为刻画用户和待推荐物品特征的每组标签而构建的一种改进的显式语义分析模型(简称ESA [4]),构建的基本过程为:首先将标签组中的每个标签,即词条,映射成一个“概念向量”。向量的每一维对应图谱中的一个概念,也就是一个结点。非零的维度则对应于图谱中指向这个标签的结点,其值则是该标签在邻居结点对应的词条页面上的tf-1df值(向量中非零的维度值)乘以该邻居结点的权重。然后,将一组标签中的每个标签映射的概念向量求和,生成对应该标签组的“和概念向量”。该模块通过建立和概念向量,使得两个标签组之间语义距离实现了数量化。 该模型的具体建立过程如下: 当系统从外部获得一组标签后,首先需要对该组中的每个标签一一建立对应的“概念向量”。每个标签的概念向量维数即整个中文知识图谱中的结点总数,每一维对应一个结点。假设,一个标签t (也可看做一个词条)作为参考词条出现在某个结点V的词条页面上,则t的概念向量在V结点对应的维度值不为0,具体值按如下公式计算: V(t) =tf-1df (t) *w (v)公式 I 其中,tf-1df为词条t在v的词条页面上的tf-1df值,w (V)为结点的权重。中文知识图谱中所有结点的词条页面当做文档全集,而参考词条在页面文字中也可以出现多次,因此,这里tf-1df值的计算和文档检索中关键词的tf-1df值完全相同。在经典的ESA模型中,向量中非零的维度值只是tf-1df值,本专利技术改进ESA之处在于引入了结点的权重W(V)。w(v)取值为V词条页面中出现的所有参考词条数(即V的邻居结点数)的倒数,其基本思想类似于倒文档频率(idf)。设想,一个词条的页面如果出现太多的参考词条,意味着它能指示很多其它词条的语义,那么对于某个参考词条而言,其语义指示作用就显得很弱了。所以,对于这样的词条(概念),其权重应该削弱。建立每个标签的概念向量后,将所有向量求和即得到了该组标签的“和概念向量”,这个向量就代表了整组标签的语义信息,作为下述第三模块的输入。第三模块从第二模块中获得描述用户特征标签组对应的和概念向量与描述物品特征标签组对应的和概念向量,计算两个向量的余弦相似度作为物品和用户的相似度。对于输入的每个候选物品,都计算一次它和用户的相似度,然后对所有相似度的值从高到低排序。如果要求系统推荐k个物品,则挑出排序在top-k的前k个物品作为输出的推荐结果。具体的输出形式可以是物品的id或物品名。该模块通过这种排序和筛选机制实现了针对某个用户的个性化物品推荐。上述三个模块,依次工作,实现了本专利技术的方法流程。本专利技术的益效在于,利用构建的中文知识图谱为深入、准确地理解标签(词条)的语义以及标签之间的语义关联提供了背景知识。而改进的ESA模型不仅提高了经典的ESA模型的效果,而且将其应用于基于标签描述用户/物品特征的个性化推荐技术后,推广了个性化推荐在交叉领域的应用场景。【附图说明】图1为本专利技术的系统框架。图2为百度百科上关于“旅游”词条页面的示例。图3为以“旅游”为例建立的中文知识图谱示例。图4是改进的ESA模型构建示例。【具体实施方式】下面结合附图和实施例对本专利技术做进一步详细说明。本专利技术提供的一种基于中文知识图谱的个性化推荐系统与方法,包括构建中文知识图谱、建立标签的ESA模型以及候选物品的排序与推荐三个模块。参照图1,整个系统以描述了用户和待推荐物品的标签组作为输入,以系统筛选出的最匹配用户的物品id (或名称)做出输出,即推荐结果。其中,中文百科网站的数据也是作为系统构建中文知识图谱时要本文档来自技高网
...

【技术保护点】
一种基于中文知识图谱的个性化推荐方法,其特征在于,对一个用户和一组候选的待推荐物品,他们各自都用一组标签来刻画其特征,借助中文知识图谱和一种改进的显式语义分析模型,从候选物品中找出最匹配该用户的物品作为个性化推荐的结果;具体步骤如下:步骤一:构建中文知识图谱首先,将百科网站的概念实体即词条,映射成知识图谱中的结点,这里所谓知识图谱是一个由许多点和边组成的网络;词条页面上出现的其它参考词条数的倒数作为该结点的权重;词条间的超链接关系即参考词条则映射成网络边;图谱中的边代表相连的两个结点即词条之间的语义联系;步骤二:为刻画用户和待推荐物品特征的每组标签,构建改进的显式语义分析模型,构建的基本过程为:首先将标签组中的每个标签即词条,映射成一个“概念向量”,概念向量的每一维对应知识图谱中的一个概念,也就是一个结点;非零的维度对应于图谱中指向这个标签的结点,其值是该标签在邻居结点对应的词条页面上的tf?idf值乘以该邻居结点的权重;然后,将一组标签中的每个标签映射的概念向量求和,生成对应该标签组的“和概念向量”;这个和概念向量就代表了整组标签的语义信息;步骤三:从步骤二中获得描述用户特征标签组对应的和概念向量与描述物品特征标签组对应的和概念向量后,计算两个向量的余弦相似度作为物品和用户的相似度;对于输入的每个候选物品,都计算一次它和用户的相似度,然后对所有相似度的值从高到低排序;如果要求推荐k个物品,则挑出排序在top?k的前k个物品作为输出的推荐结果。...

【技术特征摘要】
1.一种基于中文知识图谱的个性化推荐方法,其特征在于,对一个用户和一组候选的待推荐物品,他们各自都用一组标签来刻画其特征,借助中文知识图谱和一种改进的显式语义分析模型,从候选物品中找出最匹配该用户的物品作为个性化推荐的结果;具体步骤如下: 步骤一:构建中文知识图谱 首先,将百科网站的概念实体即词条,映射成知识图谱中的结点,这里所谓知识图谱是一个由许多点和边组成的网络;词条页面上出现的其它参考词条数的倒数作为该结点的权重;词条间的超链接关系即参考词条则映射成网络边;图谱中的边代表相连的两个结点即词条之间的语义联系; 步骤二:为刻画用户和待推荐物品特征的每组标签,构建改进的显式语义分析模型,构建的基本过程为:首先将标签组中的每个标签即词条,映射成一个“概念向量”,概念向量的每一维对应知识图谱中的一个概念,也就是一个结点;非零的维度对应于图谱中指向这个标签的结点,其值是该标签在邻居结点对应的词条页面上的tf-1df值乘以该邻居结点的权重;然后,将一组标签中的每个标签映射的概念向量求和,生成对应该标签组的“和概念向量”;这个和概念向量就代表了整组标签的语义信息; 步骤三:从步骤二中获得描述用户特征标签组对应的和概念向量与描述物品特征标签组对应的和概念向量后,计算两个向量的余弦相似度作为物品和用户的相似度;对于输入的每个候选物品,都计算一次它和用户的相似度,然后对所有相似度的值从高到低排序;如果要求推荐k个物品,则挑出排序在top-k的前k个物品作为输出的推荐结果。2.根据权利要求1所述的基于中文知识图谱的个性化推荐方法,其特征在于构建改进的显式语义分析模型的具体过程如下: 当系统从外部获得一组标签后,首先对该组中的每个标签一一建立对应的“概念向量”;每个标签的概念向量维数即整个中文知识图谱中的结点总数,每一维对应一个结点;假设,一个标签即一个词条t作为参考词条出现在某个结点V的词条页面上,则t的概念向量在V结点对应的维度值不为0,具体值按如下公式计算:V(t) =tf...

【专利技术属性】
技术研发人员:阳德青肖仰华汪卫
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1