一种众包知识共享社区的资源推荐方法技术

技术编号:27619052 阅读:70 留言:0更新日期:2021-03-10 10:56
本发明专利技术公开了一种众包知识共享社区的资源推荐方法,推荐前,先获取用户对资源的评分,包括如下步骤:先获取众包知识共享社区的用户对目标资源的社会化标注标签,建立基于共现关系的标签相似度矩阵,根据标签的共现关系建立结构化的标签树;在确定标签树的基础上,根据标签之间基于共现的共现语义相似度以及基于标签树的标签树语义相似度确定目标资源之间的资源语义相似度;用目标资源之间的资源语义相似度对用户的评分矩阵进行填充,根据填充后的用户评分矩阵找寻用户的邻近用户,通过邻近用户对资源的评分预测用户对资源的评分。本发明专利技术通过将社会化标注系统的语义挖掘与协同过滤算法相相融合,具有能够减少预测误差,提高推荐效率等优点。推荐效率等优点。推荐效率等优点。

【技术实现步骤摘要】
一种众包知识共享社区的资源推荐方法


[0001]本专利技术涉及知识图谱
,特别的涉及一种众包知识共享社区的资源推荐方法。

技术介绍

[0002]众包是指将原本由特定群体(比如雇员或者承包商)完成的任务外包给不特定的社会大众群体完成,由大众群体的力量来完成原来属于少数专业人士的任务。众包是一种参与式的在线网络活动,个人、机构、非营利组织或公司通过公开的渠道,向一群具有不同知识、不同类型的个体,主动提出一项任务。众包可以看作是一种利用大众的知识解决问题的方式。为了接触到大众的知识,不少利用众包这一模式解决问题的组织给众包的参与者提供了进行知识交互与共享的知识共享社区。
[0003]对众包社区中的知识资源进行管理,可以方便用户对于知识资源的检索,从而提高知识共享效率以及众包的效率。现有的资源管理的方法主要有两种,专家分类法和大众分类法,专家分类法是由领域专家自上而下地建立资源分类体系,用户按照该资源分类体系对资源添加预设的标签;大众分类法是指允许用户对网站上的资源自由添加标签来对资源进行描述,即社会化标注,并与网站上的其他用户分享。相比于严谨的专家分类法,社会化标注过程中产生的标签集构成了一种缺乏结构性的分类体系。
[0004]由于众包的任务、尤其是复杂开放性任务,很难确定任务的执行过程,因此也难以确定众包过程中会进行共享的知识类别,无法很好地采用专家分类法预先设定标签,并且在众包过程中,会形成一些由参与众包的成员自己创建的知识分类术语。因此,大众分类法是一种更加适合于众包知识共享社区的知识管理方法。
[0005]随着知识共享社区中知识资源的累积,如何帮助参与众包的人员找到其所需的知识资源是知识共享社区面临的一个重要的挑战。基于一些推荐算法的推荐系统是解决这一问题的主要方案,推荐系统对用户尚未评价过的资源的评价情况进行预测,从而生成推荐列表。其中协同过滤算法是目前应用最为广泛的一种推荐算法。协同过滤算法依据用户对于资源的历史评价矩阵来确定相似用户或是相似资源,并依据相似用户或是相似资源的历史评价记录来实现推荐,并不考虑用户或是资源自身的特性。但是,随着资源数量的增加,用户评价过的资源往往占全部资源的比重较小、尤其是新用户,因此协同过滤算法常常面临用户数据稀疏以及冷启动问题。

技术实现思路

[0006]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种能够减少预测误差,提高推荐效率的众包知识共享社区的资源推荐方法。
[0007]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0008]一种众包知识共享社区的资源推荐方法,其特征在于,推荐前,先获取用户对资源的评分,包括如下步骤:
[0009]S1、先获取众包知识共享社区的用户对目标资源的社会化标注标签,建立基于共现关系的标签相似度矩阵,根据标签的共现关系建立结构化的标签树;
[0010]S2、在确定标签树的基础上,根据标签之间基于共现的共现语义相似度以及基于标签树的标签树语义相似度确定目标资源之间的资源语义相似度;
[0011]S3、用目标资源之间的资源语义相似度对用户的评分矩阵进行填充,根据填充后的用户评分矩阵找寻用户的邻近用户,通过邻近用户对资源的评分预测用户对资源的评分。
[0012]进一步的,所述步骤S1中,采用如下步骤建立结构化的标签树:
[0013]S11、对社会化标注标签进行数据预处理:包括对无效标签的清理、相似标签的整合以及对低频标签和非法标签进行过滤,得到构建标签树的标签集合;
[0014]S12、建立维度为n
×
n的标签共现矩阵O,n为标签集合内的标签个数;引入Ochiia系数将标签共现矩阵O转换成反映标签间实质性共现关系的标签相似度矩阵S1nxn,
[0015][0016]其中S1(a,b)表示标签a和标签b的基于共现的共现语义相似度,O
a,b
代表标签a和标签b的共现频次,N
a
和N
b
表示标签a和标签b的使用频次;
[0017]S13、采用如下步骤构建标签树:
[0018]S13a、将标签集合中标注资源数量最多的标签作为根节点;
[0019]S13b、计算其他标签与当前根节点的共现语义相似度,并将共现语义相似度大于设定阈值且标注资源数量少于当前根节点的标签作为候选子标签集,以候选子标签集中与当前根节点的共现语义相似度最大的标签作为当前根节点的子节点;
[0020]S13c、将上一步确定的子节点作为当前根节点,重复步骤S13b,直到当前根节点下无子节点。
[0021]作为优化,所述步骤S13中,还包括如下步骤,S13d、将标签集合中还未加入标签树的所有标签中标注资源数量最多的标签作为对象,计算标签树中各标签与该对象的共现语义相似度,并将共现语义相似度大于设定阈值且标注资源数量大于该对象的标签作为候选父标签集,以候选父标签集中与该对象的共现语义相似度最大的标签作为该对象的父节点,并以该对象为当前根节点,重复步骤S13b,直到当前根节点下无子节点。
[0022]作为优化,所述步骤S13中,还包括如下步骤,S13e、所述步骤S13d中,若该对象在标签树中无父节点,则以该对象为根节点,重复步骤S13b~S13d构建标签树;建立总根节点,并将所有标签树归入该总根节点下,完成标签树的构建。
[0023]进一步的,所述步骤S2中,采用如下步骤确定资源之间的资源语义相似度:
[0024]S21、确定各标签基于标签树的标签树语义相似度:
[0025][0026]式中,S2(a,b)表示标签a和标签b基于标签树结构的标签树语义相似度,其中C(a)∩C(b)表示标签a和标签b相对标签树的语义重合度,为两个标签从标签树最顶部的根节点出发所共同经过节点在所有经过节点中所占比重;Dis(a,b)表示标签a和标签b之间的语义
距离,为标签树中两个标签之间最短路径的有向边的数目;h
a
和h
b
分别为标签a和标签b在标签树上所处的层次深度,λ为调节系数;
[0027]S22、将标签树语义相似度与共现语义相似度结合,得到综合语义相似度:
[0028]S(a,b)=α*S1(a,b)+(1-α)*S2(a,b)
[0029]其中S(a,b)代表标签a和标签b之间的综合语义相似度,S1(a,b)代表标签a和标签b之间基于共现的共现语义相似度,S2(a,b)代表标签a和标签b之间基于标签树结构的标签树语义相似度,α为调节系数;
[0030]S23、资源分类:将各资源的所有标签中属于标签树且标注次数大于设定阈值的标签组成该资源的分类标签集,将分类标签集内的各标签之间仅处于子节点的标签作为该资源的类;
[0031]S24、属性语义相似度计算:资源分类后,按照资源的各个属性分别计算资源之间各个属性的属性语义相似度:
[0032][0033]其中r(e,f)代表资源e和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种众包知识共享社区的资源推荐方法,其特征在于,推荐前,先获取用户对资源的评分,包括如下步骤:S1、先获取众包知识共享社区的用户对目标资源的社会化标注标签,建立基于共现关系的标签相似度矩阵,根据标签的共现关系建立结构化的标签树;S2、在确定标签树的基础上,根据标签之间基于共现的共现语义相似度以及基于标签树的标签树语义相似度确定目标资源之间的资源语义相似度;S3、用目标资源之间的资源语义相似度对用户的评分矩阵进行填充,根据填充后的用户评分矩阵找寻用户的邻近用户,通过邻近用户对资源的评分预测用户对资源的评分。2.如权利要求1所述的众包知识共享社区的资源推荐方法,其特征在于,所述步骤S1中,采用如下步骤建立结构化的标签树:S11、对社会化标注标签进行数据预处理:包括对无效标签的清理、相似标签的整合以及对低频标签和非法标签进行过滤,得到构建标签树的标签集合;S12、建立维度为n
×
n的标签共现矩阵O,n为标签集合内的标签个数;引入Ochiia系数将标签共现矩阵O转换成反映标签间实质性共现关系的标签相似度矩阵S1nxn,其中S1(a,b)表示标签a和标签b的基于共现的共现语义相似度,O
a,b
代表标签a和标签b的共现频次,N
a
和N
b
表示标签a和标签b的使用频次;S13、采用如下步骤构建标签树:S13a、将标签集合中标注资源数量最多的标签作为根节点;S13b、计算其他标签与当前根节点的共现语义相似度,并将共现语义相似度大于设定阈值且标注资源数量少于当前根节点的标签作为候选子标签集,以候选子标签集中与当前根节点的共现语义相似度最大的标签作为当前根节点的子节点;S13c、将上一步确定的子节点作为当前根节点,重复步骤S13b,直到当前根节点下无子节点。3.如权利要求2所述的众包知识共享社区的资源推荐方法,其特征在于,所述步骤S13中,还包括如下步骤,S13d、将标签集合中还未加入标签树的所有标签中标注资源数量最多的标签作为对象,计算标签树中各标签与该对象的共现语义相似度,并将共现语义相似度大于设定阈值且标注资源数量大于该对象的标签作为候选父标签集,以候选父标签集中与该对象的共现语义相似度最大的标签作为该对象的父节点,并以该对象为当前根节点,重复步骤S13b,直到当前根节点下无子节点。4.如权利要求3所述的众包知识共享社区的资源推荐方法,其特征在于,所述步骤S13中,还包括如下步骤,S13e、所述步骤S13d中,若该对象在标签树中无父节点,则以该对象为根节点,重复步骤S13b~S13d构建标签树;建立总根节点,并将所有标签树归入该总根节点下,完成标签树的构建。5.如权利要求2所述的众包知识共享社区的资源推荐方法,其特征在于,所述步骤S2中,采用如下步骤确定资源之间的资源语义相似度:S21、确定各标签基于标签树的标签树语义相似度:
式中,S2(a,b)表示标签a和标签b基于标签树结构的标签树语义相似度,其中C(a)∩C(b)表示标签a和标签b相对标签树的语义重合度,...

【专利技术属性】
技术研发人员:周康渠杨晨宋李俊付莹莹
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1