一种基于语义相容度的行业聚类数字资源使用价值评级方法技术

技术编号:20390952 阅读:22 留言:0更新日期:2019-02-20 03:16
本发明专利技术提供了一种基于语义相容度的行业聚类数字资源使用价值评级方法,用于在全网范围内,评价该数字资源在所属行业领域的重要性;所述方法包括:S1计算语义百分比;S2计算相对语义相容度;S3计算整体语义相容度;S4计算引用代价;S5计算版权;S6计算原创影响力;S7计算基于语义相容度的数字资源聚类;S8计算数字资源行业排名;S9计算数字资源的行业聚类级别。本发明专利技术为网络上的数字资源,提供了基于使用价值语义的重要性评判方法,该方法更加客观、公正。

【技术实现步骤摘要】
一种基于语义相容度的行业聚类数字资源使用价值评级方法
本专利技术涉及网络数字资源的使用价值评级,尤其是涉及一种基于语义相容度的行业聚类数字资源使用价值评级方法。
技术介绍
在目前的主流网络数字资源价值评级方法中,单纯地以网络数字资源链接被他引的指标作为评级基础,一方面,造成了为提升数字资源评级而有针对性的人为优化的恶性竞争,比如,在网页中增加许多无用的链接,以提升自己被他引的次数,另一方面,数字资源中的链接内容太多,以至于链接的文字“噪音“有淹没、混淆网络数字资源自身内容的倾向,如网页因为其中所添加的链接而非其自身内容被检索到。网络数字资源的真正价值体现在其原创性部分的使用过程中。本专利技术基于语义相容度,根据数字资源的原创、非原创部分的真正使用过程,实现对数字资源在其所述行业内的使用价值评级方法。
技术实现思路
本专利技术的目的在于克服现有网络数字资源价值评级方法的缺陷,提供一种能够基于数字资源原创性内容,并从用户使用过程角度出发,客观、真实地体现数字资源使用价值的评级方法。基于该评级方法,基于人为优化提高使用价值评级的做法难以奏效,从而使得基于本方法得到的评级能够免受“噪音“的影响,而真正体现数字资源的使用价值。为实现上述目的,本专利技术提出如下技术方案:一种基于语义相容度的行业聚类数字资源使用价值评级方法,包括:S1计算语义百分比;S2计算相对语义相容度;S3计算整体语义相容度;S4计算引用代价;S5计算版权;S6计算原创影响力;S7计算基于语义相容度的数字资源聚类;S8计算数字资源行业排名;S9计算数字资源的行业聚类级别。优选地,所述计算语义百分比包括:语义百分比是一个数值,该数值表达了一个语义片段i在整个数字资源£中的重要程度,记为λi,£,有,其中,P=|iConEleSet|,表示为语义片段i中语义元素的个数,iConEleSet为语义片段i的语义元素集合;T=|£ConEleSet|,T为数字资源£ConEleSet语义元素的个数,£ConEleSet为数字资源£中语义元素集合;Xe为i中的语义元素;RTF:重要度评价函数,RTF(x,y)表示“元素x在y中的重要程度“。优选地,所述语义元素为一个语义片段中的最小、不可再分的语义单位。优选地,所述语义片段为一个数字资源中的某一连续自然文字序列所表达的含义。优选地,所述计算相对语义相容度包含表示:数字资源μ和£相对于语义片段i的语义相容程度,表示为SemComFactor(i,£,μ),有,SemComFactor(i,£,μ)=Max(λi,£,λi,μ),其中,Max为求最大值函数。优选地,所述计算整体语义相容度包含表示:数字资源μ和£的语义相容程度,表示为SemComFactor(£,μ),有,SemComFactor(£,μ)=Max(λc,£,λc,μ),其中c=£∩μ。优选地,所述计算引用代价包含表示:假设用户a拥有的数字资源£引用了语义片段i,i的版权属于数字资源μ,不属于£。将数字资源£因为引用语义片段块i而需向数字资源μ付出的引用代价记为PayoutRatio(i,£,μ),有,PayoutRatio(i,£,μ)=α*λi,-*SemComFactor(i,£,μ),0<α<1,其中的α为价值调和因子,通常取0.99,其含义为:即使全文引用,引用方也获得劳动价值,以鼓励对优秀数字资源的传播。优选地,所述语义片段i的版权属于数字资源μ包含:当数字资源μ被创建的时候,μ中的语义片段i在截止到i刚被创建完成的时间为止,在此之前,i在全网是不存在的。优选地,所述计算版权包含:账户a创建了数字资源£后,版权属于£的语义片段占£的语义的比例,被认为是a在数字资源£中,拥有的版权比例,记为有,优选地,所述计算原创影响力包含:数字资源£基于自身拥有的版权,所应得的综合影响力,记为Inf£,有,X为£的TInf值TInf表示一个数字资源在全网获得的综合影响力未按照原创值分配的总值,以数值的形式出现,称其为受欢迎程度;数字资源的受欢迎程度来自其使用过程,包含多维因素。优选地,所述多维因素包含:这些多维因素被建模为一个多维向量DigiEU,DigiEU包含但不限于以下向量中的分量,DigiEU=[Supports,acctimes,refs,totaltime,userdistribution,frelatsevd,highestfreqduration],其中,Supports为数据点赞数,acctimes为数据点击总量,refs为被引次数,totaltime为访问累计计时,userdistribution为用户分布(用于表征用户的聚集程度以及访问的公平性),frelasevd为最近一周内的访问评率,highestfreqduration为最高访问频率对应时间段。优选地,所述TInf包含:其中,为一基于机器学习实现的函数,在大量针对已有网络数字资源的“使用方式-欢迎度”样本上训练得到。优选地,所述计算基于语义相容度的数字资源聚类包括:Clusterm={n|SemComFactor(m,n)>α,0≤α≤1,n为网络中的数字资源}其中,Clusterm为与数字资源m的语义相容度大于α的数字元资源聚类,为一个数字资源集合,α定义了m的语义相容聚类的最低语义相容度。优选地,所述计算数字资源行业排名包含:记数字资源m在其数字资源聚类中的原创影响力排名为一数值,记为Orderm,有,Orderm=|LessThanm|,LessThanm={n|Infm>Infn}其中:LessThanm表示所有原创影响力低于m,并且在Clusterm中的数字资源集合。优选地,所述计算数字资源的行业聚类级别包含:将数字资源m在其行业聚类中的级别记为Infm,则有,InfRm=Infm*(Orderm/|Clusterm|),其中,Orderm/|Clusterm|表示数字资源m在聚类中的横向重要度。本专利技术基于语义相容度,根据数字资源的原创、非原创部分的真正使用过程,实现对数字资源在其所述行业内的使用价值评级方法。该方法适用于处理的各种不同形式的数字资源,诸如:代码、文档、软件、图片、音视频等文件本专利技术的评级方法可用于指导如何建立搜索引擎,并能够有效降低网络上同类、复制形式的“噪音”造成的搜索结果冗余度和低精准度。在此基础上,可进一步对全网数字资源进行确权,从而实现对数字资源原创者的版权保护。附图说明图1是本专利技术可信时序偏序计算的流程示意图。具体实施方式下面将结合本专利技术的附图,对本专利技术实施例的技术方案进行清楚、完整的描述。本专利技术实施例所揭示的一种基于语义相容度的行业聚类数字资源使用价值评级方法,主要是提供一种难以人为优化、真正依赖于人们使用过程的数字资源使用价值评价方法;该方法主要由计算语义百分比、计算相对语义相容度、计算整体语义相容度、计算引用代价、计算版权、计算原创影响力、计算基于语义相容度的数字资源聚类、计算数字资源行业排名、计算数字资源的行业聚类级别完成。场景假设:网络数字资源已经被按照语义片段的引用关系组织在语义应用关系树SemHTree中,并且基于函数findREF、当前的语义片段i以及SemHTree,可以快速得到i在哪个文档(Ow本文档来自技高网...

【技术保护点】
1.一种基于语义相容度的行业聚类数字资源使用价值评级方法,其特征在于,包括:S1计算语义百分比;S2计算相对语义相容度;S3计算整体语义相容度;S4计算引用代价;S5计算版权;S6计算原创影响力;S7计算基于语义相容度的数字资源聚类;S8计算数字资源行业排名;S9计算数字资源的行业聚类级别。

【技术特征摘要】
1.一种基于语义相容度的行业聚类数字资源使用价值评级方法,其特征在于,包括:S1计算语义百分比;S2计算相对语义相容度;S3计算整体语义相容度;S4计算引用代价;S5计算版权;S6计算原创影响力;S7计算基于语义相容度的数字资源聚类;S8计算数字资源行业排名;S9计算数字资源的行业聚类级别。2.根据权利要求1所述的方法,其特征在于,所述计算语义百分比包括:语义百分比是一个数值,该数值表达了一个语义片段i在整个数字资源中的重要程度,记为有,其中,P=|iConEleSet|,表示为语义片段i中语义元素的个数,iConEleSet为语义片段i的语义元素集合;T为数字资源中语义元素的个数,为数字资源中语义元素集合;Xe为i中的语义元素;RTF:重要度评价函数,RTF(x,y)表示“元素x在y中的重要程度”。3.根据权利要求2所述的方法,其特征在于,所述语义元素为一个语义片段中的最小、不可再分的语义单位。4.根据权利要求2所述的方法,其特征在于,所述语义片段为一个数字资源中的某一连续自然文字序列所表达的含义。5.根据权利要求2所述的方法,其特征在于,所述语义片段为一个数字资源中的某一连续自然文字序列所表达的含义。6.根据权利要求1所述的方法,其特征在于,所述计算相对语义相容度包含表示:数字资源μ和相对于语义片段i的语义相容程度,表示为有,其中,Max为求最大值函数。7.根据权利要求1所述的方法,其特征在于,所述计算整体语义相容度包含表示:数字资源μ和的语义相容程度,表示为有,其中8.根据权利要求1所述的方法,其特征在于,所述计算引用代价包含表示:假设用户a拥有的数字资源引用了语义片段i,i的版权属于数字资源μ,不属于将数字资源因为引用语义片段块i而需向数字资源μ付出的引用代价记为有,其中的α为价值调和因子,通常取0.99,其含义为:即使全文引用,引用方也获得劳动价值,以鼓励对优秀数字资源的传播。9.根据权利要求7所述的方法,其特征在于,所述“语义片段i的版权属于数字资源μ”这种行为的含义包含:当数字资源μ被创建的时候,μ中的语义片段i在截止到i刚被创建完成的时间为止,在此之前,i在全网是不存在的。10.根据权利要求7所述的方法,其特征在于,所述计算版权包含:账户a创建了数字资源后,版权属于的语义片段占的语义的比例,被认为是a在数字资源中,拥有的版权比例,记为有...

【专利技术属性】
技术研发人员:谢绍韫
申请(专利权)人:苏州黑云信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1