【技术实现步骤摘要】
本专利技术涉及互联网领域,尤其涉及一种网络标签聚类方法和系统。
技术介绍
随着互联网的发展,网络资源越来越丰富。互联网上的网络资源可以包括:网络上的视频、音乐、图片文件,或者话题、课件等文件;网络标签(Tag)是用户根据自己的需要、理解和偏好,对网络资源进行标注得到的,用于描述网络资源的主题、类型、功能等多种特征。网络标签具有揭示资源的隐含内容或信息、分类的作用,并在此基础上实现网络资源聚合、协同与推荐等功能。通过对网络标签的向量化,得到网络标签向量;现有网络标签向量是由用户数据、网络资源和网络标签三维属性来表征的,现有网络标签向量中每一个元素表示每个用户数据与每个网络资源与网络标签三者之间的总关联度。在对网络标签向量化后,可以针对向量化后网络标签进行聚类算法的计算,实现对网络标签的聚类;对网络标签聚类后,有助于挖掘出范围更广、程度更深的与网络标签相关的网络资源,可以提高以网络标签来搜索、推荐网络资源等互联网应用的效率。所谓对向量化后的网络标签的聚类,就是对于由多个网络标签向量所构成的网络标签向量集,使用某种算法将该网络标签向量集划分成若干网络标签向量子集,使得聚在同一网络标签向量子集中的网络标签向量之间的相似度较高;这样,通过对网络标签向量的聚类,也就实现了网络标签向量所对应的网络标签的聚类;即同一网络标签向量子集中的网络标签向量所对应的网络标签之间具有较高的相似度。通常,将网络标签向量子集定义为一个簇;对簇中的全部网络标签向量求平均后得到一个平均向量,将该簇内与该平均向量距离最小的网络标签向量定义为该簇的质心;计算簇内任意两个网络标签向量之间的距离, ...
【技术保护点】
一种网络标签聚类方法,其特征在于,包括:计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的;根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目;根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。
【技术特征摘要】
1.一种网络标签聚类方法,其特征在于,包括: 计算网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序;其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的; 根据排序结果,选取数目与簇数目相一致的、所述网络标签向量集中排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心;所述簇数目为所述网络标签向量集中待聚类的簇的数目; 根据所述簇数目,以及确定的各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇。2.如权利要求1所述的方法,其中,所述簇数目为预先设定的;或者 所述簇数目根据如下方法确定: 对于一组参考簇数目,分别针对其中每个参考簇数目,根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考族数目的参考族最大直径; 根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值; 将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值; 根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目。3.如权利要求2所述的方法,其特征在于,所述一组参考簇数目为预先设定的一组数目;或者 所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。4.如权利要求3所述的方法,其特征在于,所述根据找出的差值所对应的两个相邻的参考簇数目,确定出所述簇数目,具体包括: 以找出的差值所对应的两个相邻的参考簇数目中的较大的参考簇数目作为上限参考簇数目; 以找出的差值所对应的两个相邻的参考簇数目中的较小的参考簇数目作为下限参考簇数目; 选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目。5.如权利要求4所述的方法,其特征在于,所述选取所述上限参考簇数目和所述下限参考簇数目之间的数目作为所述簇数目,具体包括: 将位于所述上限参考簇数目和所述下限参考簇数目之间的自然数作为待选簇数目集合中的元素, 构成所述待选簇数目集合;判断所述待选簇数目集合中的元素个数是否小于设定的元素数目阈值;若小于,则从所述待选簇数目集合中任选一个数目作为所述簇数目;否则: 将所述一组参考簇数目作为第I次迭代过程中的一组参考簇数目,所述待选簇数目集合作为第I次迭代过程中的待选簇数目集合后,对所述待选簇数目集合进行以下方法的迭代: 将从第i次迭代过程中的待选簇数目集合中选取的一组参考簇数目,作为第i+ι次迭代过程中的一组参考簇数目; 针对第i+ι次迭代过程中的一组参考簇数目,确定第i+ι次迭代过程中的待选簇数目集合; 若判断第i+ι次迭代过程中的待选簇数目集合中的元素个数小于所述元素数目阈值,则结束迭代,从最后一次迭代过程中的待选簇数目集合中任选一个数目作为所述簇数目;否则,进行下次迭代; 其中,i为自然数。6.如权利要求2-5任一所述的方法,其特征在于,所述根据该参考簇数目,以及所述网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,具体包括: 针对所述网络标签向量集中每个非初始质心的网络标签向量,分别计算该非初始质心的网络标签向量与各簇的初始质心之间的距离;确定出与该非初始质心的网络标签向量之间的距离最小的初始质心;将该非初始质心的网络标签向量聚类到确定出的初始质心所在的簇中;以及 所述聚类算法具体为 k均值聚类算法。7.—种网络标签聚类方法,其特征在于,包括: 对于一组参考簇数目,分别针对其中每个参考簇数目执行如下操作:根据该参考簇数目,以及网络标签向量集中各参考簇的初始质心,对所述网络标签向量集进行参考性聚类,将得到的参考性聚类后的各参考簇作为对应于该参考簇数目的参考性聚类结果;根据该参考簇数目的参考性聚类结果,计算每个参考簇的直径;将计算出的直径中的最大值作为对应于该参考簇数目的参考簇最大直径; 根据对各参考簇数目的排序结果,针对两两相邻的参考簇数目,计算出该相邻的参考簇数目所对应的参考簇最大直径之间的差值,将计算出的差值作为对应于该相邻的参考簇数目的直径差值; 将计算出的差值与设定的差值阈值进行比较,找出小于所述差值阈值的最大差值; 根据找出的差值所对应的两个相邻的参考簇数目,确定出簇数目; 根据确定出的簇数目,以及数目与所述簇数目相应的、所述网络标签向量集中各簇的初始质心,对所述网络标签向量集运用聚类算法得到所述网络标签向量集中聚类后的各簇; 其中,所述网络标签向量是对网络标签进行向量化后得到的:对于一个网络标签,其网络标签向量是由该网络标签与各网络资源的关联度作为向量元素构成的。8.如权利要求7所述的方法,其特征在于,所述网络标签向量集中各簇的初始质心是从所述网络标签向量集中随机选取的;或者所述网络标签向量集中各簇的初始质心根据如下方法确定: 计算所述网络标签向量集中各网络标签向量的模值,并根据模值大小对所述网络标签向量集中的网络标签向量进行排序; 根据排序结果,选取数目与簇数目相一致的、排序在前的网络标签向量,分别作为所述网络标签向量集中各簇的初始质心。9.如权利要求8所述的方法,其特征在于,所述一组参考簇数目为预先设定的一组数目;或者 所述一组参考簇数目是根据所述网络标签向量集中的网络标签向量个数确定的:对I η的自然数,从中间隔选取设定个数的数字作为所述一组参考簇数目,或者从中以指数间隔或等值间隔选取数字作为所述一组参考簇数目;其中,η为所述网络标签向量集中的网络标签向量个数。10.如权利要求9所述的方法,其...
【专利技术属性】
技术研发人员:陈玉焓,
申请(专利权)人:新浪网技术中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。