一种生成标签层级结构的方法和装置制造方法及图纸

技术编号:31225277 阅读:50 留言:0更新日期:2021-12-08 09:28
本发明专利技术公开了一种生成标签层级结构的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对;根据各个所述标签对生成标签关系图;其中,所述关系图中的节点为标签,边的权重为两个标签在同一文件对象中的共现次数;对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构。该实施方式能够解决标签在标签层级结构中的位置唯一的技术问题。问题。问题。

【技术实现步骤摘要】
一种生成标签层级结构的方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种生成标签层级结构的方法和装置。

技术介绍

[0002]在互联网的内容领域,很多网站赋予了用户向感兴趣的对象(如文章、视频、图片等)自由打标的功能,用户标注的标签称为社会化标签,其汇总成为一个体系,叫做大众分类法(Folksonomy)。
[0003]虽然标签数量丰富,但是同一标签覆盖内容较少,标签是零散平铺的,应用价值密度较低。为了克服这种社会化标签缺乏组织的问题,需要从标签中发现内在的关系并构建标签层级结构,使得标签在搜索推荐、广告投放等业务场景下应用。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]每个标签在生成的标签层级结构中的位置是唯一的,这个不能完全符合实际需求;如果标签可以在同一层级结构的不同位置出现,无法度量其相应的权重占比。

技术实现思路

[0006]有鉴于此,本专利技术实施例提供一种生成标签层级结构的方法和装置,以解决标签在标签层级结构中的位置唯一的技术问题。
[0007]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种生成标签层级结构的方法,包括:
[0008]根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对;
[0009]根据各个所述标签对生成标签关系图;其中,所述关系图中的节点为标签,边的权重为两个标签在同一文件对象中的共现次数;
[0010]对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构。
[0011]可选地,所述对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构,包括:
[0012]计算所述标签关系图中各个节点的平均中心度;
[0013]根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点;
[0014]分别计算每个所述次根节点与各个邻接节点的隶属度,从而确定各个所述次根节点对应的候选节点集合,所述候选节点集合中的各个节点与所述次根节点具有隶属关系;
[0015]重复执行上述步骤,从而生成标签层级结构。
[0016]可选地,所述计算所述标签关系图中各个节点的平均中心度,包括:
[0017]对于每个节点,分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值;
[0018]分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值
进行归一化处理;
[0019]对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均,从而得到所述节点的平均中心度。
[0020]可选地,所述根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点,包括:
[0021]对各个所述节点的平均中心度进行降序排列,筛选出平均中心度靠前的N个节点;其中,N为大于零的整数;
[0022]对于所述N个节点,将具有关联关系的节点划分为一组,从而得到至少一个节点组;
[0023]对于每个节点组,将所述节点组中平均中心度最大的节点作为根节点。
[0024]可选地,采用如下方法计算所述次根节点与任意一个邻接节点的隶属度:
[0025]所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。
[0026]可选地,所述确定各个所述次根节点对应的候选节点集合,包括:
[0027]将隶属度大于等于隶属度阈值的邻接节点加入到所述次根节点对应的候选节点集合,以使每个所述邻接节点至少隶属于一个次根节点。
[0028]可选地,所述根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对,包括:
[0029]根据各个标签在各个文件对象中的出现次数,分别计算任意两个标签在同一文件对象中的共现次数;
[0030]对于任意两个标签,根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量,判定所述两个标签之间是否存在关联关系,从而筛选出存在关联关系的标签对。
[0031]可选地,所述根据所述两个标签在同一文件对象中的共现次数、文件对象的总数量和出现了其中一个标签的文件对象的数量,判定所述两个标签之间是否存在关联关系,包括:
[0032]将所述两个标签在同一文件对象中的共现次数与文件对象的总数量相除,得到支持度;
[0033]将所述两个标签在同一文件对象中的共现次数与出现了其中一个标签的文件对象的数量相除,得到置信度;
[0034]若所述支持度大于等于支持度阈值,且所述置信度大于等于置信度阈值,则判定所述两个标签之间存在关联关系。
[0035]可选地,在所述生成标签层级结构之后,还包括:
[0036]根据所述标签层级结构,对各个文件对象匹配对应的标签。
[0037]另外,根据本专利技术实施例的另一个方面,提供了一种生成标签层级结构的装置,包括:
[0038]筛选模块,用于根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对;
[0039]关联模块,用于根据各个所述标签对生成标签关系图;其中,所述关系图中的节点
为标签,边的权重为两个标签在同一文件对象中的共现次数;
[0040]生成模块,用于对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构。
[0041]可选地,所述生成模块还用于:
[0042]计算所述标签关系图中各个节点的平均中心度;
[0043]根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点;
[0044]分别计算每个所述次根节点与各个邻接节点的隶属度,从而确定各个所述次根节点对应的候选节点集合,所述候选节点集合中的各个节点与所述次根节点具有隶属关系;
[0045]重复执行上述步骤,从而生成标签层级结构。
[0046]可选地,所述生成模块还用于:
[0047]对于每个节点,分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值;
[0048]分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理;
[0049]对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均,从而得到所述节点的平均中心度。
[0050]可选地,所述生成模块还用于:
[0051]对各个所述节点的平均中心度进行降序排列,筛选出平均中心度靠前的N个节点;其中,N为大于零的整数;
[0052]对于所述N个节点,将具有关联关系的节点划分为一组,从而得到至少一个节点组;
[0053]对于每个节点组,将所述节点组中平均中心度最大的节点作为根节点。
[0054]可选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成标签层级结构的方法,其特征在于,包括:根据各个标签在各个文件对象中的出现次数,筛选出存在关联关系的标签对;根据各个所述标签对生成标签关系图;其中,所述关系图中的节点为标签,边的权重为两个标签在同一文件对象中的共现次数;对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构。2.根据权利要求1所述的方法,其特征在于,所述对所述标签关系图中的各个节点进行聚类并计算邻接节点的隶属度,从而生成标签层级结构,包括:计算所述标签关系图中各个节点的平均中心度;根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点;分别计算每个所述次根节点与各个邻接节点的隶属度,从而确定各个所述次根节点对应的候选节点集合,所述候选节点集合中的各个节点与所述次根节点具有隶属关系;重复执行上述步骤,从而生成标签层级结构。3.根据权利要求2所述的方法,其特征在于,所述计算所述标签关系图中各个节点的平均中心度,包括:对于每个节点,分别计算所述节点的计算度中心性、中介中心性、接近中心性和网页排序值;分别对所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值进行归一化处理;对归一化处理后的所述计算度中心性、所述中介中心性、所述接近中心性和所述网页排序值求算术平均,从而得到所述节点的平均中心度。4.根据权利要求2所述的方法,其特征在于,所述根据各个所述节点的平均中心度和各个所述节点之间的关联关系,筛选出至少一个次根节点,包括:对各个所述节点的平均中心度进行降序排列,筛选出平均中心度靠前的N个节点;其中,N为大于零的整数;对于所述N个节点,将具有关联关系的节点划分为一组,从而得到至少一个节点组;对于每个节点组,将所述节点组中平均中心度最大的节点作为根节点。5.根据权利要求2所述的方法,其特征在于,采用如下方法计算所述次根节点与任意一个邻接节点的隶属度:所述邻接节点与所述次根节点之间的边的权重占所述邻接节点所有边的权重和的占比。6.根据权利要求2所述的方法,其特征在于,所述确定各个所述次根节点对应的候选节点集合,包括:将隶属度大于等...

【专利技术属性】
技术研发人员:陈希
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1