System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于集群的标签纠正方法技术_技高网

一种用于集群的标签纠正方法技术

技术编号:39959762 阅读:10 留言:0更新日期:2024-01-08 23:57
本发明专利技术提供了一种用于集群的标签纠正方法,属于标签纠正技术领域,包括:对每个主集群进行无监督的特征选择得到每个主集群所对应的第一多维度标签;创建元集群,获取每个元集群中的元簇,并对第一多维度标签进行降维处理,得到每个元集群第二多维度标签;获取待分配样本的样本特征信息和每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇;获取最终簇特征信息,并对相应的第二多维度标签进行纠正。通过无监督特征选择得到第一多维度标签,并通过重新集群进行降维处理得到第二多维度标签再通过相似度对样本进行分配,保证样本能够被分配到具有最高相似性的元簇,从而保证了标签的准确性。

【技术实现步骤摘要】

本专利技术涉及标签纠正,特别涉及一种用于集群的标签纠正方法


技术介绍

1、目前,标签的纠正主要还是通过人工纠正的方式在进行,自动标签纠正的利用率很低,比较浪费劳动力且无法保证标签的准确性,并且在进行无特征集群进行数据采集时只能在大体上选定方向并确定相应的多维度标签,在后续则需要按照具体的应用场景进行筛选,而在筛选的过程中还需要进行降维处理,降维处理时很容易产生误差,需要判断最后的标签是否符合要求并且对错误的标签进行纠正。

2、因此,本专利技术提供一种用于集群的标签纠正方法。


技术实现思路

1、本专利技术提供一种用于集群的标签纠正方法,用以通过对初始状态下主集群进行无监督的特征选择得到每个主集群对应的标签,并选择主集群创建元集群得到元簇,通过相似度对样本进行分配得到最终簇并对标签进行纠正,保证了每个样本最终都能位于最合适的最终簇中进一步保证了标签的准确性。

2、本专利技术提供一种用于集群的标签纠正方法,包括:

3、步骤1:获取初始状态下主集群的数量并对每个主集群进行无监督的特征选择,基于选择结果得到每个主集群所对应的第一多维度标签;

4、步骤2:基于集群场景的特征信息选取需要重新集群的主集群创建元集群,获取每个元集群中的元簇,并基于每个元集群中元簇对应的特征信息对第一多维度标签进行降维处理,得到每个元集群对应的第二多维度标签;

5、步骤3:获取待分配样本的样本特征信息以及每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇;

6、步骤4:获取每个元集群所对应分配的所有最终簇的最终簇特征信息,并基于所述最终簇特征信息对相应的第二多维度标签进行纠正。

7、在一种可能实现的方式中,获取初始状态下主集群的数量并对每个主集群进行无监督的选特征择的过程中,包括:

8、获取初始状态下的第一数据集,并基于预设群类型对所述第一数据集中每个数据进行分类;

9、将分类结果的数量作为主集群的数量,且结合每个分类结果中每个数据的数据特征,确定相应的主集群的多维度特征。

10、在一种可能实现的方式中,对每个主集群进行无监督的特征选择,基于选择结果得到每个主集群所对应的第一多维度标签,包括:

11、基于无监督特征技术构建特征选择模型,将每个主集群的多维度特征以及对应的数据输入至特征选择模型中,得到每个特征的信息量;

12、将同个主集群中每个特征的信息量进行大小排名,选择排名前n1的信息量作为选择结果;

13、获取每个主集群的选择结果中所有特征的特征类型,并基于所述特征类型确定相应主集群的第一多维度标签。

14、在一种可能实现的方式中,基于集群场景的特征信息选取需要重新集群的主集群创建元集群,获取每个元集群中的元簇,包括:

15、获取应用的集群场景以及相应集群场景的特征信息,获取全部主集群中特征信息与相应集群场景的特征信息相似度超过预设相似度的部分主集群作为需要重新集群的主集群,并进行重新集群得到元集群;

16、对元集群进行集成聚类,并基于聚类结果得到元簇的数量以及相应元簇的特征信息。

17、在一种可能实现的方式中,基于每个元集群中元簇对应的特征信息对第一多维度标签进行降维处理,得到每个元集群对应的第二多维度标签,包括:

18、获取与每个元集群相关联的主集群以及每个主集群中包含的特征类型与相应元集群中元簇对应的特征类型的数量差值,并基于所述数量差值对相应主集群进行降维处理,得到相应主集群的第一降维标签;

19、获取与每个元集群相关联的所有主集群中包含的特征类型的重复度,并基于所述重复度对第一降维标签进行重复筛选处理,基于筛选结果得到每个元集群的第二多维度标签。

20、在一种可能实现的方式中,获取待分配样本的样本特征信息以及每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇,包括:

21、获取需要重新集群的主集群的第二数据集,并基于所述第二数据集确定待分配样本,且基于每个待分配样本当前的簇信息对相应待分配样本进行特征提取,得到每个待分配样本的样本特征信息;

22、基于所述待分配样本的样本特征信息构建样本特征向量,计算每两个样本之间的样本向量相似度,并基于所有样本相互之间的向量相似度对待分配样本进行类别划分,得到同类别待分配样本;

23、;

24、其中,为第i个样本与第j个样本之间的向量相似度,为第i个样本特征向量与第j个样本特征向量之间的参数描述相交比例,为第i个样本对应向量的元素集合,为第j个样本对应向量的元素集合,且元素集合中包含参数描述以及每个参数描述的参数值,为第i个样本与第j个样本基于参数描述的交集元素数量,为第i个样本与第j个样本基于参数描述的并集元素数量;为第i个样本与第j个样本基于参数描述及参数值的交集元素数量;为第i个样本与第j个样本基于参数描述及参数值的并集元素数量;为第i个样本与第j个样本的向量之间的元素差异方差;为所有任意两个待分配样本的向量之间的元素差异方差的平均值;为第i个样本与第j个样本的向量之间的距离值;为基于交并结果的相似调节因子;max表示最大值符号;表示第i个样本的元素数量;表示第j个样本的元素数量;

25、获取每个同类别待分配样本的中心向量,基于每个元簇的特征信息构建每个元簇的元簇特征向量,计算每个同类别待分配样本的中心向量与每个元簇特征向量的相似度,得到向量相似度;

26、筛选出向量相似度超出预设相似度阈值的待分配样本类别以及相应的元簇,若同类别的待分配样本对应一个元簇,则将相应待分配样本分配至相应的元簇,得到最终簇;

27、若同类别的待分配样本对应两个或两个以上的元簇,则选择向量相似度最高的元簇将相应类别的待分配样本分配至相应元簇,得到最终簇;

28、若同类别待分配样本的中心向量与每个元簇的元簇特征向量之间的相似度都低于预设相似度阈值,则计算相应类别待分配样本中的每个待分配样本的样本特征向量与每个元簇的元簇特征向量之间的相似度,并基于计算结果将每个样本分配至相似度最高的元簇中得到最终簇。

29、在一种可能实现的方式中,获取每个元集群所对应分配的所有最终簇的最终簇特征信息,包括:

30、获取每个最终簇中对应样本的样本特征信息,并确定每个最终簇对应的最终簇特征信息;

31、获取每个元集群中所有的最终簇,并基于相应最终簇的最终簇特征信息进行信息整理得到每个元集群中所有最终簇对应的最终簇特征信息。

32、在一种可能实现的方式中,基于所述最终簇特征信息对相应的第二多维度标签进行纠正,包括:

33、获取每个元集群相应的第二多维度标签,并基于所述第二多维度标签确定每个元集群的标签特征;

34、确定每个元集群的标签特征与相应元集群最终本文档来自技高网...

【技术保护点】

1.一种用于集群的标签纠正方法,其特征在于,包括:

2.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤1中,获取初始状态下主集群的数量并对每个主集群进行无监督的选特征择的过程中,包括:

3.根据权利要求2所述的一种用于集群的标签纠正方法,其特征在于,步骤1中,对每个主集群进行无监督的特征选择,基于选择结果得到每个主集群所对应的第一多维度标签,包括:

4.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤2中,基于集群场景的特征信息选取需要重新集群的主集群创建元集群,获取每个元集群中的元簇,包括:

5.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤2中,基于每个元集群中元簇对应的特征信息对第一多维度标签进行降维处理,得到每个元集群对应的第二多维度标签,包括:

6.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤3中,获取待分配样本的样本特征信息以及每个待分配样本的样本特征信息与每个元簇的相似度,并将每个待分配样本分配至相似度最高的元簇中得到最终簇,包括:p>

7.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤4中,获取每个元集群所对应分配的所有最终簇的最终簇特征信息,包括:

8.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤4中,基于所述最终簇特征信息对相应的第二多维度标签进行纠正,包括:

...

【技术特征摘要】

1.一种用于集群的标签纠正方法,其特征在于,包括:

2.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤1中,获取初始状态下主集群的数量并对每个主集群进行无监督的选特征择的过程中,包括:

3.根据权利要求2所述的一种用于集群的标签纠正方法,其特征在于,步骤1中,对每个主集群进行无监督的特征选择,基于选择结果得到每个主集群所对应的第一多维度标签,包括:

4.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于,步骤2中,基于集群场景的特征信息选取需要重新集群的主集群创建元集群,获取每个元集群中的元簇,包括:

5.根据权利要求1所述的一种用于集群的标签纠正方法,其特征在于...

【专利技术属性】
技术研发人员:祁纲王语博韩国权李芳
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1