数据分类标识方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号：20866333 阅读：67 留言：0更新日期：2019-04-17 09:19

本发明专利技术涉及计算机领域，提供了一种数据集合分类标识方法，所述方法包括获取待分类数据集合；将所述待分类数据集合分为多个待分类数据簇；判断所述待分类数据簇是否满足样本数据集合限定的标准；丢弃不满足样本数据集合限定的标准的无效待分类数据簇；根据满足所述标准的待分类数据簇的特征信息确定与所述待分类数据簇关联性最大的分类标识；对所述待分类数据簇进行分类并标识。本发明专利技术实施例提供的数据集合分类标识方法，通过将所述待分类数据集合分为多个待分类数据簇，提高了处理的效率，同时利用了待分类数据簇的特征信息以及样本数据集合的特征信息，使得所述数据集合分类标识方法依赖于少量样本数据信息仍具有较高的鲁棒性以及准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据分类标识方法、装置、计算机设备及可读存储介质
本专利技术涉及计算机
，特别是涉及一种数据集合分类标识方法、装置、计算机设备及可读存储介质。
技术介绍
当前机器学习技术方兴未艾，特别是深度学习技术在产业应用领域不断扩大，而通过学习能够自主的将数据进行合理的分类标识是机器进行深度学习技术的基础之一。现有文本分类领域中，科研网站公开的开源语料库内容主要应用于科研目的，而无法训练出产业环境所需要的相应的分类模型，而可用于训练出产业环境所需要的相应的分类模型的商用机器学习算法大多数依赖于有标识的数据库，而有标识的数据库却建立在大量的人力采用人工方式收集并标识的基础之上，有标识的数据库越大，需要的人力成本越高，而采用较小的有标识数据库却无法保证训练出来的分类模型具有足够的精度和鲁棒性。可见现有技术中，产业环境相应的分类模型存在着成本高、分类标识精度以及鲁棒性低的技术缺陷，无法满足当前机器分类标识的需求。
技术实现思路
本专利技术实施例提供一种数据集合分类标识方法，使得机器能够根据现有的少量有标识的样本数据就能准确有效的将给出的待分类标识数据进行分类标识。相比于现有技术，本专利技术实施例提供的方法鲁棒性更高，且分类标识的结果更加精确。本专利技术实施例提供一种数据集合分类标识方法，所述方法包括以下步骤：获取待分类数据集合，所述待分类数据集合包括多个待分类数据；通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇，每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值，所述簇最大边界值由样本数据集合确定；判断所述待分类数...

【技术保护点】
1.一种数据集合分类标识方法，其特征在于，所述方法包括以下步骤：获取待分类数据集合，所述待分类数据集合包括多个待分类数据；通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇，每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值，所述簇最大边界值由样本数据集合确定；判断所述待分类数据簇中的第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离是否小于集合最大边界值，所述集合最大边界值由样本数据集合确定，所述样本数据集合包括多个样本数据簇，所述样本数据簇包括多个样本数据，每个样本数据簇对应一个分类标识；当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离大于或者等于集合最大边界值时，将所述第一待分类数据簇丢弃；当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离小于集合最大边界值时，根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识；用与所述第一待分类数据簇关联性最大的分类标识对所述第一待分类数据簇中的待分类数据进行标识。

【技术特征摘要】
1.一种数据集合分类标识方法，其特征在于，所述方法包括以下步骤：获取待分类数据集合，所述待分类数据集合包括多个待分类数据；通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇，每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值，所述簇最大边界值由样本数据集合确定；判断所述待分类数据簇中的第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离是否小于集合最大边界值，所述集合最大边界值由样本数据集合确定，所述样本数据集合包括多个样本数据簇，所述样本数据簇包括多个样本数据，每个样本数据簇对应一个分类标识；当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离大于或者等于集合最大边界值时，将所述第一待分类数据簇丢弃；当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离小于集合最大边界值时，根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识；用与所述第一待分类数据簇关联性最大的分类标识对所述第一待分类数据簇中的待分类数据进行标识。2.根据权利要求1所述的方法，其特征在于，所述簇最大边界值由样本数据集合确定的步骤具体包括：计算所述各样本数据簇内样本数据的向量与所述样本数据簇的中心向量之间的距离；将所述与所述样本数据簇的中心向量之间的距离最大的距离值记为所述样本数据簇的簇边界值；计算所述各样本数据簇的簇边界值的平均值，所述平均值即为簇最大边界值。3.根据权利要求1所述的方法，其特征在于，所述通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇步骤包括：计算所述待分类数据集合内待分类数据的向量两两之间的距离；根据所述待分类数据集合内各待分类数据与所述距离最大的两个待分类数据之间的距离大小关系，将所述待分类数据集合分为两个待分类数据中间簇；判断所述待分类数据中间簇内是否存在第一待分类数据中间簇，所述第一待分类数据中间簇时内存在待分类数据的向量与所述第一待分类数据中间簇的中心向量之间的距离大于或者等于簇最大边界值；当判断所述待分类数据中间簇内不存在所述第一待分类数据中间簇时，输出所述待分类数据中间簇，所述待分类数据中间簇即为待分类数据簇；当判断所述待分类数据中间簇内存在所述第一待分类数据中间簇时，计算所述第一待分类数据中间簇内待分类数据的向量两两之间的距离；根据所述第一待分类数据中间簇内各待分类数据与所述距离最大的两个待分类数据之间的距离大小关系，将所述第一待分类数据中间簇内分为两个新的待分类数据中间簇，并返回到所述判断所述所有待分类数据中间簇内是否存在有第一待分类数据中间簇步骤。4.根据权利要求1所述的方法，其特征在于，所述集合最大边界值由样本数据集合确定的步骤具体包括：计算所述样本数据集合中每个样本数据的向量与样本数据集合的中心向量之间的距离；将所述所有距离中的最大值确定为集合最大边界值。5.根据权利要求1所述的方法，其特征在于，根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识的步骤具体包括；计算所述样本数据集合中各样本数据的向量与各样本数据簇的中心向量之间的距离；将所述样本数据的向量到各样本数据簇的中心向量之间的距离按照预设的顺序排序，并根据预设的归一化处理方式生成样本输入特征向量；根...

【专利技术属性】
技术研发人员：钟尉，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人