数据分类标识方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:20866333 阅读:67 留言:0更新日期:2019-04-17 09:19
本发明专利技术涉及计算机领域,提供了一种数据集合分类标识方法,所述方法包括获取待分类数据集合;将所述待分类数据集合分为多个待分类数据簇;判断所述待分类数据簇是否满足样本数据集合限定的标准;丢弃不满足样本数据集合限定的标准的无效待分类数据簇;根据满足所述标准的待分类数据簇的特征信息确定与所述待分类数据簇关联性最大的分类标识;对所述待分类数据簇进行分类并标识。本发明专利技术实施例提供的数据集合分类标识方法,通过将所述待分类数据集合分为多个待分类数据簇,提高了处理的效率,同时利用了待分类数据簇的特征信息以及样本数据集合的特征信息,使得所述数据集合分类标识方法依赖于少量样本数据信息仍具有较高的鲁棒性以及准确性。

【技术实现步骤摘要】
数据分类标识方法、装置、计算机设备及可读存储介质
本专利技术涉及计算机
,特别是涉及一种数据集合分类标识方法、装置、计算机设备及可读存储介质。
技术介绍
当前机器学习技术方兴未艾,特别是深度学习技术在产业应用领域不断扩大,而通过学习能够自主的将数据进行合理的分类标识是机器进行深度学习技术的基础之一。现有文本分类领域中,科研网站公开的开源语料库内容主要应用于科研目的,而无法训练出产业环境所需要的相应的分类模型,而可用于训练出产业环境所需要的相应的分类模型的商用机器学习算法大多数依赖于有标识的数据库,而有标识的数据库却建立在大量的人力采用人工方式收集并标识的基础之上,有标识的数据库越大,需要的人力成本越高,而采用较小的有标识数据库却无法保证训练出来的分类模型具有足够的精度和鲁棒性。可见现有技术中,产业环境相应的分类模型存在着成本高、分类标识精度以及鲁棒性低的技术缺陷,无法满足当前机器分类标识的需求。
技术实现思路
本专利技术实施例提供一种数据集合分类标识方法,使得机器能够根据现有的少量有标识的样本数据就能准确有效的将给出的待分类标识数据进行分类标识。相比于现有技术,本专利技术实施例提供的方法鲁棒性更高,且分类标识的结果更加精确。本专利技术实施例提供一种数据集合分类标识方法,所述方法包括以下步骤:获取待分类数据集合,所述待分类数据集合包括多个待分类数据;通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇,每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值,所述簇最大边界值由样本数据集合确定;判断所述待分类数据簇中的第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离是否小于集合最大边界值,所述集合最大边界值由样本数据集合确定,所述样本数据集合包括多个样本数据簇,所述样本数据簇包括多个样本数据,每个样本数据簇对应一个分类标识;当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离大于或者等于集合最大边界值时,将所述第一待分类数据簇丢弃;当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离小于集合最大边界值时,根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识;用与所述第一待分类数据簇关联性最大的分类标识对所述第一待分类数据簇中的待分类数据进行标识。本专利技术实施例还提供一种数据集合分类标识装置,所述数据集合分类标识装置包括:待分类数据集合获取单元,用于获取待分类数据集合,所述待分类数据集合包括多个待分类数据;待分类数据簇生成单元,用于通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇,每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值,所述簇最大边界值由样本数据集合确定;第一待分类数据簇判断单元,用于判断所述待分类数据簇中的第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离是否小于集合最大边界值,所述集合最大边界值由样本数据集合确定,所述样本数据集合包括多个样本数据簇,所述样本数据簇包括多个样本数据,每个样本数据簇对应一个分类标识;无效待分类数据簇丢弃单元,用于当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离大于或者等于集合最大边界值时,将所述第一待分类数据簇丢弃;有效待分类数据簇确定单元,用于当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离小于集合最大边界值时,根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识;以及有效待分类数据簇分类标识单元,用于用与所述第一待分类数据簇关联性最大的分类标识对所述第一待分类数据簇中的待分类数据进行标识。本专利技术实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述的数据集合分类标识方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述的数据集合分类标识方法的步骤本专利技术实施例提供的数据集合分类标识方法,首先通过分裂层次聚类算法将大量的待分类数据进行初步处理生成多个待分类数据簇,在此过程中结合并利用样本数据集合的特征信息如集合最大边界值、簇最大边界值等,使得初步处理的待分类数据簇有着与样本数据集合相似的特征信息,并能够快速而准确的丢弃与样本数据集合无关联性的无效数据,极大地提高了分类标识的效率,其次通过样本数据集合的内部聚集特征建立分类模型,并进一步的将待分类数据簇通过分类模型进行分类标识,利用样本数据集合的内部聚集特征建立的分离模型,具有更高的准确性及鲁棒性,使得最后的分类标识结果更加准确。附图说明图1为本专利技术实施例提供的一种数据集合分类标识方法的整体流程图;图2为本专利技术实施例提供的一种由样本数据集合确定簇最大边界值的流程图;图3为本专利技术实施例提供的一种通过分裂层次聚类算法将待分类数据集合分为多个待分类数据簇的流程图;图4为本专利技术实施例提供的一种由样本数据集合确定集合最大边界值的流程图;图5为本专利技术实施例提供的一种根据第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识的流程图;图6为本专利技术又一种实施例提供的一种数据集合分类标识方法的流程图;图7为本专利技术实施例提供的一种数据集合分类标识装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例中,应当注意的是,数据集合分类标识方法不仅仅只适用于对纯数据集合进行分类标识,而是针对于所有能够通过现有计算机技术转化为多维数据的信息,包括且不限于文本、音频以及图像信息。在本专利技术实施例中,数据集合分类标识方法可以应用于终端中;计算机设备,计算机设备可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。本专利技术实施例根据当前现有技术中依赖于少量有标识数据库建立的分类模型存在的精确度以及鲁棒性不高的技术缺陷,通过对提供的少量样本数据集合进行特征分析,并将特征信息结合到待分类数据集合中,充分挖掘了样本数据的监督作用,提高了机器进行分类标识的效率与准确性,本专利技术实施例还通过分裂层次聚类算法将大量的待分类数据进行处理生成多个待分类数据簇,相比于处理大量的单个的待分类数据,处理待分类数据簇更加方便,而且待分类数据簇比单个待分类数据包含的特征信息更加全面,进一步提高了机器进行分类标识的准确性。图1示出了本专利技术实施例提供一种数据集合分类标识方法的整体流程图,详述如下。步骤S101,获取待分类数据集合。本专利技术实施例中,待分类数据集合包含多个待分类数据。步骤S102,通过分本文档来自技高网...

【技术保护点】
1.一种数据集合分类标识方法,其特征在于,所述方法包括以下步骤:获取待分类数据集合,所述待分类数据集合包括多个待分类数据;通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇,每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值,所述簇最大边界值由样本数据集合确定;判断所述待分类数据簇中的第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离是否小于集合最大边界值,所述集合最大边界值由样本数据集合确定,所述样本数据集合包括多个样本数据簇,所述样本数据簇包括多个样本数据,每个样本数据簇对应一个分类标识;当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离大于或者等于集合最大边界值时,将所述第一待分类数据簇丢弃;当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离小于集合最大边界值时,根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识;用与所述第一待分类数据簇关联性最大的分类标识对所述第一待分类数据簇中的待分类数据进行标识。

【技术特征摘要】
1.一种数据集合分类标识方法,其特征在于,所述方法包括以下步骤:获取待分类数据集合,所述待分类数据集合包括多个待分类数据;通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇,每个所述待分类数据簇中的待分类数据的向量与所述待分类数据簇的中心向量之间的距离小于簇最大边界值,所述簇最大边界值由样本数据集合确定;判断所述待分类数据簇中的第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离是否小于集合最大边界值,所述集合最大边界值由样本数据集合确定,所述样本数据集合包括多个样本数据簇,所述样本数据簇包括多个样本数据,每个样本数据簇对应一个分类标识;当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离大于或者等于集合最大边界值时,将所述第一待分类数据簇丢弃;当判断所述第一待分类数据簇的中心向量与样本数据集合的中心向量之间的距离小于集合最大边界值时,根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识;用与所述第一待分类数据簇关联性最大的分类标识对所述第一待分类数据簇中的待分类数据进行标识。2.根据权利要求1所述的方法,其特征在于,所述簇最大边界值由样本数据集合确定的步骤具体包括:计算所述各样本数据簇内样本数据的向量与所述样本数据簇的中心向量之间的距离;将所述与所述样本数据簇的中心向量之间的距离最大的距离值记为所述样本数据簇的簇边界值;计算所述各样本数据簇的簇边界值的平均值,所述平均值即为簇最大边界值。3.根据权利要求1所述的方法,其特征在于,所述通过分裂层次聚类算法将所述待分类数据集合分为多个待分类数据簇步骤包括:计算所述待分类数据集合内待分类数据的向量两两之间的距离;根据所述待分类数据集合内各待分类数据与所述距离最大的两个待分类数据之间的距离大小关系,将所述待分类数据集合分为两个待分类数据中间簇;判断所述待分类数据中间簇内是否存在第一待分类数据中间簇,所述第一待分类数据中间簇时内存在待分类数据的向量与所述第一待分类数据中间簇的中心向量之间的距离大于或者等于簇最大边界值;当判断所述待分类数据中间簇内不存在所述第一待分类数据中间簇时,输出所述待分类数据中间簇,所述待分类数据中间簇即为待分类数据簇;当判断所述待分类数据中间簇内存在所述第一待分类数据中间簇时,计算所述第一待分类数据中间簇内待分类数据的向量两两之间的距离;根据所述第一待分类数据中间簇内各待分类数据与所述距离最大的两个待分类数据之间的距离大小关系,将所述第一待分类数据中间簇内分为两个新的待分类数据中间簇,并返回到所述判断所述所有待分类数据中间簇内是否存在有第一待分类数据中间簇步骤。4.根据权利要求1所述的方法,其特征在于,所述集合最大边界值由样本数据集合确定的步骤具体包括:计算所述样本数据集合中每个样本数据的向量与样本数据集合的中心向量之间的距离;将所述所有距离中的最大值确定为集合最大边界值。5.根据权利要求1所述的方法,其特征在于,根据所述第一待分类数据簇的中心向量与各样本数据簇的中心向量之间的距离确定与所述第一待分类数据簇关联性最大的分类标识的步骤具体包括;计算所述样本数据集合中各样本数据的向量与各样本数据簇的中心向量之间的距离;将所述样本数据的向量到各样本数据簇的中心向量之间的距离按照预设的顺序排序,并根据预设的归一化处理方式生成样本输入特征向量;根...

【专利技术属性】
技术研发人员:钟尉
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1