数据分类装置及方法和利用该装置及方法的数据收集系统制造方法及图纸

技术编号：11412729 阅读：98 留言：0更新日期：2015-05-06 12:36

本发明专利技术公开数据分类装置及方法和利用该装置及方法的数据收集系统。根据本发明专利技术的一实施例的数据分类方法包括如下的步骤：针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据，反映类所属度而对向量进行群集化；根据被群集化的结果对多个分类对象数据进行标记；以及利用被标记的分类对象数据生成分类模型。

全部详细技术资料下载

【技术实现步骤摘要】
数据分类装置及方法和利用该装置及方法的数据收集系统
本专利技术涉及一种数据分类技术，尤其涉及一种数据分类装置以及方法和利用该装置及方法的数据收集系统。
技术介绍
为了对某些数据进行分类，需要明确该数据的标签。因此，当数据的标签（label）不太明确且仅由类（class）所属度来表示时，难以对数据进行分类。例如，如下面的表1所示，当针对服务器的性能数据，用类所属度表示与服务器的故障的关联性程度时，难以确定将该性能数据分类为异常（Abnormal:A）还是正常（Normal:N）。表1标识符类所属度CPU使用率内存使用率CPU待机时间AAA30.5570.104.5430.1BBB79.114.3297.1296.3CCC5.1518.073.24.2在此，即使以类所属度的已设定的值作为基准而对性能数据进行标记（例如，将类所属度的值60作为基准，其以上的值标记为异常A，未达到该基准的值标记为正常N），用类所属度进行标记的结果的可靠性较低，因此仍然存在分类结果的可靠性较低的问题。现有技术文献韩国授权专利公报第10-1247307号（2013.03.26）
技术实现思路
本专利技术的实施例提供一种能够提高数据分类性能的数据分类装置及方法和利用该装置及方法的数据收集系统。本专利技术的实施例提供一种可分类标签不明确的数据的数据分类装置及方法和该装置及方法的数据收集系统。根据本专利技术一实施例的数据分类装置包括：群集化单元，针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据，反映所述类所属度而对所述向量进行群集化；以及分类模型生成单元，根据被群集化的结果对所述...
数据分类装置及方法和利用该装置及方法的数据收集系统

【技术保护点】
一种数据分类装置，其中，包括：群集化单元，针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据，反映所述类所属度而对所述向量进行群集化；以及分类模型生成单元，根据被群集化的结果对所述多个分类对象数据进行标记，利用被标记的所述分类对象数据生成分类模型。

【技术特征摘要】
2013.10.30 KR 10-2013-01301801.一种数据分类装置，其中，包括：群集化单元，针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据，反映所述类所属度而对所述向量进行群集化；以及分类模型生成单元，根据被群集化的结果对所述多个分类对象数据进行标记，利用被标记的所述分类对象数据生成分类模型，其中，所述类所属度表示分类对象数据与特定事件的关联性程度，其中，所述数据分类装置还包括群集参数确定单元，该群集参数确定单元对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化，所述群集化单元利用所述群集参数值以及反映所述类所属度的概率密度函数，对所述分类对象数据的向量进行再群集化。2.根据权利要求1所述的数据分类装置，其中，所述群集参数确定单元根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来最优化所述群集参数值。3.根据权利要求1所述的数据分类装置，其中，所述群集化单元通过下面的数学式对所述多个分类对象数据的向量进行再群集化，数学式PDF′＝PDF×类所属度n其中，PDF为群集方法的概率密度函数，n为类所属度的影响度，PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。4.根据权利要求1所述的数据分类装置，其中，所述分类模型生成单元以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。5.根据权利要求1所述的数据分类装置，其中，所述数据分类装置还包括验证所生成的所述分类模型的准确度的验证单元。6.根据权利要求5所述的数据分类装置，其中，所述验证单元利用测试数据的类所属度值来对多个测试数据进行标记，并且将被标记的所述测试数据代入到所述分类模型，从而计算所述分类模型的准确度。7.根据权利要求6所述的数据分类装置，其中，当所述分类模型的准确度未到达目标性能时，所述群集化单元调整所述类所属度的反映程度，对多个分类对象数据的向量进行再群集化。8.根据权利要求6所述的数据分类装置，其中，所述验证单元根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度，计算所述分类模型的准确度。9.根据权利要求1所述的数据分类装置，其中，所述数据分类装置还包括通信单元，所述通信单元从数据收集单元接收输入数据，根据将所接收的输入数据代入到所述分类模型而进行分类的结果，将数据收集周期变更信号传输至所述数据收集单元。10.根据权利要求1所述的数据分类装置，其中，基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算所述类所属度。11.根据权利要求1所述的数据分类装置，其中，所述类所属度通过下面的数学式计算，数学式其中，x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差，a以及b为补偿系数。12.一种数据分类方法，其中，包括如下的步骤：针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据，反映所述类所属度而对所述向量进行群集化；根据被群集化的结果对所述多个分类对象数据进行标记；以及利用被标记的所述分类对象数据生成分类模型，其中，所述类所属度表示分类对象数据与特定事件的关联性程度，其中，进行所述群集化的步骤包括：对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化；以及利用所述群集参数值以及以及反映所述类所属度的概率密度函数，对所述分类对象数据的向量进行再群集化。13.根据权利要求12所述的数据分...

【专利技术属性】
技术研发人员：申东民，李在英，
申请(专利权)人：三星SDS株式会社，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人