数据分类装置及方法和利用该装置及方法的数据收集系统制造方法及图纸

技术编号:11412729 阅读:98 留言:0更新日期:2015-05-06 12:36
本发明专利技术公开数据分类装置及方法和利用该装置及方法的数据收集系统。根据本发明专利技术的一实施例的数据分类方法包括如下的步骤:针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映类所属度而对向量进行群集化;根据被群集化的结果对多个分类对象数据进行标记;以及利用被标记的分类对象数据生成分类模型。

【技术实现步骤摘要】
数据分类装置及方法和利用该装置及方法的数据收集系统
本专利技术涉及一种数据分类技术,尤其涉及一种数据分类装置以及方法和利用该装置及方法的数据收集系统。
技术介绍
为了对某些数据进行分类,需要明确该数据的标签。因此,当数据的标签(label)不太明确且仅由类(class)所属度来表示时,难以对数据进行分类。例如,如下面的表1所示,当针对服务器的性能数据,用类所属度表示与服务器的故障的关联性程度时,难以确定将该性能数据分类为异常(Abnormal:A)还是正常(Normal:N)。表1标识符类所属度CPU使用率内存使用率CPU待机时间AAA30.5570.104.5430.1BBB79.114.3297.1296.3CCC5.1518.073.24.2在此,即使以类所属度的已设定的值作为基准而对性能数据进行标记(例如,将类所属度的值60作为基准,其以上的值标记为异常A,未达到该基准的值标记为正常N),用类所属度进行标记的结果的可靠性较低,因此仍然存在分类结果的可靠性较低的问题。现有技术文献韩国授权专利公报第10-1247307号(2013.03.26)
技术实现思路
本专利技术的实施例提供一种能够提高数据分类性能的数据分类装置及方法和利用该装置及方法的数据收集系统。本专利技术的实施例提供一种可分类标签不明确的数据的数据分类装置及方法和该装置及方法的数据收集系统。根据本专利技术一实施例的数据分类装置包括:群集化单元,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;以及分类模型生成单元,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的所述分类对象数据生成分类模型。所述数据分类装置还包括群集参数确定单元,该群集参数确定单元对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化,所述群集化单元可利用所述群集参数值以及所述类所属度,对所述分类对象数据的向量进行再群集化。所述群集参数确定单元根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来可最优化所述群集参数值。所述群集化单元可通过下面的数学式对所述多个分类对象数据的向量进行再群集化,数学式PDF′=PDF×等级所属度n其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。所述分类模型生成单元能够以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。所述数据分类装置还可包括验证被生成的所述分类模型的准确度的验证单元。所述验证单元可利用测试数据的类所属度值来对多个测试数据进行标记,并且将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。当所述分类模型的准确度未到达目标性能时,所述群集化单元可调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。所述验证单元可根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。所述数据分类装置还可包括通信单元,所述通信单元从数据收集单元接收输入数据,根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。所述类所属度为,可基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算。所述类所属度可通过下面的数学式计算,数学式其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。根据本专利技术一实施例的数据分类方法包括如下的步骤:针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;根据被群集化的结果对所述多个分类对象数据进行标记;以及利用被标记的所述分类对象数据生成分类模型。进行所述群集化的步骤可包括:对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化;以及利用所述群集参数值以及所述类所属度,对所述分类对象数据的向量进行再群集化。在最优化所述群集参数值的步骤中,可根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值。在进行所述再群集化的步骤中,通过下面的数学式对所述多个分类对象数据的向量进行再群集化,数学式PDF′=PDF×等级所属度n其中,PDF为该群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。在对所述多个分类对象数据进行标记的步骤中,能够以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。在生成所述分类模型的步骤之后,还可包括验证所生成的所述分类模型的准确度的步骤。验证所述分类模型的准确度的步骤可包括:利用测试数据的类所属度值来对多个测试数据进行标记;以及将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。在计算所述分类模型的准确度的步骤之后,还可包括如下的步骤:当所述分类模型的准确度未到达目标性能时,调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。在计算所述分类模型的准确度的步骤中,可根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。在生成所述分类模型的步骤之后,还可包括如下的步骤:从数据收集单元接收输入数据;以及根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。所述类所属度可基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算。所述类所属度可通过下面的数学式计算,数学式其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。根据本专利技术的一实施例的数据收集系统包括:数据分类装置,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的分类对象数据生成分类模型;以及数据收集装置,以预定周期收集数据进而传输至所述数据分类装置,其中,所述数据收集装置根据被收集的数据基于所述分类模型被分类的结果,来变更数据的收集周期。当被收集的数据被分类为故障时,所述数据收集装置可缩短所述数据的收集周期。所述类所属度可基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算。所述类所属度可通过下面的数学式计算,数学式其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。根据本专利技术的实施例,反映训练数据所包含的类所属度来对训练数据进行群集化,根据群集化的结果标记训练数据,被标记的训练数据作为输入数据而生成分类模型,因此即使具备可靠性低的类所属度的训练数据,也可以提高数据的分类性能。并且,输入的数据根据被群集化的结果来标记然后分类,因此在标签不太明确的数据的情况下,也可有效地进行分类。并且,分类模型的准确度未及目标值时,可调整类所属度的反映程度,以此最优化分类模型的性能。附图说明图1是示出根据本专利技术一实施例的数据分类装置的构成的图。图2是示出在数学式1中将a以及b设定为本文档来自技高网...
数据分类装置及方法和利用该装置及方法的数据收集系统

【技术保护点】
一种数据分类装置,其中,包括:群集化单元,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;以及分类模型生成单元,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的所述分类对象数据生成分类模型。

【技术特征摘要】
2013.10.30 KR 10-2013-01301801.一种数据分类装置,其中,包括:群集化单元,针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;以及分类模型生成单元,根据被群集化的结果对所述多个分类对象数据进行标记,利用被标记的所述分类对象数据生成分类模型,其中,所述类所属度表示分类对象数据与特定事件的关联性程度,其中,所述数据分类装置还包括群集参数确定单元,该群集参数确定单元对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化,所述群集化单元利用所述群集参数值以及反映所述类所属度的概率密度函数,对所述分类对象数据的向量进行再群集化。2.根据权利要求1所述的数据分类装置,其中,所述群集参数确定单元根据群集内所述向量的相似度是否超过已设定的值且群集之间的距离是否超过已设定的值来最优化所述群集参数值。3.根据权利要求1所述的数据分类装置,其中,所述群集化单元通过下面的数学式对所述多个分类对象数据的向量进行再群集化,数学式PDF′=PDF×类所属度n其中,PDF为群集方法的概率密度函数,n为类所属度的影响度,PDF′为反映了该分类对象数据的类所属度的新的概率密度函数。4.根据权利要求1所述的数据分类装置,其中,所述分类模型生成单元以各分类对象数据是否包含在群集来进行二元分类而对各分类对象数据进行标记。5.根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括验证所生成的所述分类模型的准确度的验证单元。6.根据权利要求5所述的数据分类装置,其中,所述验证单元利用测试数据的类所属度值来对多个测试数据进行标记,并且将被标记的所述测试数据代入到所述分类模型,从而计算所述分类模型的准确度。7.根据权利要求6所述的数据分类装置,其中,当所述分类模型的准确度未到达目标性能时,所述群集化单元调整所述类所属度的反映程度,对多个分类对象数据的向量进行再群集化。8.根据权利要求6所述的数据分类装置,其中,所述验证单元根据所述测试数据的基于标记的分类结果和所述测试数据的基于所述分类模型的分类结果的一致程度,计算所述分类模型的准确度。9.根据权利要求1所述的数据分类装置,其中,所述数据分类装置还包括通信单元,所述通信单元从数据收集单元接收输入数据,根据将所接收的输入数据代入到所述分类模型而进行分类的结果,将数据收集周期变更信号传输至所述数据收集单元。10.根据权利要求1所述的数据分类装置,其中,基于所述分类对象数据的发生时刻和特定事件之间的时间差的关联度来计算所述类所属度。11.根据权利要求1所述的数据分类装置,其中,所述类所属度通过下面的数学式计算,数学式其中,x为分类对象数据的发生时刻和特定事件的发生时刻之间的时间差,a以及b为补偿系数。12.一种数据分类方法,其中,包括如下的步骤:针对包括类所属度以及由至少一个属性值构成的向量的多个分类对象数据,反映所述类所属度而对所述向量进行群集化;根据被群集化的结果对所述多个分类对象数据进行标记;以及利用被标记的所述分类对象数据生成分类模型,其中,所述类所属度表示分类对象数据与特定事件的关联性程度,其中,进行所述群集化的步骤包括:对在对所述分类对象数据的各向量进行一次群集化时的群集参数值进行最优化;以及利用所述群集参数值以及以及反映所述类所属度的概率密度函数,对所述分类对象数据的向量进行再群集化。13.根据权利要求12所述的数据分...

【专利技术属性】
技术研发人员:申东民李在英
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1