数据分析装置和数据分析方法制造方法及图纸

技术编号:2852690 阅读:216 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种数据分析方法,该方法包括从作为每一个都包括数个注释变量和目标变量的一组记录的数据库中读出记录的目标变量;基于读出的记录的目标变量生成第一组多个簇;确定每个记录属于哪个簇;生成用于从注释变量中预测簇的分类法则;存储生成的分类法则;选择在生成的分类法则中涉及的注释变量;将选中的注释变量存储在注释变量列表中;以及基于注释变量列表上的记录中的注释变量和记录的目标变量生成第二组多个簇。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
现在已经报道了很多数据采集技术被用于分析诸如用户信息的离散信息的例子。另一方面,对分析诸如工厂里的灵敏度数据之类的数字信息的需求也越来越多。如果被分析的数字信息是多维的或者是高度非线性的,则难以获得精确的函数近似值。在这样的情况下将使用分析离散数据的技术,如生成诸如决策树之类的分类法则的那些技术。为了生成对于数字数据的分类法则,数字数据必须通过聚类(clustering)而被离散化。尤其是如果目标变量(被预测的变量)是一个数字值,在生成分类法则之前就要先应用离散化。在分类法则生成之前进行的目标变量的离散化显著地影响分类法则的生成。不适当的离散化可能导致不必要的复杂的分类法则或者使分类精确性降低。如果可以得到有关目标变量的先验知识或者如果从目标变量的频率分布来看离散化的边界显而易见,则在分类法则生成之前可以进行适当的离散化。但是,在大部分场合中,无法找到这样的先验知识或者明显的数据分布。因此,通常情况下,只得从已生成的分类法则来确定是否进行适当的离散化。也就是,因为在进行离散化的时候生成的分类法则的可读性和最优性不确定,因此,难以生成可读的简单的分类法则本文档来自技高网...

【技术保护点】
一种数据分析装置,其特征在于,包括:数据库,该数据库为一组每一个都包括数个注释变量和目标变量的记录;基于记录的目标变量生成数个簇的簇生成单元;确定每个记录属于哪个簇的确定单元;生成用于从注释变量预测簇的分类法则的分类法则生成单元;存储生成的分类法则的分类法则存储单元;选择在生成的分类法则中涉及到的注释变量的注释变量选择单元;和存储选中的注释变量的注释变量列表;其中,簇生成单元基于注释变量列表上的记录中的注释变量以及记录的目标变量生成数个簇。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:波田野寿昭久保田和人森田千绘仲濑明彦渡边经夫
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1