一种基于FP-Growth算法的手机贴标检测数据分析方法技术

技术编号:18576756 阅读:33 留言:0更新日期:2018-08-01 11:52
本发明专利技术一种基于FP‑Growth算法的手机贴标检测数据分析方法:S1,对手机贴标检测系统检测结果数据库进行预处理;S2,对每个子数据立方体应用FP‑Growth算法统计识别出每个子数据立方体的频繁谓词集;S3,将多个子数据立方体的频繁谓词集合并为数据立方体的频繁谓词集;S4,得到数据立方体的频繁谓词集后,通过计算判定不合格类型与不合格因素的关系强弱。本发明专利技术可处理海量历史数据,结果全面、真实、可靠;借助数据立方体的聚合值获得支持度,简化了计算;将FP‑Growth算法进行改造,使之只产生不合格类型与不合格因素之间的强关联关系,而不产生不合格因素与不合格因素之间的强关联关系,加快了系统的运行速度。

A data analysis method for mobile phone labeling based on FP-Growth algorithm

A method of data analysis of mobile labeling detection based on FP Growth algorithm: S1, preprocessing the database of detection results of mobile labeling detection system; S2, the frequent predicate sets of each sub data cube are identified by FP Growth algorithm for each sub data cube; S3, multiple sub data cubes will be used. The frequent predicate sets are merged into the frequent predicate sets of the data cube; after S4, the frequent predicate sets of the data cube are obtained, and the relationship between the unqualified and the unqualified factors is determined by the calculation. The invention can deal with mass historical data, and the results are comprehensive, true and reliable; the support degree of the data cube is obtained, and the calculation is simplified. The FP Growth algorithm is reformed to produce only the strong association between the unqualified type and the unqualified factors, without the unqualified factors and the unqualified factors. The strong correlation between them accelerated the operation speed of the system.

【技术实现步骤摘要】
一种基于FP-Growth算法的手机贴标检测数据分析方法
本专利技术涉及一种基于FP-Growth算法的手机贴标检测数据分析方法,属于数据处理

技术介绍
随着移动互联网的发展,手机已成为人们生活中必不可少的消费品。全球手机需求爆发性增长推动了整个手机产业的蓬勃发展。为了满足人们对手机的需求,手机制造商需要加快手机研发速度和生产速度。在手机的生产流水线上,手机制造商需要将多个标签附于手机上。但是,由于贴标人员的粗心,贴标人员往往会出现贴标不合格的情况。为了提高手机产品出厂合格率,需要对手机贴标进行检测。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。随着手机生产量的迅速增加,手机贴标检测数据呈现爆发式增长,传统的数据统计分析方法已经不再适用于海量手机贴标检测数据的相关分析。而随着检测数据数量的增多,数据之间的相关关系也愈专利技术显,所以,亟需一种适用于海量检测数据的数据分析方法研究手机贴标不合格的关键因素。
技术实现思路
本专利技术的主要目的是在于提供一种基于FP-Growth算法的手机贴标检测数据分析方法,旨在对手机制造商手机贴标部门的检测数据进行数据挖掘和分析,从而为手机生产商贴标流水线的调整提供数据支持。为了实现上述目的,本专利技术提供的一种基于FP-Growth算法的手机贴标检测数据分析方法,包括以下步骤:S1,对手机贴标检测系统检测结果数据库进行预处理;具体如下:S11,剔除手机贴标检测合格的相关结果,保留手机贴标检测不合格的相关结果;S12,提取检测结果中贴标不合格的类型及相关的贴标人员年龄、性别、工位编号以及贴标时间等信息;S13,将提取的数据进行处理,具体包括对缺失值和异常值的整条数据记录删除。S14,将处理后的数据通过OLAP数据建模工具Workbench生成一个五维数据立方体。该数据立方体由贴标人员年龄、贴标人员性别、时间、工位和贴标不合格类型五维组成。其中,贴标不合格类型维具有漏贴、偏贴、褶皱、标签有缺陷四个成员。S15,对得到的五维数据立方体按照不合格类型维中的成员进行OLAP切片操作,得到每个不合格类型维成员所对应的四维子数据立方体。S2,对每个子数据立方体应用FP-Growth算法统计识别出每个子数据立方体的频繁谓词集;基于FP-Growth算法的子数据立方体的频繁谓词集的统计识别步骤如下:S21,设定FP-Growth算法的最小支持度;S22,第一次扫描子数据立方体,计算每个维成员的支持度,并与设定的最小支持度比较得到1-项频繁谓词集;S23,第二次扫描子数据立方体,创建FP-tree。首先创建FP-tree的根节点,标记为“null”,然后读入子数据立方体上的记录,并对每个记录创建一个分支,当为一个记录增加分支时,重叠路径上的节点计数增加相应的count值,不重叠的部分创建新的节点并创建链接指向前缀;直到所有记录都映射到FP-tree路径上;S24,从FP-tree中挖掘子数据立方体的频繁谓词集。S241,构造1-项频繁谓词集的条件模式基,把条件模式基当做事务集构造条件FP-tree;S242,根据条件FP-tree找到条件频繁谓词集,然后与后缀模式合并,得到频繁谓词集。S243,在条件FP-tree上迭代步骤S241和步骤S242,直至树包含一个谓词为止,从而统计识别出子数据立方体的频繁谓词集。S3,将上述步骤得到的多个子数据立方体的频繁谓词集合并为数据立方体的频繁谓词集;S31,遍历每个子数据立方体的频繁谓词集列表,若子数据立方体的频繁谓词集列表存在相同的频繁谓词集,则将该频繁谓词集的支持度相加,得到只包含不合格因素的频繁谓词集;S32,将每个子数据立方体的频繁谓词集加上对应的不合格类型组成新的频繁谓词集,即包含有不合格因素和不合格类型的频繁谓词集。S4,得到数据立方体的频繁谓词集后,通过计算判定不合格类型b与不合格因素a的关系强弱。S41,设定最小置信度min_conf;S42,通过以下公式计算不合格类型b与不合格因素a的置信度conf:其中,num(a)为仅有不合格因素a组成的频繁谓词集的支持度;num(a|b)为由不合格因素a和不合格类型b组成的频繁谓词集的支持度;S43,判断置信度conf是否大于设定的最小置信度min_conf,若是,则认为该不合格类型b与a中所述的不合格因素有强关联关系。S44,遍历所有的频繁谓词集,计算结果按照置信度由高到低排列后输出。本专利技术的有益效果:(1)本专利技术涉及的手机贴标数据检测方法可处理海量历史数据,其结果全面、真实、可靠;(2)借助数据立方体的聚合值获得支持度,大大简化了计算。(3)将FP-Growth算法进行改造,使之只能产生不合格类型与不合格因素之间的强关联关系,而不产生不合格因素与不合格因素之间的强关联关系,大大加快了系统的运行速度。附图说明图1为本专利技术数据分析方法的整体流程示意图。图2为本专利技术方法中数据预处理的流程示意图。图3为频繁谓词集的流程示意图。具体实施方式为了具体的描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。本实施例的手机贴标检测结果的相关数据存储在MYSQL数据库。该数据库中共包含500万条手机贴标检测信息。每条数据有6个属性。其中,表1给出数据库的各个属性及其值域。表2给出了数据库中的部分数据内容。表1表2如图1所示,首先,将手机贴标检测系统检测结果数据库中的数据进行预处理操作;其次,对每个子数据立方体运行FP-Growth算法统计识别出子数据立方体的频繁谓词集;然后,将子数据立方体的频繁谓词集合并成数据立方体的频繁谓词集;最后,根据设定的最小置信度,挖掘不合格类型与不合格因素之间的强关联关系。具体步骤如下:如步骤S1所述,对手机贴标检测系统检测结果数据库进行预处理。如图2所示,首先剔除手机贴标检测合格的相关结果,保留手机贴标检测不合格的相关结果。然后提取检测结果中贴标不合格类型及相关的贴标人员年龄、性别、工位编号以及贴标时间等信息。其中,一共提取到48662条手机贴标检测不合格结果。将提取的手机贴标检测不合格结果中具有缺失值的整条数据记录删除,将数据库中具有“+-:”“?”这样的无意义的字符的整条数据记录删除。并将信息中的描述性信息转化为数值性信息。最后,将处理后的数据通过OLAP数据建模工具Workbench生成一个五维数据立方体。将数据立方体转化为对应的数据立方体表,如下表3所示。表3其中,不合格类型成员“漏贴”、“偏贴”、“褶皱”、“标签有缺陷”分别用A1、A2、A3、A4表示。时间成员“8:00-10:00”、“10:00-12:00”、“13:00-15:00”、“15:00-17:00”分别用B1、B2、B3、B4表示。工位编号成员1、2、3分别用C1、C2、C3表示。年龄成员“20-30”、“30-40”、“40-50”分别用D1、D2、D3表示。性别成员“男”“女”分别用E1、E2表示。对得到的五维数据立方体按照不合格类型维中的成员进行OLAP切片操作,得到每个不合格类型维成员所对应的四维子数据立方体。A1情况下的子数据立方体表见表4。A2情况下的子数据立方体表见表5。A3情况下的子数据立方体表见表6。A本文档来自技高网...

【技术保护点】
1.一种基于FP‑Growth算法的手机贴标检测数据分析方法,其特征在于:该方法包括以下步骤:S1,对手机贴标检测系统检测结果数据库进行预处理;具体如下:S11,剔除手机贴标检测合格的相关结果,保留手机贴标检测不合格的相关结果;S12,提取检测结果中贴标不合格的类型及相关的贴标人员年龄、性别、工位编号以及贴标时间等信息;S13,将提取的数据进行处理,具体包括对缺失值和异常值的整条数据记录删除;S14,将处理后的数据通过OLAP数据建模工具Workbench生成一个五维数据立方体;S15,对得到的五维数据立方体按照不合格类型维中的成员进行OLAP切片操作,得到每个不合格类型维成员所对应的四维子数据立方体;S2,对每个子数据立方体应用FP‑Growth算法统计识别出每个子数据立方体的频繁谓词集;基于FP‑Growth算法的子数据立方体的频繁谓词集的统计识别步骤如下:S21,设定FP‑Growth算法的最小支持度;S22,第一次扫描子数据立方体,计算每个维成员的支持度,并与设定的最小支持度比较得到1‑项频繁谓词集;S23,第二次扫描子数据立方体,创建FP‑tree;S24,从FP‑tree中挖掘子数据立方体的频繁谓词集;S3,将上述步骤得到的多个子数据立方体的频繁谓词集合并为数据立方体的频繁谓词集;S31,遍历每个子数据立方体的频繁谓词集列表,若子数据立方体的频繁谓词集列表存在相同的频繁谓词集,则将该频繁谓词集的支持度相加,得到只包含不合格因素的频繁谓词集;S32,将每个子数据立方体的频繁谓词集加上对应的不合格类型组成新的频繁谓词集,即包含有不合格因素和不合格类型的频繁谓词集;S4,得到数据立方体的频繁谓词集后,通过计算判定不合格类型b与不合格因素a的关系强弱。...

【技术特征摘要】
1.一种基于FP-Growth算法的手机贴标检测数据分析方法,其特征在于:该方法包括以下步骤:S1,对手机贴标检测系统检测结果数据库进行预处理;具体如下:S11,剔除手机贴标检测合格的相关结果,保留手机贴标检测不合格的相关结果;S12,提取检测结果中贴标不合格的类型及相关的贴标人员年龄、性别、工位编号以及贴标时间等信息;S13,将提取的数据进行处理,具体包括对缺失值和异常值的整条数据记录删除;S14,将处理后的数据通过OLAP数据建模工具Workbench生成一个五维数据立方体;S15,对得到的五维数据立方体按照不合格类型维中的成员进行OLAP切片操作,得到每个不合格类型维成员所对应的四维子数据立方体;S2,对每个子数据立方体应用FP-Growth算法统计识别出每个子数据立方体的频繁谓词集;基于FP-Growth算法的子数据立方体的频繁谓词集的统计识别步骤如下:S21,设定FP-Growth算法的最小支持度;S22,第一次扫描子数据立方体,计算每个维成员的支持度,并与设定的最小支持度比较得到1-项频繁谓词集;S23,第二次扫描子数据立方体,创建FP-tree;S24,从FP-tree中挖掘子数据立方体的频繁谓词集;S3,将上述步骤得到的多个子数据立方体的频繁谓词集合并为数据立方体的频繁谓词集;S31,遍历每个子数据立方体的频繁谓词集列表,若子数据立方体的频繁谓词集列表存在相同的频繁谓词集,则将该频繁谓词集的支持度相加,得到只包含不合格因素的频繁谓词集;S32,将每个子数据立方体的频繁谓词集加上对应的不合格类型组成新的频繁谓词集,即包含有不合格因素和不合格类型的频繁谓词集;S4,得到数据立方体的频繁谓词集后,通过计算判定不合格类型b与不合格因素a的关系强弱。2.根据权利要求1所述的一种基于FP-Growth算法的手机贴标检测数据分析方法,其特征在于:所述步骤S1...

【专利技术属性】
技术研发人员:余旸梁帆乔仁晓王国华
申请(专利权)人:深圳灵虎至真智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1