产生最大项目集的方法、基于Apriori分析成绩的方法及系统技术方案

技术编号:12419056 阅读:73 留言:0更新日期:2015-12-02 13:57
本发明专利技术公开产生最大项目集的方法、基于Apriori分析成绩的方法及系统,1,统计原项目中所有元素对应的频率;2,将原项目中的所有元素进行组合得到频繁项目集;3,当频繁项目集中存在小于预设支持度的项目时,去除频繁项目集中小于预设支持度的项目,否则保留频繁项目集;4,一一判断经过3之后的频繁项目集中的元素的个数和循环次数减1的大小;1)当频繁项目集中的存在元素的个数小于和等于循环次数时,则去除个数小于循环次数减1的元素所在的项目,组合形成新的频繁项目集替换频繁项目集,返回步骤3,循环次数加1;2)当都等于循环次数时,组合频繁项目集中的所有元素得到最大项目集。该方法减少了计算机系统的I/O开销。

【技术实现步骤摘要】

本专利技术涉及统计计算分析
的,具体地涉及产生最大项目集的方法和分析学生成绩的方法、系统。
技术介绍
目前学生成绩分析算法中采用最多的是Apr1ri算法,Apr1ri算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,而且算法已经被广泛的应用到商业、网络安全等各个领域,根据Apr1ri算法,可综合分析班级各分数段、最高分、最低分、平均分、标准分、T值、优良率等信息,但是数据挖掘技术在教育管理领域内的研究相对较少,而学校对这些成绩的处理一般还停留初级的查询、简单汇总统计阶段,对于学生取得这些成绩的原因、某门课程的授课效果如何等问题往往无法了解;而且在大数据分析情况下,采用一般的Apr1ri算法分析成绩时,首先在每一步产生候选项目集时循环产生的组合过多,没有排除不应该参与组合的元素,然后每次计算相集的支持度时,如果数据库很大,在扫描数据库时会大大增加计算机系统的I/O开销。
技术实现思路
本专利技术为了解决现有技术中学生成绩无法真实地被反映、Apr1ri算法在大数据分析中事务数据库扫描次数过多、计算机系统的I/O开销过大的问题,提供了一种产生最大项目集的方法、分析学生成绩的方法以及分析学生成绩的系统,该方法及系统可有效地反映学生成绩的真实情况而且可有效地减少计算机系统的I/O开销。为了实现上述目的,本专利技术提供了一种产生最大项目集的方法包括:步骤I,统计原项目中所有元素一一对应的频率;步骤2,将原项目中的所有元素进行组合得到频繁项目集;步骤3,在所述频繁项目集中存在小于所述预设支持度的项目的情况下,去除所述频繁项目集中小于所述预设支持度的项目,否则保留原频繁项目集;步骤4,一一判断经过步骤3之后的所述频繁项目集中的元素的个数和循环次数减I的大小,初始循环次数为2 ;I)当所述频繁项目集中的存在元素的个数小于和等于所述循环次数减I时,则去除个数小于所述循环次数减I的元素所在的项目,组合形成新的频繁项目集替换所述频繁项目集,返回步骤3,循环次数加I ;2)当所述频繁项目集中的所有元素的个数都等于循环次数减I时,则组合所述频繁项目集中的所有元素得到最大项目集。优选地,在步骤2中,通过逐层迭代将原项目中的所有元素进行组合得到频繁项目集。优选的,在步骤I之前还包括:通过先验步骤判断原项目是否已经处理。本专利技术还提供一种基于Apr1ri分析成绩的方法,该方法包括:算法分析步骤:根据上述的产生最大项目集的方法得到最大项目集;将基于Apr1ri算法产生的最大项目集通过正态分布原理算法得出学生成绩的位置排名。优选的,在算法分析步骤之前,该方法还包括:步骤分析建模步骤:将基础成绩数据进行分析并建模。本专利技术还提供一种基于Apr1ri分析成绩的系统,该系统包括:算法分析装置:根据上述的产生最大项目集的方法得到最大项目集的装置;将基于Apr1ri算法产生的最大项目集通过正态分布原理算法得出学生成绩的位置排名的装置。优选的,该系统还包括:步骤分析建模装置:将基础成绩数据进行分析并建模的 目.ο本专利技术通过设置一种产生最大项目集的方法、分析学生成绩的方法以及分析学生成绩的系统,可以有效地反映学生成绩的真实情况而且可有效地减少计算机系统的I/O开销,通过在循环处理的过程中实现对出现元素的个数的计数,并通过循环过程中的实现删除某个元素,从而排出由于该元素导致的大规模的所有组合。本专利技术的其他特征和优点将在随后的【具体实施方式】部分予以详细说明。【具体实施方式】以下对本专利技术的【具体实施方式】进行详细说明。应当理解的是,此处所描述的【具体实施方式】仅用于说明和解释本专利技术,并不用于限制本专利技术。本专利技术提供了一种产生最大项目集的方法包括:步骤I,统计原项目中所有元素一一对应的频率;步骤2,将原项目中的所有元素进行组合得到频繁项目集;步骤3,在所述频繁项目集中存在小于所述预设支持度的项目的情况下,去除所述频繁项目集中小于所述预设支持度的项目,否则保留原频繁项目集;步骤4,一一判断经过步骤3之后的所述频繁项目集中的元素的个数和循环次数减I的大小,初始循环次数为2 ;I)当所述频繁项目集中的存在元素的个数小于和等于所述循环次数减I时,则去除个数小于所述循环次数减I的元素所在的项目,组合形成新的频繁项目集替换所述频繁项目集,返回步骤3,循环次数加I ;2)当所述频繁项目集中的所有元素的个数都等于循环次数减I时,则组合所述频繁项目集中的所有元素得到最大项目集。通过上述的实施方式,本专利技术的一种基于Apr1ri算法的产生最大项目集的方法通过步骤I和步骤2先统计原项目的所有元素一一对应的频率,然后将所有的元素组合得到频繁项目集,通过步骤3先简单地将所述频繁项目集中小于所述预设支持度的项目去除掉,保留大于或等于所述预设支持度的原频繁项目集,步骤4是再统计将经过步骤3处理后的所述频繁项目集中每个元素的个数,将统计的个数和循环数减I的大小进行比较(初始循环次数为2),排除小于或等于循环数减I的元素所在的项目,然后重新组合循环步骤3直至所述频繁项目集中的所有元素的个数等于循环次数减1,得到组合所述频繁项目集中的所有元素得到最大项目集。本专利技术提供的这种基于Apr1ri算法的产生最大项目集的方法,在步骤4中排除了不应该参与组合的元素,减少了不需要的组合,这样就有效地减少了事务数据库扫描的次数,大大地减少了计算机系统的I/O开销,从而提高了基于Apr1ri算法的产生最大项目集的方法的效率。通过上述的改进的算法在考虑组合之前,对将参与组合的元素进行计数的处理,根据计数的结果决定排除一些不符合组合条件的元素,这样就降低了组合的可能性,这么久降低循环判断的次数。改进的算法对数据库进行了扫描后的重新生成,虽然会在记录中重写浪费时间和I/o开销,但是随着循环次数的增加,本算法以后在新生成的数据库中的扫描次数的减少很快会显示出来。 在该种实施方式中,在步骤2中,通过逐层迭代将原项目中的所有元素进行组合得到频繁项目集。在该实施方式中,在步骤I之前还包括:通过先验步骤判断原项目是否已经处理,如果原项目是没处理的,然后再进行步骤I。当前第1页1 2 本文档来自技高网...

【技术保护点】
一种产生最大项目集的方法,其特征在于,该方法包括:步骤1,统计原项目中所有元素一一对应的频率;步骤2,将原项目中的所有元素进行组合得到频繁项目集;步骤3,在所述频繁项目集中存在小于所述预设支持度的项目的情况下,去除所述频繁项目集中小于所述预设支持度的项目,否则保留原频繁项目集;步骤4,一一判断经过步骤3之后的所述频繁项目集中的元素的个数和循环次数减1的大小,初始循环次数为2;1)当所述频繁项目集中的存在元素的个数小于所述循环次数减1时,则去除个数小于所述循环次数减1的元素所在的项目,组合形成新的频繁项目集替换所述频繁项目集,返回步骤3,循环次数加1;2)当所述频繁项目集中的所有元素的个数都等于循环次数减1时,则组合所述频繁项目集中的所有元素得到最大项目集。

【技术特征摘要】

【专利技术属性】
技术研发人员:吴建富张晨俞龙杨焯政徐新
申请(专利权)人:芜湖创易科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1