一种基于大数据极限学习的学生行为分析方法及装置制造方法及图纸

技术编号：21772804 阅读：24 留言：0更新日期：2019-08-03 21:52

本发明专利技术公开了一种基于大数据极限学习的学生行为分析方法及装置，其中的方法通过采集学生的信息；采用K—means聚类算法将相同族类聚集在一起形成集合；采用简单交叉验证把数据集划分为训练集与测试集；在相同数据集合内对数据进行相对影响较大、较小划分；采用不平衡模糊加权极限学习机方法对学生数据进行分析预测；根据预测结果得出学生行动轨迹数据。本发明专利技术提供了一种预测精准较高、较为全面分析学生行为轨迹的极限学习机方法。通过预测结果分析可清楚了解学生行为轨迹对学生学习、生活的影响并对异常行为予以规划。

A Method and Device for Student Behavior Analysis Based on Big Data Extreme Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据极限学习的学生行为分析方法及装置
本专利技术涉及大数据分析教育领域，具体涉及一种基于大数据极限学习的学生行为分析方法。
技术介绍
随着计算机互联网、移动互联网、物联网、平板电脑、手机的大众化和微博、论坛、微信等网络交流方式的日益红火，数据资料的增长正发生着巨大的变化。大数据兴起的第一个原因是数据量越来越大。从监测的数据来看，数据量越来越多，每年都会翻番，数据一直在飞速增长；针对即时数据的处理也变得越来越快；通过各种终端，比如手机、PC、服务器等产生的数据越来越多。大数据兴起的第二个原因也是最重要的原因就是科技的进步导致了存储成本的下降，这使得设备的造价出现大幅下降。新技术和新算法的出现是大数据火起来的第三个原因。最后一个原因也是最本质的原因，即商业利益的驱动，极大地促进了大数据的发展。现有技术中，一般是通过一些周期性的能力测试来对学生的学习能力或者行为进行预测，从而教师可以分析到学生已经掌握了什么，什么方法对学生来说是最有效的学习路径。本申请专利技术人在实施本专利技术的过程中，发现现有技术的方法，至少存在如下技术问题：在教育行业，随着大型开放式网络课程的流行，大数据对教育的影响也逐渐显露头角。大数据之所以会对教育产生巨大的影响，这与型开放式网络课程教育有着千丝万缕的关系。在大数据时代里，教师应当主要致力于挖掘与学生学习相关的表现，探寻最适合学生学习的方法，而不是依赖于某些周期性的能力测试来对学生的学习行为进行分析与预测。并且，这种传统的分析方法也无法准确反映真实的情况。由此可知，现有技术中的方法存在对学生行为分析不准确的技术问题。
技术实现思路
...

【技术保护点】
1.一种基于大数据极限学习的学生行为分析方法，其特征在于，包括：步骤S1：采集学生的身份信息和行为信息；步骤S2：采用K‑means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类；步骤S3：对于每一个族类中的数据，根据其对预测结果的影响情况分为大量数据集与小量数据集，其中，大量数据集中的数据对预测结果影响较大，大量数据集的数据对预测结果影响较小；步骤S4：在不同族类将数据按照预设比例划分为训练集、测试集与预测集；步骤S5：利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证；步骤S6：利用极限学习机数据模型进行学生行为分析，输出分析预测结果。

【技术特征摘要】
1.一种基于大数据极限学习的学生行为分析方法，其特征在于，包括：步骤S1：采集学生的身份信息和行为信息；步骤S2：采用K-means聚类算法对采集的身份信息和行为信息进行聚类，划分为不同的族类；步骤S3：对于每一个族类中的数据，根据其对预测结果的影响情况分为大量数据集与小量数据集，其中，大量数据集中的数据对预测结果影响较大，大量数据集的数据对预测结果影响较小；步骤S4：在不同族类将数据按照预设比例划分为训练集、测试集与预测集；步骤S5：利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习，得出极限学习机数据模型，再利用预测集进行预测验证；步骤S6：利用极限学习机数据模型进行学生行为分析，输出分析预测结果。2.如权利要求1所述的方法，其特征在于，步骤S1中，学生的身份信息包括但不限于学号和姓名，学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。3.如权利要求1所述的方法，其特征在于，步骤S2具体包括：以学生的身份信息和行为信息分为作为类别的初始质心，通过k-means聚类算法，可把每个学生的信息聚合为一个族类，计算公式如下：其中，D表示欧式距离，x1,x2分别表示不同的身份信息，y1,y2分别表示不同的行为信息，且D越小则被分为同族的概率越高。4.如权利要求1所述的方法，其特征在于，步骤S3具体包括：将数据出现的频率作为数据对预测结果的影响的指标，在每个数据族类按照数据出现频率划分为大量数据集和小量数据集。5.如权利要求1所述的方法，其特征在于，步骤S5具体包括：步骤S5.1：对聚类划分同一族数据设计信息平衡函数，其计算公式如下：其中，表示小量数据集所对应的函数值，表示大量数据集所对应的函数值，r为小量数据集与大量数据集的比值，函数选择基于质心距离的线性衰减函数值，计算公式如下：其中，di为数据到该族类质心的距离，max(di)为最远距离，Δ为一个预设值；步骤S5.2：选择无限可微分的激励函数，计算公式如下：其中，R表示数据集合；步骤S5.3：基于上述信息平衡函数和无线可微分激励函数的处...

【专利技术属性】
技术研发人员：王春枝，卞文硕，施肖肖，胡明威，汤远志，
申请(专利权)人：湖北工业大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人