System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于信息检索,尤其涉及一种基于大数据的数据挖掘方法及系统。
技术介绍
1、目前,随着信息技术的不断发展,教育领域的数据量呈现指数级增长,尤其是在线教育和智能教育系统中,学生的学习行为、课程反馈、教学内容等数据日益增多。然而,现有的传统数据分析方法,如基于规则的统计分析方法,往往只能处理相对简单和少量的数据,并且对于多源异构数据的处理和分析存在较大的局限性。例如,在处理学生的在线学习行为数据、课程反馈数据和教师发布的教学内容时,现有技术难以高效地融合这些异构数据源,并且无法充分挖掘出潜在的学生学习模式和课程优化机会,尤其是当数据量极其庞大时,现有的系统往往无法高效地完成数据的清洗、特征提取、降维和模型训练等一系列任务。因此,亟需一种能够在面对大规模、多源异构数据的情况下,依然能够实现高效、精准的数据挖掘方法和系统,以提升教育数据分析的精度和效率。
技术实现思路
1、针对上述存在的技术不足,本专利技术的目的是提出一种基于大数据的数据挖掘方法,旨在解决现有技术中常见的数据分析方法,尤其在面对大规模、多样化的教育数据如学生的学习行为、课程反馈等时,传统技术难以高效且精准地处理此类异构数据,从而无法准确发现学生群体的学习模式与需求的技术问题。
2、为解决上述技术问题,本专利技术采用如下技术方案:本专利技术提供一种基于大数据的数据挖掘方法,
3、所述基于大数据的数据挖掘方法包括:
4、步骤s10:通过分布式计算框架采集多源异构数据并存储至hdfs文
5、学生学习行为数据,包括学生id、课程id、在线学习时长字段和作业完成率字段;
6、课程反馈数据,包括学生的课程满意度评分和评论内容字段;
7、教学辅助数据,包括教师发布的由结构化字段组成的课程内容大纲;
8、多源异构数据通过kafka流式处理框架传输,存储格式为时间戳索引的分布式json文件;
9、步骤s20:对多源异构数据执行清洗处理;
10、对在线学习时长字段采用时间序列插值法补全缺失值,剔除大于两倍标准差的数据;
11、对作业完成率字段使用历史均值进行填补,并剔除超过100%或低于0%的异常记录;
12、对课程反馈数据中的评论内容字段进行分词处理,移除停用词,并计算正负面情感倾向分值;
13、生成并输出清洗后的标准化数据集d2;
14、步骤s30:从标准化数据集d2中提取数值型特征,包括学习时长数值特征、作业完成率数值特征、满意度评分数值特征,并构建特征矩阵x;
15、根据特征矩阵x构建协方差矩阵c,计算得到协方差矩阵c的n个特征值和n个特征向量,将n个特征值从大到小排序,计算n个特征向量的贡献率,选择贡献率大于95%的k个特征向量作为主成分,构建一个k×k的主成分向量矩阵p,结合课程满意度评分对主成分向量矩阵p应用权重调整输出降维后的特征矩阵p′;
16、步骤s40:采用分布式计算框架spark的机器学习库mllib中的k-means聚类算法对降维后的特征矩阵p′进行聚类分析得到聚类分析结果,聚类分析结果包括聚类标签、聚类中心、聚类群体的统计信息、聚类之间的距离;其中聚类群体的统计信息包括聚类组内的学生数量、聚类组内的平均学习时长、作业完成率和满意度评分;
17、步骤s50:通过uniapp跨平台展示每个聚类群体的统计信息,并利用uniapp中的数据绑定和图表组件将聚类统计信息进行动态可视化处理。
18、优选地,步骤s20中,标准化数据集d2包括:
19、学生行为特征,包括学生id、课程id、学习时长字段、作业完成率字段;
20、课程反馈特征,包括满意度评分字段、关键词字段、情感倾向字段。
21、优选地,步骤s30中,协方差矩阵c的构建公式为:
22、
23、其中,x为特征矩阵,xt为特征矩阵的转置。
24、优选地,步骤s30中,特征向量的贡献率计算公式为:
25、
26、其中,i为索引,λi为第i个特征向量的特征值,为所有特征值的和。
27、优选地,步骤s40中,k-means聚类算法采用公式:
28、
29、其中,j为目标函数,k为预设的聚类数量,b和v为索引,cb为第b个簇,其中包含所有属于该簇的样本点,xv为属于第v个簇的样本点,μb为簇b内所有样本点的平均值。
30、优选地,步骤s20中,正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。
31、优选地,步骤s50中,图表组件是采用echars组件进行可视化处理。
32、本专利技术还提供一种基于大数据的数据挖掘系统包括:
33、数据采集模块,用于通过分布式计算框架采集多源异构数据并存储至hdfs文件储存中,多源异构数据包括:
34、学生学习行为数据,包括学生id、课程id、在线学习时长字段和作业完成率字段;
35、课程反馈数据,包括学生的课程满意度评分和评论内容字段;
36、教学辅助数据,包括教师发布的由结构化字段组成的课程内容大纲;
37、多源异构数据通过kafka流式处理框架传输,存储格式为时间戳索引的分布式json文件;
38、数据清洗模块,用于对多源异构数据执行如清洗处理;
39、对在线学习时长字段采用时间序列插值法补全缺失值,剔除大于两倍标准差的数据;
40、对作业完成率字段使用历史均值进行填补,并剔除超过100%或低于0%的异常记录;
41、对课程反馈数据中的评论内容字段进行分词处理,移除停用词,并计算正负面情感倾向分值;
42、生成并输出清洗后的标准化数据集d2;
43、降维处理模块,用于从标准化数据集d2中提取数值型特征,包括学习时长数值特征、作业完成率数值特征、满意度评分数值特征,并构建特征矩阵x;
44、根据特征矩阵x构建协方差矩阵c,计算得到协方差矩阵c的n个特征值和n个特征向量,将n个特征值从大到小排序,计算n个特征向量的贡献率,选择贡献率累计大于95%的k个特征向量作为主成分,构建一个k×k的主成分向量矩阵p,结合课程满意度评分对主成分向量矩阵p应用权重调整输出降维后的特征矩阵p′;
45、聚类分析模块,用于采用分布式计算框架spark的机器学习库mllib中的k-means聚类算法对降维后的特征矩阵p′进行聚类分析得到聚类分析结果,聚类分析结果包括聚类标签、聚类中心、聚类群体的统计信息、聚类之间的距离;其中聚类群体的统计信息包括聚类组内的学生数量、聚类组内的平均学习时长、作业完成率和满意度评分;
46、结果展示模块,用于通过uniapp跨平台展示每个聚类群体的统计信息,并利用uniapp中的数据绑定和图表组件将聚类统计信息本文档来自技高网...
【技术保护点】
1.一种基于大数据的数据挖掘方法,其特征在于,方法包括:
2.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S20中,标准化数据集D2包括:
3.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S30中,协方差矩阵C的构建公式为:
4.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S30中,特征向量的贡献率计算公式为:
5.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S40中,K-means聚类算法采用公式:
6.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S20中,正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。
7.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S50中,图表组件是采用echars组件进行可视化处理。
8.一种基于大数据的数据挖掘系统,其特征在于,所述基于大数据的数据挖掘系统包括:
9.一种基于大数据的数据挖掘设备,其特征在于,所述基于大数据的数据
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括基于大数据的数据挖掘程序,所述基于大数据的数据挖掘程序被处理器执行时实现权1至权7中任一项所述的基于大数据的数据挖掘方法。
...【技术特征摘要】
1.一种基于大数据的数据挖掘方法,其特征在于,方法包括:
2.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s20中,标准化数据集d2包括:
3.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s30中,协方差矩阵c的构建公式为:
4.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s30中,特征向量的贡献率计算公式为:
5.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s40中,k-means聚类算法采用公式:
6.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s20中,正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。
【专利技术属性】
技术研发人员:皇甫大双,朱自轩,王玉婷,孙红艳,
申请(专利权)人:江苏安全技术职业学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。