System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大数据的数据挖掘方法及系统技术方案_技高网

一种基于大数据的数据挖掘方法及系统技术方案

技术编号:44967515 阅读:12 留言:0更新日期:2025-04-12 01:40
本发明专利技术涉及信息检索技术领域,公开了一种基于大数据的数据挖掘方法及系统。其中,方法包括:通过分布式计算框架采集多源异构数据并存储至HDFS文件存储中;构建特征矩阵;采用基于Spark的聚类算法对降维后的数据进行聚类分析;通过UniApp平台进行可视化展示;相较于现有技术中常见的数据分析方法,尤其在面对大规模、多样化的教育数据如学生的学习行为、课程反馈等时,传统技术难以高效且精准地处理此类异构数据,从而无法准确发现学生群体的学习模式与需求的技术问题,由于本申请通过引入分布式计算框架、聚类算法,提高了大规模数据处理的效率与准确性,提高了数据挖掘的质量与价值,为教育决策提供数据支撑。

【技术实现步骤摘要】

本专利技术属于信息检索,尤其涉及一种基于大数据的数据挖掘方法及系统


技术介绍

1、目前,随着信息技术的不断发展,教育领域的数据量呈现指数级增长,尤其是在线教育和智能教育系统中,学生的学习行为、课程反馈、教学内容等数据日益增多。然而,现有的传统数据分析方法,如基于规则的统计分析方法,往往只能处理相对简单和少量的数据,并且对于多源异构数据的处理和分析存在较大的局限性。例如,在处理学生的在线学习行为数据、课程反馈数据和教师发布的教学内容时,现有技术难以高效地融合这些异构数据源,并且无法充分挖掘出潜在的学生学习模式和课程优化机会,尤其是当数据量极其庞大时,现有的系统往往无法高效地完成数据的清洗、特征提取、降维和模型训练等一系列任务。因此,亟需一种能够在面对大规模、多源异构数据的情况下,依然能够实现高效、精准的数据挖掘方法和系统,以提升教育数据分析的精度和效率。


技术实现思路

1、针对上述存在的技术不足,本专利技术的目的是提出一种基于大数据的数据挖掘方法,旨在解决现有技术中常见的数据分析方法,尤其在面对大规模、多样化的教育数据如学生的学习行为、课程反馈等时,传统技术难以高效且精准地处理此类异构数据,从而无法准确发现学生群体的学习模式与需求的技术问题。

2、为解决上述技术问题,本专利技术采用如下技术方案:本专利技术提供一种基于大数据的数据挖掘方法,

3、所述基于大数据的数据挖掘方法包括:

4、步骤s10:通过分布式计算框架采集多源异构数据并存储至hdfs文件储存中,多源异构数据包括:

5、学生学习行为数据,包括学生id、课程id、在线学习时长字段和作业完成率字段;

6、课程反馈数据,包括学生的课程满意度评分和评论内容字段;

7、教学辅助数据,包括教师发布的由结构化字段组成的课程内容大纲;

8、多源异构数据通过kafka流式处理框架传输,存储格式为时间戳索引的分布式json文件;

9、步骤s20:对多源异构数据执行清洗处理;

10、对在线学习时长字段采用时间序列插值法补全缺失值,剔除大于两倍标准差的数据;

11、对作业完成率字段使用历史均值进行填补,并剔除超过100%或低于0%的异常记录;

12、对课程反馈数据中的评论内容字段进行分词处理,移除停用词,并计算正负面情感倾向分值;

13、生成并输出清洗后的标准化数据集d2;

14、步骤s30:从标准化数据集d2中提取数值型特征,包括学习时长数值特征、作业完成率数值特征、满意度评分数值特征,并构建特征矩阵x;

15、根据特征矩阵x构建协方差矩阵c,计算得到协方差矩阵c的n个特征值和n个特征向量,将n个特征值从大到小排序,计算n个特征向量的贡献率,选择贡献率大于95%的k个特征向量作为主成分,构建一个k×k的主成分向量矩阵p,结合课程满意度评分对主成分向量矩阵p应用权重调整输出降维后的特征矩阵p′;

16、步骤s40:采用分布式计算框架spark的机器学习库mllib中的k-means聚类算法对降维后的特征矩阵p′进行聚类分析得到聚类分析结果,聚类分析结果包括聚类标签、聚类中心、聚类群体的统计信息、聚类之间的距离;其中聚类群体的统计信息包括聚类组内的学生数量、聚类组内的平均学习时长、作业完成率和满意度评分;

17、步骤s50:通过uniapp跨平台展示每个聚类群体的统计信息,并利用uniapp中的数据绑定和图表组件将聚类统计信息进行动态可视化处理。

18、优选地,步骤s20中,标准化数据集d2包括:

19、学生行为特征,包括学生id、课程id、学习时长字段、作业完成率字段;

20、课程反馈特征,包括满意度评分字段、关键词字段、情感倾向字段。

21、优选地,步骤s30中,协方差矩阵c的构建公式为:

22、

23、其中,x为特征矩阵,xt为特征矩阵的转置。

24、优选地,步骤s30中,特征向量的贡献率计算公式为:

25、

26、其中,i为索引,λi为第i个特征向量的特征值,为所有特征值的和。

27、优选地,步骤s40中,k-means聚类算法采用公式:

28、

29、其中,j为目标函数,k为预设的聚类数量,b和v为索引,cb为第b个簇,其中包含所有属于该簇的样本点,xv为属于第v个簇的样本点,μb为簇b内所有样本点的平均值。

30、优选地,步骤s20中,正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。

31、优选地,步骤s50中,图表组件是采用echars组件进行可视化处理。

32、本专利技术还提供一种基于大数据的数据挖掘系统包括:

33、数据采集模块,用于通过分布式计算框架采集多源异构数据并存储至hdfs文件储存中,多源异构数据包括:

34、学生学习行为数据,包括学生id、课程id、在线学习时长字段和作业完成率字段;

35、课程反馈数据,包括学生的课程满意度评分和评论内容字段;

36、教学辅助数据,包括教师发布的由结构化字段组成的课程内容大纲;

37、多源异构数据通过kafka流式处理框架传输,存储格式为时间戳索引的分布式json文件;

38、数据清洗模块,用于对多源异构数据执行如清洗处理;

39、对在线学习时长字段采用时间序列插值法补全缺失值,剔除大于两倍标准差的数据;

40、对作业完成率字段使用历史均值进行填补,并剔除超过100%或低于0%的异常记录;

41、对课程反馈数据中的评论内容字段进行分词处理,移除停用词,并计算正负面情感倾向分值;

42、生成并输出清洗后的标准化数据集d2;

43、降维处理模块,用于从标准化数据集d2中提取数值型特征,包括学习时长数值特征、作业完成率数值特征、满意度评分数值特征,并构建特征矩阵x;

44、根据特征矩阵x构建协方差矩阵c,计算得到协方差矩阵c的n个特征值和n个特征向量,将n个特征值从大到小排序,计算n个特征向量的贡献率,选择贡献率累计大于95%的k个特征向量作为主成分,构建一个k×k的主成分向量矩阵p,结合课程满意度评分对主成分向量矩阵p应用权重调整输出降维后的特征矩阵p′;

45、聚类分析模块,用于采用分布式计算框架spark的机器学习库mllib中的k-means聚类算法对降维后的特征矩阵p′进行聚类分析得到聚类分析结果,聚类分析结果包括聚类标签、聚类中心、聚类群体的统计信息、聚类之间的距离;其中聚类群体的统计信息包括聚类组内的学生数量、聚类组内的平均学习时长、作业完成率和满意度评分;

46、结果展示模块,用于通过uniapp跨平台展示每个聚类群体的统计信息,并利用uniapp中的数据绑定和图表组件将聚类统计信息本文档来自技高网...

【技术保护点】

1.一种基于大数据的数据挖掘方法,其特征在于,方法包括:

2.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S20中,标准化数据集D2包括:

3.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S30中,协方差矩阵C的构建公式为:

4.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S30中,特征向量的贡献率计算公式为:

5.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S40中,K-means聚类算法采用公式:

6.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S20中,正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。

7.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤S50中,图表组件是采用echars组件进行可视化处理。

8.一种基于大数据的数据挖掘系统,其特征在于,所述基于大数据的数据挖掘系统包括:

9.一种基于大数据的数据挖掘设备,其特征在于,所述基于大数据的数据挖掘设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的数据挖掘程序,所述基于大数据的数据挖掘程序被所述处理器执行时实现权1至权7中任一项所述的基于大数据的数据挖掘方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括基于大数据的数据挖掘程序,所述基于大数据的数据挖掘程序被处理器执行时实现权1至权7中任一项所述的基于大数据的数据挖掘方法。

...

【技术特征摘要】

1.一种基于大数据的数据挖掘方法,其特征在于,方法包括:

2.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s20中,标准化数据集d2包括:

3.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s30中,协方差矩阵c的构建公式为:

4.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s30中,特征向量的贡献率计算公式为:

5.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s40中,k-means聚类算法采用公式:

6.如权利要求1所述的一种基于大数据的数据挖掘方法,其特征在于,步骤s20中,正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。

【专利技术属性】
技术研发人员:皇甫大双朱自轩王玉婷孙红艳
申请(专利权)人:江苏安全技术职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1