一种基于大数据的数据挖掘方法及系统技术方案

技术编号：44967515 阅读：26 留言：0更新日期：2025-04-12 01:40

本发明专利技术涉及信息检索技术领域，公开了一种基于大数据的数据挖掘方法及系统。其中，方法包括：通过分布式计算框架采集多源异构数据并存储至HDFS文件存储中；构建特征矩阵；采用基于Spark的聚类算法对降维后的数据进行聚类分析；通过UniApp平台进行可视化展示；相较于现有技术中常见的数据分析方法，尤其在面对大规模、多样化的教育数据如学生的学习行为、课程反馈等时，传统技术难以高效且精准地处理此类异构数据，从而无法准确发现学生群体的学习模式与需求的技术问题，由于本申请通过引入分布式计算框架、聚类算法，提高了大规模数据处理的效率与准确性，提高了数据挖掘的质量与价值，为教育决策提供数据支撑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息检索，尤其涉及一种基于大数据的数据挖掘方法及系统。

技术介绍

1、目前，随着信息技术的不断发展，教育领域的数据量呈现指数级增长，尤其是在线教育和智能教育系统中，学生的学习行为、课程反馈、教学内容等数据日益增多。然而，现有的传统数据分析方法，如基于规则的统计分析方法，往往只能处理相对简单和少量的数据，并且对于多源异构数据的处理和分析存在较大的局限性。例如，在处理学生的在线学习行为数据、课程反馈数据和教师发布的教学内容时，现有技术难以高效地融合这些异构数据源，并且无法充分挖掘出潜在的学生学习模式和课程优化机会，尤其是当数据量极其庞大时，现有的系统往往无法高效地完成数据的清洗、特征提取、降维和模型训练等一系列任务。因此，亟需一种能够在面对大规模、多源异构数据的情况下，依然能够实现高效、精准的数据挖掘方法和系统，以提升教育数据分析的精度和效率。

技术实现思路

1、针对上述存在的技术不足，本专利技术的目的是提出一种基于大数据的数据挖掘方法，旨在解决现有技术中常见的数据分析方法，尤其...

【技术保护点】

1.一种基于大数据的数据挖掘方法，其特征在于，方法包括：

2.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤S20中，标准化数据集D2包括：

3.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤S30中，协方差矩阵C的构建公式为：

4.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤S30中，特征向量的贡献率计算公式为：

5.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤S40中，K-means聚类算法采用公式：

6.如权利要求1所述的一种基于大数据的数据挖掘方...

【技术特征摘要】

1.一种基于大数据的数据挖掘方法，其特征在于，方法包括：

2.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤s20中，标准化数据集d2包括：

3.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤s30中，协方差矩阵c的构建公式为：

4.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤s30中，特征向量的贡献率计算公式为：

5.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤s40中，k-means聚类算法采用公式：

6.如权利要求1所述的一种基于大数据的数据挖掘方法，其特征在于，步骤s20中，正负面情感倾向分值是根据经过训练的情感词典统计并加权得到。

【专利技术属性】
技术研发人员：皇甫大双，朱自轩，王玉婷，孙红艳，
申请(专利权)人：江苏安全技术职业学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人