一种基于大数据的学情分析系统技术方案

技术编号:24996268 阅读:17 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开一种基于大数据的学情分析系统,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;用户单元与所述数据采集单元、数据服务单元链接;所述数据采集单元采集数据,构建非结构化数据集;所述数据挖掘单元基于开源大数据平台Hadoop构建,实现数据存储与数据预处理,数据聚类分析和相似度推荐,数据挖掘结果数据的存储;所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示信息。本发明专利技术利用大数据和互联网技术对海量的、多维的教育数据进行收集、存储、处理和挖掘,建立一个高效的、智能化的学情分析系统,加快高校信息化建设的速度和质量。

【技术实现步骤摘要】
一种基于大数据的学情分析系统
本专利技术属于数据分析
,具体是涉及一种基于大数据的学情分析系统。
技术介绍
学情分析是伴随现代教学设计理论产生的,现代教学设计理论认为,认真研究学生的实际需要、能力水平、认知倾向以及社会对人才的需求分析,“为学习者设计教学”,优化教学过程,可以更有效地达成教学目标,提高教学效率。学情分析指的是学生在学习方面有何特点、学习方法怎样、习惯怎样、兴趣如何,成绩如何等。其设计理念包括教学方法、学法指导和教学设想,根据获取的数据研究者可以从高校创新创业教育改革、创新创业人才培养、基于产业发展需求的专业结构调整研究、学生学习行为分析、教师教授行为分析,以及个性化推荐等角度展开研究。大数据作为当前互联网的潮流,大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。对教育大数据进行分析,需要从大量数据中进行提取与挖掘,在这个过程包括数据的采集、存储、清洗、数据挖掘、数据展示等,旨在最大限度地保持与还原客观事实,提高院校管理效率和教学水平。大数据在教育领域的应用总体上呈现出“产业应用的成熟度大于学校应用的成熟度”的态势。传统学期分析系统通过分析学生表现如出勤率、考试成绩等传统的结构化数据来帮助学生,很难处理大规模、复杂结构、多维度的教育数据。比如,单机数据库服务器面对巨大数据吞吐量会呈现查询效率低、处理速度慢的现象,关系型数据库系统无法处理文本、报表、多媒体数据等非结构化数据。高校中蕴藏着十分丰富的非结构化信息资源,这些信息资源数量巨大形式混杂,传统的学期分析系统很难找到合适的方法对海量非结构化数据进行有效管理。大数据技术的不断成熟能够满足高校对教育大数据处理的速度、维度、精细度的要求。基于教育大数据的数据分析和数据挖掘仍处于发展的初期,传统的数据分析技术无法充分挖掘教育大数据中的价值,在实际的应用中不能依靠教育大数据提供的有价值信息促进学生学习,对学校、教师、学生提供的信息滞后且片面。
技术实现思路
专利技术目的:本专利技术目的在于针对现有技术的不足,提供一种基于大数据的学情分析系统,利用大数据和互联网技术对海量的、多维的教育数据进行收集、存储、处理和挖掘,建立一个高效的、智能化的学情分析系统,加快高校信息化建设的速度和质量。技术方案:本专利技术所述基于大数据的学情分析系统,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;所述用户单元通过通信网络与所述数据采集单元、数据服务单元链接,用户通过用户单元访问数据采集单元和数据服务单元;所述数据采集单元通过网络爬虫和定时推送日志记录的方式采集包括特定岗位招聘信息网站和特定企业岗位需求信息,构建非结构化数据集;所述数据挖掘单元基于开源大数据平台Hadoop构建,包括分布式非结构化数据库HBase,实现数据存储与数据预处理;实现数据聚类分析和相似度推荐;数据库MongoDB,实现数据挖掘结果数据的存储;所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示包括特定岗位招聘信息的地理分布、特定岗位技能点权重、学生就业岗位推荐和定制化学习路线推荐的信息。本专利技术进一步优选地技术方案为,所述数据挖掘单元对非结构化数据库中数据预处理过程包括对数据源进行初步整理和分析,针对岗位数据需要规范岗位名称、过滤垃圾信息、去除重复信息、对岗位描述进行分词;数据挖掘单元结果数据包括使用聚类算法获取特定岗位在各省份分布数据、特定岗位需要的技能点的权重、特定岗位对学历和工作经验的要求等统计信息;使用向量相似度算法应用于岗位信息与学生信息,实现对学生的岗位推荐和定制化学习路线。作为优选地,数据挖掘单元在数据挖掘过程中:针对学生的学习相关数据,对遗漏数据进行补全,采用默认值或者填写均值操作;对逻辑上出现的错误数据进行聚类并人工检查使其逻辑上一致,去除可忽略的字段,去除多数据源导致的重复属性,重复字段,重复信息的问题;纠正不一致数据,去掉数据中的空、丢失值,数据的合理与完整保证了模型结果更加精准,学校相关信息系统需要与相关职能部分沟通数据中有价值或权重较高的字段或描述,确定技术可行性和评估数据源价值。优选地,所述数据服务单元通过web技术为用户单元展示信息。优选地,用户通过用户单元,采用浏览器、移动APP、小程序和公众号的方式访问数据采集单元和数据服务单元。有益效果:(1)本专利技术改进教育数据采集方法和手段,使用网络爬虫和网站日志采集等手段获取特定岗位招聘信息网站、特定企业岗位需求信息、学生信息管理系统、招生就业系统、校园考勤系统、图书管理系统平台、教务系统等真实数据构建多维度的教育数据集;使用先进的大数据技术和数据挖掘技术对教育大数据进行分析获取有价值的信息应用于教学过程、教育决策以及人才培养方案的制定,利用大数据和互联网技术对海量的、多维的教育数据进行收集、存储、处理、挖掘,建立一个高效的、智能化的学情分析系统,能够加快高校信息化建设的速度和质量。(2)本专利技术通过大数据技术和数据挖掘技术对每位学生学习行为数据、成绩信息、就业岗位信息进行学习分析构建用户画像,创建个性化学习计划,推荐合适工作岗位。改善教与学的方式,促进学生发展;同时找到合适的方法对高校中蕴藏的数量巨大形式混杂的的非结构化信息资源本文档来自技高网
...

【技术保护点】
1.一种基于大数据的学情分析系统,其特征在于,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;/n所述用户单元通过通信网络与所述数据采集单元、数据服务单元链接,用户通过用户单元访问数据采集单元和数据服务单元;/n所述数据采集单元通过网络爬虫和定时推送日志记录的方式采集包括特定岗位招聘信息网站和特定企业岗位需求信息,构建非结构化数据集;/n所述数据挖掘单元基于开源大数据平台Hadoop构建,包括分布式非结构化数据库HBase,实现数据存储与数据预处理;实现数据聚类分析和相似度推荐;数据库MongoDB,实现数据挖掘结果数据的存储;/n所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示包括特定岗位招聘信息的地理分布、特定岗位技能点权重、学生就业岗位推荐和定制化学习路线推荐的信息。/n

【技术特征摘要】
1.一种基于大数据的学情分析系统,其特征在于,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;
所述用户单元通过通信网络与所述数据采集单元、数据服务单元链接,用户通过用户单元访问数据采集单元和数据服务单元;
所述数据采集单元通过网络爬虫和定时推送日志记录的方式采集包括特定岗位招聘信息网站和特定企业岗位需求信息,构建非结构化数据集;
所述数据挖掘单元基于开源大数据平台Hadoop构建,包括分布式非结构化数据库HBase,实现数据存储与数据预处理;实现数据聚类分析和相似度推荐;数据库MongoDB,实现数据挖掘结果数据的存储;
所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示包括特定岗位招聘信息的地理分布、特定岗位技能点权重、学生就业岗位推荐和定制化学习路线推荐的信息。


2.根据权利要求1所述的基于大数据的学情分析系统,其特征在于,所述数据挖掘单元对非结构化数据库中数据预处理过程包括对数据源进行初步整理和分析,针对岗位数据需要规范岗位名称、过滤垃圾信息、去除重复信息、对岗位描述进行分词;
数据挖掘单元结果数据包括使用...

【专利技术属性】
技术研发人员:龚历何金洋宋学永
申请(专利权)人:江苏一道云科技发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1