一种基于活动流的学生成长追踪数据处理方法技术

技术编号:36707865 阅读:32 留言:0更新日期:2023-03-01 09:32
本发明专利技术公开了一种基于活动流的学生成长追踪数据处理方法,具体为:训练获取五大活动流描述模型,自主学习活动流,测试学习活动流,互动学习活动流,体育活动流,科普活动流;收集针对学生在不同区域所产生的数据;收集的数据存入基础数据平台(ODS)中,并采用基于日志的变更数据捕获(CDC)进行数据更新;对基础数据平台(ODS)中的非结构化数据,文本,图像/视频,音频通过深度学习方式进行活动流信息提取;通过已封装的ETL Engine轮询调用SQL Merge,将更新的数据送入数据仓库(DW);对数据仓库(DW)的数据根据预设的五大活动流描述模型进行特征级数据融合以及决策级数据融合;可用于学生成长追踪分析。成长追踪分析。成长追踪分析。

【技术实现步骤摘要】
一种基于活动流的学生成长追踪数据处理方法


[0001]本专利技术属于教育信息化
,具体涉及一种基于活动流的学生成长追踪数据处理方法。

技术介绍

[0002]在教育信息化时代,学生成长数据无时无刻不在产生,学生成长数据可以直接反映出学生进行的成长活动,同时,学生在不同的学习状态下或者不同的成长阶段下,学生所进行的成长活动数据可能会有些变化或者成长活动类型可能会有些不同,因此也可以潜在挖掘出学生在不同学习状态下以及不同的学习阶段的学生学习活动偏好,因此学生成长数据在关注学生成长过程中具有很高的应用价值。
[0003]学生成长活动数据通常来源于不同的系统平台,数据结构类型也不尽相同。目前的学生成长活动的分析通常只针对学生在某一特定系统平台产生的学习数据,虽然也可能分析出学生的学习状态以及学习偏好,但是存在数据不充分,没有对学生在其他系统平台产生的数据进行分析,数据之间无法进行有效的汇聚,共享和管理,因此对学生成长活动的分析可能会造成一定的偏差,没有完全实现数据价值。
[0004]数据汇聚与融合是目前教育信息化研究的一大热点,首先学生成长活动数据来源众多,并且数据结构多样,异构的数据包含结构化以及非结构化数据;其次是数据标准多样性,数据源依赖的应用系统和数据库管理系统之间都有较大的不一致性;最后平台以及应用多样性,缺乏顶层设计和规划,没有形成统一的开放共享系统,会导致数据资源重复采集,重复建设。数据汇聚与融合主要目的是打破教育信息数据的物理孤岛,形成统一的数据中心,为后续学生成长活动数据挖掘提供原始材料
[0005]中国专利申请号为CN202011591495.1的专利技术专利申请公开了一种多源异构数据统一汇聚方法及系统,其主要技术方案为:通过数据采集模块(文字采集单元,图片采集单元,影音采集单元)采集多源数据;对数据采集模块中的数据进行分组,消除异构,根据类别提取出对应的数据特征群与已有数据特征群进行匹配,得到达到设定相关度的数据特征,得到数据池;数据决策模型对数据池中的数据进行融合,得到融合结果。直接对数据采集模块中的数据进行分组以消除异构,容易造成异构数据的部分数据信息缺失。
[0006]中国专利申请号为CN202110601250.0的专利技术专利申请公开了一种学生成长数据分析方法,其主要技术方案为:根据学生个人基本档案的信息去采集相应德,智,体全方面的数据信息;管理人员对学生数据信息提取整理出优质的数据分析方案;管理人员根据数据分析方案反馈出学生成长分析结果。通过人工提取整理学生成长数据信息以得到分析方案以及分析结果,较为费时费力。

技术实现思路

[0007]因此,针对现有技术的以上缺陷或改进需求中的至少一点,本专利技术提出了一种基于活动流的学生成长追踪数据处理方法,其特征在于,上述方法包括如下步骤:
[0008]采集学生在多个活动场景的数据;
[0009]将所述数据执行处理并存入基础数据平台,所述处理包括划分数据为结构化数据及非结构化数据;
[0010]在所述基础数据平台上,对上述存入的数据进行提取并执行特征值提取和模型训练输出基于活动流数据分析结论;
[0011]所述模型为五大活动流描述模型,包括学生自主学习追踪模型,测试学习追踪模型,互动学习追踪模型,体育活动追踪模型,科普活动追踪模型。
[0012]进一步地,所述方法还包括对所述存入的数据执行更新步骤:通过已封装的ETL Engine轮询调用SQL Merge,将更新的数据送入所述基础数据平台的数据仓库。
[0013]进一步地,其特征在于,所述非结构化数据包括:文本、图像/视频、音频;所述不同类型的非结构化数据的处理模型不同。
[0014]进一步地,所述文本数据的处理方法为:所述文本信息的处理为:基于BiLSTM双向长短期记忆以及CRF条件随机场来执行命名实体识别,使用训练后的所述模型执行实体信息提取。
[0015]进一步地,所述图片/视频数据的处理为:基于CRNN+CTC的文字识别的技术,提取目标关键信息。
[0016]进一步地,所述音频数据的处理为:将音频转化为文字,转化为对非结构化的文本数据进行处理。
[0017]进一步地,所述文本信息处理中所述模型的损失函数为:
[0018][0019]其中,Sreal是真实路径的分数,Sj代表第j条路径的分数,标签数量是k,文本长度是n,会有N=K
n
条路径。
[0020]进一步地,其特征在于,所述图片/视频数据处理中所述模型的损失函数为:
[0021][0022]loss=

ln(Π
(x,z)∈S
P(l|x))=


(x,z)∈S
ln P(l|x);其中B
‑1(l)代表从序列到序列的映射函数B变换后是文本l的所有路径集合,而Π是其中一条路径,每条路径的概率为各个时间步中对应字符的分数的乘积,x,z为样本变量。
[0023]本专利技术还公开了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0024]本专利技术还公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
[0025]总体而言,通过本专利技术构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0026](1)本专利技术首先基于预先设计的五大活动流描述模型,自主学习活动流,测试学习活动流,互动学习活动流,体育活动流,科普活动流,这五大类型的活动流足以囊括学生成长过程中大部分的成长活动,来构建架构执行数据库的建立和管理;
[0027](2)第二方面,在建立上述模型训练架构的前提下,本专利技术提出了从非结构化数据,文本,图像/视频,音频以对应的深度学习的方法分别提取活动流信息,避免了非结构化数据中关键信息的缺失,造成后续对学生成长活动追踪分析的不准确性。
[0028](3)本专利技术立足于九大系统平台,国家中小学智慧平台,教育管理信息中心平台,中国基础教育质量监测平台,学生成长档案填报系统,中国科学技术平台,问卷系统,综合素质评测活动系统,区域综合素质评价平台以及数据填报系统中进行学生成长数据采集。
[0029](4)本专利技术提出采集的数据划分为结构化数据以及非结构化数据,将其存入基础数据平台(ODS)中,并通过变更数据捕获(CDC)进行数据更新。采用基于日志的变更数据捕获(CDC),通过触发器(Trigger)或者日志来实现。当源数据表发生变动时,会通过附加在表上的触发器或者日志等途径,将操作记录下来,下游通过对数据库底层的协议,对数据库变动记录做重放,从而实现同步,实时性高,可以精准捕获上游的各种变动。
[0030](5)本专利技术提出将非结构化数据,文本,图像/视频,音频分别通过对应的方式根据预先设计的五大活动流模型,进行活动流相关信息提取。对于非结构化的文本数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于活动流的学生成长追踪数据处理方法,其特征在于,上述方法包括如下步骤:采集学生在多个活动场景的数据;将所述数据执行处理并存入基础数据平台,所述处理包括划分数据为结构化数据及非结构化数据;在所述基础数据平台上,对上述存入的数据进行提取并执行特征值提取和模型训练输出基于活动流数据分析结论;所述模型为五大活动流描述模型,包括学生自主学习追踪模型,测试学习追踪模型,互动学习追踪模型,体育活动追踪模型,科普活动追踪模型。2.根据权利要求1所述的基于活动流的学生成长追踪数据处理方法,其特征在于,所述方法还包括对所述存入的数据执行更新步骤:通过已封装的ETL Engine轮询调用SQL Merge,将更新的数据送入所述基础数据平台的数据仓库。3.根据权利要求1或2所述的基于活动流的学生成长追踪数据处理方法,其特征在于,所述非结构化数据包括:文本、图像/视频、音频;所述不同类型的非结构化数据的处理模型不同。4.根据权利要求3所述的基于活动流的学生成长追踪数据处理方法,其特征在于,所述文本数据的处理方法为:所述文本信息的处理为:基于BiLSTM双向长短期记忆以及CRF条件随机场来执行命名实体识别,使用训练后的所述模型执行实体信息提取。5.根据权利要求3所述的基于活动流的学生成长追踪数据处理方法,其特征在于,所述图片/视频数据的处理为:基于CRNN+CTC的文字识别的技术,提取目标关键信息。6.根据权利要...

【专利技术属性】
技术研发人员:廖盛斌
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1