一种基于大数据分析的方法、系统及存储介质技术方案

技术编号：40111759 阅读：7 留言：0更新日期：2024-01-23 19:17

本发明专利技术公开了一种基于大数据分析的方法、系统及存储介质，属于大数据技术邻域，通过第一特征提取模型先提取某一维参数对应的目标数据等级，在通过第二特征提取模型对目标数据等级进行进一步识别，采用第一特征提取模型与第二特征提取模型联合识别的方式，可以识别各数据之间的潜在联系，从而可以获取更加精准地学生画像，而最终的学生画像收到所有数据以及各种数据之间的潜在联系约束，不单单是聚类算法中的整体距离约束，从而可以避免某一种数据波动，导致归类完全错误的情况发生。

全部详细技术资料下载

【技术实现步骤摘要】

技术介绍

1、随着高校信息管理系统中学生行为数据的日益繁增，激发新思路分析与挖掘学生的各类行为数据成为当前教育邻域的主流，同时，可以通过构建学生行为画像找到学生的行为数据与真实生活之间的联系。学生行为画像是指利用语义化的学生行为数据标签集合识别学生的行为特征，描述学生的行为习惯。

2、现有技术中常常获取学生的行为数据以及标签，通过聚类算法对这些行为数据进行聚类，从而可以对学生进行画像。但是聚类算法虽然能一定程度上实现学生的画像，但是受参数波动影响较大，容易出现因为参数波动导致识别效果急剧下降的问题。

技术实现思路

1、本专利技术提供一种基于大数据分析的方法、系统及存储介质，用以解决现有技术中通过聚类算法获取学生画像，存在效果较差的问题。

2、第一方面，本专利技术提供一种基于大数据分析的方法，包括：

3、获取学生行为大数据，所述学生行为大数据包括多个学生对应的历史行为数据以及历史行为数据对应的行为标签；

4、对历史行为数据进行预处理，得到预处理后的历史行为数据以及对应的行为标签；

5、将预处理后的历史行为数据中的某一维参数输入第一特征提取模型中，以获取某一维参数对应的目标数据等级；

6、根据同一历史行为数据对应的所有数据等级，获取历史学生行为特征向量，并根据所述历史学生行为特征向量以及对应的行为标签，对第二特征提取模型进行训练，获取训练完成的第二特征提取模型；

7、获取实时学生行为数据，并采用第一特

8、进一步地，对历史行为数据进行预处理，包括：对历史行为数据进行缺失值处理以及异常值处理，得到预处理之后的历史行为数据；

9、其中，所述历史行为数据包括历史某个时段的学生基本数据、成绩数据、消费数据、消费频次以及图书借阅册数。

10、进一步地，将预处理后的历史行为数据中的某一维参数输入第一特征提取模型中，以获取某一维参数对应的目标数据等级，包括：

11、获取预设总等级数，并获取由预设总等级数约束的第一特征提取模型；

12、提取所有预处理后的历史行为数据中的某一维参数，并将提取的该维参数输入由预设总等级数约束的第一特征提取模型中，获取每个历史行为数据中的某一维参数所对应的目标数据等级。

13、进一步地，根据同一历史行为数据对应的所有数据等级，获取历史学生行为特征向量，并根据所述历史学生行为特征向量以及对应的行为标签，对第二特征提取模型进行训练，获取训练完成的第二特征提取模型，包括：

14、根据同一历史行为数据对应的所有数据等级，获取历史学生行为特征向量；

15、采用神经网络模型构建第二特征提取模型，并以所述历史学生行为特征向量作为第二特征提取模型的输入，将历史学生行为特征向量对应的行为标签作为第二特征提取模型的期望输出，对第二特征提取模型进行训练，获取训练完成的第二特征提取模型。

16、进一步地，采用神经网络模型构建第二特征提取模型，并以所述历史学生行为特征向量作为第二特征提取模型的输入，将历史学生行为特征向量对应的行为标签作为第二特征提取模型的期望输出，对第二特征提取模型进行训练，获取训练完成的第二特征提取模型，包括：

17、采用神经网络模型构建第二特征提取模型，并多次随机初始化第二特征提取模型的超参数，得到多个超参数序列；

18、对所有超参数序列进行邻域搜索，得到第一目标超参数序列；

19、将第一目标超参数序列应用至第二特征提取模型中后，以所述历史学生行为特征向量作为第二特征提取模型的输入，将历史学生行为特征向量对应的行为标签作为第二特征提取模型的期望输出，采用均方根误差函数获取每个第一目标超参数序列对应的误差函数值；

20、获取误差函数值最小的第一目标超参数序列，得到最优超参数序列；

21、以最优超参数序列为基础，对所述第一目标超参数序列进行引导更新，获取第二目标超参数序列；

22、获取第二目标超参数序列对应的误差函数值，并判断第二目标超参数序列在连续多次更新中的误差函数值是否未减小，若是，则将该第二目标超参数序列采用精英策略进行更新，否则进入结束条件的判断步骤；

23、判断第二目标超参数序列对应的误差函数值中的最小值是否小于预设阈值，若是，则将最小值对应的第二目标超参数序列作为第二特征提取模型最终的超参数序列，得到训练完成的第二特征提取模型，否则进行训练次数的判断步骤；

24、判断当前训练次数是否达到最大训练次数，若是，则将最小值对应的第二目标超参数序列作为第二特征提取模型最终的超参数序列，得到训练完成的第二特征提取模型，否则返回对所有超参数序列进行邻域搜索的步骤。

25、进一步地，对所有超参数序列进行邻域搜索，得到第一目标超参数序列，包括：

26、设置第一计数器i＝1；

27、获取预先设置的邻域搜索步长，并根据所述邻域搜索步长对超参数序列中第i个参数进行搜索，得到第i个参数调整过后的超参数序列为：

28、

29、其中，θi表示超参数序列中第i个参数，ξi表示更新后的θi，π表示圆周率，p＝1,2,…,h，h表示搜索方向，step1表示邻域搜索步长；

30、当h个搜索方向中存在至少一个方向使超参数序列对应的误差函数减小时，则接收误差函数值减小最多的方向所对应的更新；

31、判断第一计数器i的计数值是否为超参数序列中超参数总数，若是，则完成超参数序列的更新，得到第一目标超参数序列，否则返回搜索步骤；

32、遍历所有超参数序列，获取每个超参数序列对应的第一目标超参数序列。

33、进一步地，以最优超参数序列为基础，对所述第一目标超参数序列进行引导更新，获取第二目标超参数序列，包括：

34、

35、

36、

37、其中，表示第t次训练时第一目标超参数序列的第i维参数，表示更新后的表示第t+1次训练时的更新量，表示第t次训练时的更新量，i＝1,2,…,d，d表示超参数序列中超参数总数，ωt表示惯性权重，c1表示第一学习因子，r1表示(0,1)之间的随机数，c2表示第二学习因子，r2表示(0,1)之间的随机数，ωmax表示惯性权重的最终值，ωmin表示惯性权重的起始值，tmax表示最大训练次数，pa,i表示第一目标超参数序列的历史最优序列中第i维参数，pg,i表示最优超参数序列中第i维参数。

38、进一步地，将该第二目标超参数序列采用精英策略进行更新，包括：

39、确定该第二目标超参数序列对应的反向学习序列为：

40、

41、

42、其中，表示更新后的表示点对点乘，ub表示上边界序列，lb表示下边界序列，r表示服从(0,1)标准均匀分布1×d的本文档来自技高网...

【技术保护点】

1.一种基于大数据分析的方法，其特征在于，包括：

2.根据权利要求1所述的基于大数据分析的方法，其特征在于，对历史行为数据进行预处理，包括：对历史行为数据进行缺失值处理以及异常值处理，得到预处理之后的历史行为数据；

3.根据权利要求2所述的基于大数据分析的方法，其特征在于，将预处理后的历史行为数据中的某一维参数输入第一特征提取模型中，以获取某一维参数对应的目标数据等级，包括：

4.根据权利要求3所述的基于大数据分析的方法，其特征在于，根据同一历史行为数据对应的所有数据等级，获取历史学生行为特征向量，并根据所述历史学生行为特征向量以及对应的行为标签，对第二特征提取模型进行训练，获取训练完成的第二特征提取模型，包括：

5.根据权利要求4所述的基于大数据分析的方法，其特征在于，采用神经网络模型构建第二特征提取模型，并以所述历史学生行为特征向量作为第二特征提取模型的输入，将历史学生行为特征向量对应的行为标签作为第二特征提取模型的期望输出，对第二特征提取模型进行训练，获取训练完成的第二特征提取模型，包括：

6.根据权利要求5所述的

7.根据权利要求6所述的基于大数据分析的方法，其特征在于，以最优超参数序列为基础，对所述第一目标超参数序列进行引导更新，获取第二目标超参数序列，包括：

8.根据权利要求7所述的基于大数据分析的方法，其特征在于，将该第二目标超参数序列采用精英策略进行更新，包括：

9.一种基于大数据分析的系统，其特征在于，包括数据获取模块、预处理模块、数据等级确定模块、训练模块以及分析模块；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现权利要求1至8任一项所述的基于大数据分析的方法。

...

【技术特征摘要】

1.一种基于大数据分析的方法，其特征在于，包括：

5.根据权利要求4所述的基于大数据分析的方法，其特征在于，采用神经网络模型构建第二特征提取模型，并以所述历史学生行为特征向量作为第二特征提取模型的输入，将历史学生行为特征向量对...

【专利技术属性】
技术研发人员：屈国雄，周杰，屈甜甜，宣麒麟，梁福报，刘平，符春莲，林文君，
申请(专利权)人：南昌职业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人