当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于大数据的智慧校园推送方法及系统技术方案

技术编号:38219350 阅读:11 留言:0更新日期:2023-07-25 11:31
本发明专利技术公开了一种基于大数据的智慧校园推送方法及系统,方法包括数据采集与转换、确定k值、分簇、簇融合和具体运行。本发明专利技术属于教育管理领域,具体是指一种基于大数据的智慧校园推送方法及系统,本方案采用多种算法融合处理数据从而在保证收敛速度和推送精准双达标,采用参数优化算法确定参数从而提高算法运行效率,采用创建互信息阈值和噪声簇从而降低噪声干扰提升分类效果。声干扰提升分类效果。声干扰提升分类效果。

【技术实现步骤摘要】
一种基于大数据的智慧校园推送方法及系统


[0001]本专利技术涉及教育管理领域,具体是指一种基于大数据的智慧校园推送方法及系统。

技术介绍

[0002]智慧校园推送方法需要收集并处理大量的数据,这些数据来自于学校信息系统和学生学习行为等,因此需要采用大数据技术来对这些数据进行处理和分析,从而提取有用的信息。但传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不精准的矛盾性问题;存在算法运行过程中存在参数选取不当导致算法运行效率低的问题;存在数据处理过程中因噪声干扰导致分类效果差的问题。

技术实现思路

[0003]针对上述情况,为克服现有技术的缺陷,本专利技术提供了一种基于大数据的智慧校园推送方法及系统,针对传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不精准的矛盾性问题,本方案采用多种算法融合处理数据从而在保证收敛速度和推送精准双达标;针对算法运行过程中存在参数选取不当导致算法运行效率低的问题,本方案采用参数优化算法确定参数从而提高算法运行效率;针对处理数据存在噪声干扰导致分类效果差的问题,本方案采用创建互信息阈值和噪声簇从而降低噪声干扰提升分类效果。
[0004]本专利技术采取的技术方案如下:本专利技术提供的一种基于大数据的智慧校园推送方法,该方法包括以下步骤:步骤S1:数据采集与转换;
[0005]步骤S2:确定k值;
[0006]步骤S3:分簇;
[0007]步骤S4:簇融合;
[0008]步骤S5:具体运行。
[0009]进一步地,在步骤S1中,所述数据采集与转换具体包括以下步骤:步骤S11:采集推送信息;
[0010]步骤S12:数据预处理,对推送信息进行分词及出停用词;
[0011]步骤S13:计算TF

IDF值,对数据预处理后的词计算TF

IDF值,TF

IDF是词频与逆文档频率的乘积,选择TF

IDF值最高的n个词作为推送信息的特征词;
[0012]步骤S14:建立词库,对所有推送信息的特征词汇总,建立词库;
[0013]步骤S15:数据转换,将推送信息转换为样本数据,将词库中词的数量作为推送信息的数据维度,推送信息的特征词决定维度数据是否为0,特征词即为特征变量,特征词在推送信息里的词频决定维度数据的大小,将推送信息转换为向量;例如:词库包括词1、词2、词3、词4和词5,推送信息的特征词是词2和词3,其中词2在推送信息中的词频是n1,词3在推
送信息中的词频是n2,则推送信息转换后的向量为(0,n1,n2,0,0)。
[0014]进一步地,在步骤S2中,基于参数优化算法确定k值,具体包括以下步骤:步骤S21:初始化k值,初始化不同的k值;
[0015]步骤S22:计算轮廓系数,对于不同的k值,将样本数据按照曼哈顿距离度量方法进行聚类,并计算每个样本数据的轮廓系数,所用公式如下:;式中,s是样本数据的轮廓系数,a是样本数据与同簇其他样本数据的平均距离,b是样本数据与最近其他簇的平均距离;
[0016]步骤S23:计算轮廓系数平均数,计算所有样本的轮廓系数平均值,得到不同k值的聚类方案轮廓系数;
[0017]步骤S24:选取k值,对于不同k值的聚类方案轮廓系数,选择轮廓系数最大的那个k值作为最终选取的k值。
[0018]进一步地,在步骤S3中,所述分簇包括以下步骤:步骤S31:初始化k个簇,计算每个簇特征变量的互信息之和,所用公式如下:;式中,I(X;Y)是特征变量X和特征变量Y的互信息,nx和ny分别是x和y的取值个数,P(xi,yj)是X和Y同时取值xi和yj的概率,P(xi)和P(yj)分别表示X取值xi和Y取值yj的概率;
[0019]步骤S32:预先设定互信息阈值,创建噪声簇,对于每个样本数据,计算该样本数据在其他簇中簇的互信息之和,若该样本数据在所有簇中互信息最大的值低于互信息阈值,则将其分配到噪声簇,否则将其分配到互信息最大的簇;
[0020]步骤S33:重复步骤S32,直到簇不发生变化为止。
[0021]进一步地,在步骤S4中,所述簇融合具体包括以下步骤:步骤S41:定义个体,将每个簇看做一个个体,每个个体由它们的中心点和所包含的数据点集合构成;
[0022]步骤S42:定义适应度函数,预先设有低维阈值,将每个簇用中心点的向量表示,对这些向量进行拉普拉斯特征映射,得到一个低维表示,进而得到适应度函数,所用公式如下:;式中,f(i)表示簇i的适应度函数,d是低维阈值,m是簇的拉普拉斯特征映射向量,(i,k)是第i个簇第k维的值,(j,k)是其他簇第k维的值,c是常数,c通常取一个较大的值以加强区分度,max
j
是所用可能的簇中取结果最大的值;
[0023]步骤S43:簇融合,使用遗传算法进行簇的融合,预先设有最大迭代次数,在每一次迭代中,采用适应度函数对簇进行排序,并根据排序结果选择适当的簇进行遗传操作,包括
选择、交叉和变异操作,按照比例进行轮盘赌选择运算符,然后使用单点交叉和单点变异操作生成下一代群体,并根据适应度函数计算新个体的适应度值,通过重复进行遗传操作,不断优化种群,同时增加新个体,直到满足最大迭代次数或簇不发生变化;
[0024]步骤S44:择优,选取适应度函数最优的t个簇表示簇融合结果;
[0025]步骤S45:确认簇标签,选择每个簇的簇中心对应的特征变量值最高的特征变量作为簇标签。
[0026]进一步地,在步骤S5中,所述具体运行具体包括以下步骤:步骤S51:信息推送,基于用户发展方向和兴趣偏好,将对应簇标签的推送信息推送给用户,并接受反馈信息;
[0027]步骤S52:簇更新,基于用户反馈信息和新推送信息不断对簇进行更新。
[0028]本专利技术提供的一种基于大数据的智慧校园推送系统,包括数据采集与转换模块、确定k值模块、分簇模块、簇融合模块和具体运行模块;
[0029]所述数据采集与转换模块采集推送信息并将推送信息转换为向量,将转换后数据发送至确定k值模块和分簇模块;
[0030]所述确定k值模块接收数据采集与转换模块发送的数据,基于参数优化算法确定k值,并将数据发送至分簇模块;
[0031]所述分簇模块接收数据采集与转换模块和确定k至模块发送的数据,对向量进行分簇,并将数据发送至簇融合模块;
[0032]所述簇融合模块接收分簇模块发送的数据,对簇进行融合,确认簇标签,并将数据发送具体运行模块;
[0033]所述具体运行模块接收簇融合模块发送的数据,基于用户发展方向和兴趣偏好对用户推送信息并不断对簇进行更新。
[0034]采用上述方案本专利技术取得的有益效果如下:(1)针对传统的校园推送方法存在收敛速度慢导致处理大规模数据集和高维数据速度慢,收敛速度快导致推送信息不本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的智慧校园推送方法,其特征在于:该方法包括以下步骤:步骤S1:数据采集与转换;步骤S2:确定k值;步骤S3:分簇;步骤S4:簇融合;步骤S5:具体运行;在步骤S3中,所述分簇包括以下步骤:步骤S31:初始化k个簇,计算每个簇特征变量的互信息之和,所用公式如下:;式中,I(X;Y)是特征变量X和特征变量Y的互信息,nx和ny分别是x和y的取值个数,P(xi,yj)是X和Y同时取值xi和yj的概率,P(xi)和P(yj)分别表示X取值xi和Y取值yj的概率;步骤S32:预先设定互信息阈值,创建噪声簇,对于每个样本数据,计算该样本数据在其他簇中簇的互信息之和,若该样本数据在所有簇中互信息最大的值低于互信息阈值,则将其分配到噪声簇,否则将其分配到互信息最大的簇;步骤S33:重复步骤S32,直到簇不发生变化为止。2.根据权利要求1所述的一种基于大数据的智慧校园推送方法,其特征在于:在步骤S1中,所述数据采集与转换具体包括以下步骤:步骤S11:采集推送信息;步骤S12:数据预处理,对推送信息进行分词及出停用词;步骤S13:计算TF

IDF值,对数据预处理后的词计算TF

IDF值,TF

IDF是词频与逆文档频率的乘积,选择TF

IDF值最高的n个词作为推送信息的特征词;步骤S14:建立词库,对所有推送信息的特征词汇总,建立词库;步骤S15:数据转换,将推送信息转换为样本数据,将词库中词的数量作为推送信息的数据维度,推送信息的特征词决定维度数据是否为0,特征词即为特征变量,特征词在推送信息里的词频决定维度数据的大小,将推送信息转换为向量。3.根据权利要求1所述的一种基于大数据的智慧校园推送方法,其特征在于:在步骤S2中,基于参数优化算法确定k值,具体包括以下步骤:步骤S21:初始化k值,初始化不同的k值;步骤S22:计算轮廓系数,对于不同的k值,将样本数据按照曼哈顿距离度量方法进行聚类,并计算每个样本数据的轮廓系数,所用公式如下:;式中,s是样本数据的轮廓系数,a是样本数据与同簇其他样本数据的平均距离,b是样本数据与最近其他簇的平均距离;步骤S23:计算轮廓系数平均数,计算所有样本的轮廓系数平均值,得到不同k值的聚类方案轮廓系数;步骤S24:选取k值,对于不同k值的聚类方案轮廓系数,选择轮廓系数最大的那个k值作
为最终选取的k值。4.根据权利要求1所述的一种基于大数据的智慧校园推送方法,其特征在于:在步...

【专利技术属性】
技术研发人员:李振华张亚雯陈一铭曾莹莹冯秋月
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1