基于联邦学习的知识追踪的方法及系统技术方案

技术编号:25044676 阅读:20 留言:0更新日期:2020-07-29 05:34
本发明专利技术公开了一种基于联邦学习的知识追踪的方法及系统,相关方案运用深度知识追踪模型,结合循环神经网络对本地学生知识状态进行建模,同时计算本地数据的置信度;最终服务器结合置信度作为权重,加权平均各个模型的参数,得到全局知识追踪模型,进而更好的利用各个客户端的私有数据,并且保持数据隐私,最终更加准确的追踪建模学生的能力,弥补了现有方法泄露隐私信息,对教育数据质量的忽略等弊端。

【技术实现步骤摘要】
基于联邦学习的知识追踪的方法及系统
本专利技术涉及教育数据挖掘
,尤其涉及一种基于联邦学习的知识追踪的方法及系统。
技术介绍
知识追踪是教育领域的一个重要的任务。随着智能教育系统的发展,大量学生以及老师入住到各种教育系统进行学习和评价。这就要求了智能教育系统能够合理的对学生能力进行评估,从而对学生做出针对性的意见和建议,继而辅助学生训练和提升。知识追踪技术应运而生,其目标在于根据学生的学习记录,对学生的知识状态,即知识的掌握程度随时间的变化过程进行追踪和建模,以便能够更为准确的预测学生在未来的知识水平以及学习中的表现,从而为学生提供个性化的辅导。深度知识追踪是一种结合循环神经网络建模学生学习轨迹,并且拟合其知识状态的变化趋势的知识追踪技术。基于深度知识追踪的相关模型取得了出色的效果,因此已经被广泛地应用在教育领域的应用中。然而,为了获得高质量的深度知识追踪模型,不可避免地需要在大规模的数据上进行训练。由于多方面的因素,教育领域面临着数据孤岛问题。1)数据隐私。用于练习的数据通常是私有而且隐私敏感的。例如,学生和学校通常拒绝将他们的学习数据公开,因此使得收集数据面临很大的困难。因此,需要一种合适的方法,在保护数据隐私的情况下独立地训练DKT模型(知识追踪模型)的方法。2)数据质量。根据相关研究,知识追踪任务极度依赖学习数据的质量。然而,不同的学校通常有着不同的教学进度和安排。不同学校的学习数据,通常具备不同的分布和设置(例如,教学进度、题目的难度等),这些都反映出了数据质量的差异。因此,一个有效地为各个学校的数据评估质量的方法在本任务中是非常重要的。3)数据可比性。最近的工作一直在强调来源不同的学生的可比性。换句话说,我们对两个学生的能力的偏序比较看重。因此,设计解决方案时需要考虑到这个需求。联邦学习为我们提出了解决方案。联邦学习是近些年来最受关注的技术之一,在诸如医疗、银行业等各个领域都取得了巨大的成功。联邦学习的主要思想是基于跨多个设备存储的数据构建机器学习模型,首先进行多个客户端本地模型的训练,在本地模型构建和训练过程中不涉及到其他客户端数据的交互。在本地模型聚合步骤,只涉及模型参数的传递和聚合。从而防止了数据泄漏,保护了数据隐私。从技术角度来看,现有的联邦学习算法主要分为,水平联邦学习,垂直联邦学习和联邦迁移学习三类。目前,关于联邦学习的应用,其在分布的模型的聚合阶段,研究者们提出了多种聚合策略。但是,现有的联邦学习研究主要集中在基于数据规模汇总本地模型。简单的由数据规模作为模型聚合的权重,忽略了客户端数据的独特性。尤其是教育数据的质量特征。这将导致了数据量大的客户端子模型将受到较大的关注,即使该子模型并没有更佳的建模和追踪效果。
技术实现思路
本专利技术的目的是提供一种基于联邦学习的知识追踪的方法及系统,其目的是考虑数据质量的前提下,为多个学校单位基于其私有数据训练知识追踪模型,知识追踪模型能够充分利用隔离的私密数据,较为准确的预测学生表现,追踪学生能力变化。本专利技术的目的是通过以下技术方案实现的:一种基于联邦学习的知识追踪的方法,包括:以学校为单位搜集各学校内学生的历史答题信息;每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。由上述本专利技术提供的技术方案可以看出,运用深度知识追踪模型,结合循环神经网络对本地学生知识状态进行建模,同时计算本地数据的置信度;最终服务器结合置信度作为权重,加权平均各个模型的参数,得到全局知识追踪模型,进而更好的利用各个客户端的私有数据,并且保持数据隐私,最终更加准确的追踪建模学生的能力,弥补了现有方法泄露隐私信息,对教育数据质量的忽略等弊端。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于联邦学习的知识追踪的方法的流程图;图2为本专利技术实施例提供的一种基于联邦学习的知识追踪的系统的示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于联邦学习的知识追踪的方法,如图1所示,主要包括:步骤11、以学校为单位搜集各学校内学生的历史答题信息。本专利技术实施例中,历史答题信息可以从在线学习平台智学网或ASSITments获得,主要包括:试题、试题得分情况以及试题所涉及的知识点(Q矩阵)。本专利技术实施例中,确定了搜集数据的客户端范围,其中包含了|S|个隔离的学校,对于一个学校s,包含了Ns个学生以及Qs个试题,定义一个学生的历史答题信息为r={(q1,g1),...,(ql,gl)},其中,ql表示学生在第l步时训练的试题,l≤Qs,gl表示对应的两分制得分,当回答正确时,得分为1,反之为0,每一试题均被教育学专家预先标注为K个不同的知识点。步骤12、每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器。本步骤分为两个部分:第一部分为建模本地深度知识追踪模型,第二部分为计算本地数据的置信度,各部分优选方式如下:1、建模本地深度知识追踪模型。每一客户端独自利用一个学校内学生的历史答题信息,即对于S个隔离的学校,使用了S个客户端一对一的利用学校内学生的历史答题信息使用深度知识追踪框架进行建模,各客户端执行过程完全相同。首先,对每一学生的历史答题信息进行one-hot编码(独热编码),一个学生历史答题信息中第l步时训练的题目ql与对应得分gl构成的试题-回答对(ql,gl)的one-hot编码结果表示为其中,Qs为试题数目。本地深度知识追踪模型使用循环神经网络建模隐层知识表示hl并输出对应的知识状态yl:hl=tanh(Whxxl+Whhhl-1+bh)yl=sigmoid(Wyhhl+by)其中,hl-1表示第l-1步的隐层知识表示本文档来自技高网
...

【技术保护点】
1.一种基于联邦学习的知识追踪的方法,其特征在于,包括:/n以学校为单位搜集各学校内学生的历史答题信息;/n每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;/n服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;/n各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。/n

【技术特征摘要】
1.一种基于联邦学习的知识追踪的方法,其特征在于,包括:
以学校为单位搜集各学校内学生的历史答题信息;
每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架建模本地深度知识追踪模型,并将模型参数发送至服务器;以及使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估,并将获得的置信度发送至服务器;
服务器将所有客户端发送的模型参数以对应的置信度为权重进行加权聚合,获得全局知识追踪模型的参数,并分发更新各个客户端;
各客户端利用全局知识追踪模型的参数作为本地深度知识追踪模型的参数,以此实现各学生的知识追踪。


2.根据权利要求1所述的一种基于联邦学习的知识追踪的方法,其特征在于,历史答题信息包括:试题、试题得分情况以及试题所涉及的知识点;
对于一个学校s,包含了Ns个学生以及Qs个试题,定义一个学生的历史答题信息为r={(q1,g1),...,(ql,gl)},其中,ql表示学生在第l步时训练的试题,l≤Qs,gl表示对应的两分制得分,当回答正确时,得分为1,反之为0,每一试题均被教育学专家预先标注为K个不同的知识点。


3.根据权利要求1或2所述的一种基于联邦学习的知识追踪的方法,其特征在于,每一客户端独自利用一个学校内学生的历史答题信息,使用深度知识追踪框架进行建模包括:
对每一学生的历史答题信息进行one-hot编码,一个学生历史答题信息中第l步时训练的题目ql与对应得分gl构成的试题-回答对(ql,gl)的one-hot编码结果表示为xl∈其中,Qs为试题数目;
本地深度知识追踪模型使用循环神经网络建模隐层知识表示hl并输出对应的知识状态yl:
hl=tanh(Whxxl+Whhhl-1+bh)
yl=sigmoid(Wyhhl+by)
其中,hl-1表示第l-1步的隐层知识表示,Whx、Whh、Wyh分别为xl、hl-1、hl的权重,bh与bv为模型的偏置项;
给定每一学生的历史答题信息,按照训练时序,逐步输入至本地深度知识追踪模型,本地深度知识追踪模型中当前步计算出的隐层知识表示作为下一步的输入,初始的隐藏知识表示h0是预先设定的,通过迭代训练,直至收敛,最终会输出每个学生在1~l个时间步内的知识点掌握程度,即知识状态。


4.根据权利要求1所述的一种基于联邦学习的知识追踪的方法,其特征在于,使用教育测量理论的数据质量评估策略对历史答题信息中的试题进行数据质量评估包括:
使用经典测量理论计算置信度,定义一个学校的历史答题信息中的试题的CTT置信度为:
αCTT=F(P(Qs)+D(Qs)+CR(Qs))
其中,F(·)为任意的函数,P(Qs)、D(Qs)和CR(Qs)分别计算了Qs个试题的难度、区分度和信度;
其中,试题的难度反映了正确作答试题的困难程度,试题的区分度反映了试...

【专利技术属性】
技术研发人员:刘淇陈恩红吴金泽黄振亚王士进
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1