【技术实现步骤摘要】
一种基于深度学习的教育资源场景化综合纠错方法
[0001]本专利技术涉及敏捷教育数据质量管理,具体涉及一种基于深度学习的教育资源场景化综合纠错方法。
技术介绍
[0002]随着教育部的《教育信息化2.0行动计划》的颁布和推进,我国的教育信息化已经从过去简单的数据采集清洗进入到追求更高层次、更广泛的教育开放中。为此,在云服务的推动下,高质量的教育资源大数据如何在多样化场景中能够快速的进行数据识别、数据纠错,提供场景化模式的全域数据一体化纠错云服务,成为了实现教育质量自动化的重要攻克点。
[0003]场景中的文字检测和识别对于大量数据池能够在云服务中被准确的应用到,为用户提供正确数据、满足用户使用过程的适用性以及在保护不同场景中重要数据错误流出起到重要协助作用。
[0004]针对已有的场景纠错方法,大多基于传统的分类和过滤手段,他们对获取到的数据进行信息抽取,获得实体关系属性、时间数据、实体词以及领域词;根据实体词和领域词得到正样本,对正样本处理得到负样本,二者构成数据集;对于待纠错的长文本,进行分词处理、实体抽取及语义分析,获取上下位词语及实体关系,进行图谱检索;利用正负数据集进行文本纠错模型的训练,给出最后的正确建议。然而这种方法并不适用于云服务架构中的大数据管理,海量的教育资源数据类型内容多变,无法仅依靠人工的自定义属性和检错纠错。
[0005]以上方的方法为例,过去常见的基于规则、基于统计机器学习的纠错方法,主要依赖于词库或统计语言模型,纠错时缺乏对上下文及多样化场景的依赖,容易造成低级误 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的教育资源场景化综合纠错方法,其特征在于,包括以下步骤:S1、获取资源请求方的请求信息;S2、对请求内容进行解析,获取场景类型有效信息并将其记录到请求类型表中;S3、从教育资源池调度数据信息,进入自学习的全域数据纠错系统;S4、判断输出的调度信息类型,进入自动匹配纠错模型:若为文本类型则进入文本数据纠错,若是影像类型则进入影像纠错,并得到量化后的相似度;S5、对量化后的相似度进行判别处理,若相似度高于设置的最低阈值则将该数据信息直接发送给请求方,结束纠错服务;否则执行步骤S6;S6、记录当前数据的预测场景类型及数据信息,作为负样本加入到教育资源池中,返回步骤S3。2.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S1中资源请求方的信息包括请求数据所属场景类型、数据请求详情信息;所述请求数据所属场景类型从资源池中自学习更新出来的数据场景类型表中选择,并为请求方创建唯一的请求ID;所述数据请求详情信息包括数据类型及其对应的请求数据数量。3.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S2具体实现方法为:以当前系统中已有的场景类型为行,请求的场景类型为列,信息内容为记录请求ID,建立场景匹配列表。4.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S4量化后的相似度结果:其中,SimValue
i,j
表示第i个文本分类与第j种场景所预测的相似度;Acc
j
表示第j种场景所预测的相似度,由系统根据需求在模型中自定义;Acc
i,j
的计算方法为:其中,TPd
i,j
表示第i个文本分类与第j种场景下,该类数据在分类模型中被正确预测出来,记为1;0<i≤I,0<j≤J,i和j由文本被划分的数量I及预定义的场景数量J控制;v表示预测次数,V表示预测的总次数,N表示分类决策的数量。5.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S6包括以下子步骤:S61、结合当前的场景需求,为教育资源池中的数据进行类别定义;对全域场景数据池进行信息统计归集,以表的形式记录每条数据所属的正确场景类型名,...
【专利技术属性】
技术研发人员:唐雪飞,梁梅群,胡茂秋,陈科,
申请(专利权)人:成都康赛信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。