一种基于深度学习的教育资源场景化综合纠错方法技术

技术编号:38011726 阅读:11 留言:0更新日期:2023-06-30 10:33
本发明专利技术公开了一种基于深度学习的教育资源场景化综合纠错方法,包括以下步骤:S1、获取资源请求方的请求信息;S2、获取场景类型有效信息并记录到请求类型表中;S3、从教育资源池调度数据信息;S4、进入自动匹配纠错模型:若为文本类型则进入文本数据纠错,若是影像类型则进入影像纠错,得到量化后的相似度;S5、若相似度高于设置的最低阈值则将该数据信息直接发送给请求方,否则执行S6;S6、记录当前数据的预测场景类型及数据信息,作为负样本加入到教育资源池中,返回步骤S3。本发明专利技术可对文本和图像两种数据类型进行综合纠错,能够为云服务提供数据质量保障,提高错误数据的识别准确性,将错误数据归集,并将正确数据重新回写到场景中。中。中。

【技术实现步骤摘要】
一种基于深度学习的教育资源场景化综合纠错方法


[0001]本专利技术涉及敏捷教育数据质量管理,具体涉及一种基于深度学习的教育资源场景化综合纠错方法。

技术介绍

[0002]随着教育部的《教育信息化2.0行动计划》的颁布和推进,我国的教育信息化已经从过去简单的数据采集清洗进入到追求更高层次、更广泛的教育开放中。为此,在云服务的推动下,高质量的教育资源大数据如何在多样化场景中能够快速的进行数据识别、数据纠错,提供场景化模式的全域数据一体化纠错云服务,成为了实现教育质量自动化的重要攻克点。
[0003]场景中的文字检测和识别对于大量数据池能够在云服务中被准确的应用到,为用户提供正确数据、满足用户使用过程的适用性以及在保护不同场景中重要数据错误流出起到重要协助作用。
[0004]针对已有的场景纠错方法,大多基于传统的分类和过滤手段,他们对获取到的数据进行信息抽取,获得实体关系属性、时间数据、实体词以及领域词;根据实体词和领域词得到正样本,对正样本处理得到负样本,二者构成数据集;对于待纠错的长文本,进行分词处理、实体抽取及语义分析,获取上下位词语及实体关系,进行图谱检索;利用正负数据集进行文本纠错模型的训练,给出最后的正确建议。然而这种方法并不适用于云服务架构中的大数据管理,海量的教育资源数据类型内容多变,无法仅依靠人工的自定义属性和检错纠错。
[0005]以上方的方法为例,过去常见的基于规则、基于统计机器学习的纠错方法,主要依赖于词库或统计语言模型,纠错时缺乏对上下文及多样化场景的依赖,容易造成低级误报,而假如将其用于大数据教育资源环境中,所造成的误报将会是量的提升。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提供一种可对文本和图像两种数据类型进行综合纠错,能够为云服务提供数据质量保障,提高错误数据的识别准确性,将错误数据归集,并将正确数据重新回写到场景中的基于深度学习的教育资源场景化综合纠错方法。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种基于深度学习的教育资源场景化综合纠错方法,包括以下步骤:
[0008]S1、获取资源请求方的请求信息;
[0009]S2、对请求内容进行解析,获取场景类型有效信息并将其记录到请求类型表中;
[0010]S3、从教育资源池调度数据信息,进入自学习的全域数据纠错系统;
[0011]S4、判断输出的调度信息类型,进入自动匹配纠错模型:若为文本类型则进入文本数据纠错,若是影像类型则进入影像纠错,并得到量化后的相似度;
[0012]S5、对量化后的相似度进行判别处理,若相似度高于设置的最低阈值则将该数据
信息直接发送给请求方,结束纠错服务;否则执行步骤S6;
[0013]S6、记录当前数据的预测场景类型及数据信息,作为负样本加入到教育资源池中,返回步骤S3。
[0014]所述步骤S1中资源请求方的信息包括请求数据所属场景类型、数据请求详情信息;
[0015]所述请求数据所属场景类型从资源池中自学习更新出来的数据场景类型表中选择,并为请求方创建唯一的请求ID;
[0016]所述数据请求详情信息包括数据类型及其对应的请求数据数量。
[0017]所述步骤S2具体实现方法为:以当前系统中已有的场景类型为行,请求的场景类型为列,信息内容为记录请求ID,建立场景匹配列表。
[0018]所述步骤S4量化后的相似度结果:
[0019][0020]其中,SimValue
i,j
表示第i个文本分类与第j种场景所预测的相似度;Acc
j
表示第j种场景所预测的相似度,由系统根据需求在模型中自定义;
[0021]Acc
i,j
的计算方法为:
[0022][0023]其中,TPd
i,j
表示第i个文本分类与第j种场景下,该类数据在分类模型中被正确预测出来,记为1;0<i≤I,0<j≤J,i和j由文本被划分的数量I及预定义的场景数量J控制;v表示预测次数,V表示预测的总次数,N表示分类决策的数量。
[0024]所述步骤S6包括以下子步骤:
[0025]S61、结合当前的场景需求,为教育资源池中的数据进行类别定义;对全域场景数据池进行信息统计归集,以表的形式记录每条数据所属的正确场景类型名,从粗到细逐一记录;
[0026]S62、数据集的制作:对当前最新的教育资源池的数据信息进行随机抽样,并将抽取到的数据信息进行分类和再组合,形成初始训练正负样本;
[0027]S63、获取全域场景数据池中包含的教育资源,根据数据类型进入自动匹配纠错模型;自动匹配纠错模型的流程为:根据数据进行类型判断,如果是文本类型数据则进行到文本纠错处理,进入步骤S631;若为影像类型则进行图像纠错处理,进入步骤S632;
[0028]S631、引用基于连接预选框网络的文本检测方法CTPN作为文字检测模块,进行文字检测,为S633的文字识别找出目标区域,进入S633;
[0029]S632、把影像数据当成连续性的垂直像素帧,对视频影像进行帧切,得到图像信息,然后退图像信息进行数据清洗(去除标点符号、长串数字等文本内容),并进入S633;
[0030]S633、进行内容识别分类,识别出文本或图像内容所属场景类型是否与真实场景类型接近;内容识别分类采用双编码器架构:编码器1提供全局信息;编码器2充当局部特征提取器,编码器2的输出输入到分类器中;
[0031]编码器1基于BiLSTM,在BiLSTM的输出层前面加入空间注意力机制来进行细粒度语义表征;通过注意力机制去挖掘更具有价值的词语信息,提高相似度;
[0032]a_v
t,i,j
=tanh(W
s
s
t
+W
f
f
i,j
)
[0033]a_v
t
=softmax
i,j
(a_v
t,i,j
)
[0034]a_v
t,i,j
中表示注意力机制掩码信息,s
t
表示中间状态;f
i,j
表示图像或文本内容;W
f
表示权重;W
s
表示文档中图像或文本s的权重;a_v
t
表示经过归一化的注意力权重;t表示第t时刻;i表示为第i行,j表示为第j列;
[0035]编码器2选用DRNN网络,作为平行细节特征挖掘模块,并将得到的特征信息与编码器1获取到的特征信息进行融合;
[0036]h
t
=Conv(g
t
,x
t
)
[0037][0038]其中h
t
表示编码器2中由窗口过滤器产生的特征,g
t
表示为真实值特征信息,x
t
为输入特征信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的教育资源场景化综合纠错方法,其特征在于,包括以下步骤:S1、获取资源请求方的请求信息;S2、对请求内容进行解析,获取场景类型有效信息并将其记录到请求类型表中;S3、从教育资源池调度数据信息,进入自学习的全域数据纠错系统;S4、判断输出的调度信息类型,进入自动匹配纠错模型:若为文本类型则进入文本数据纠错,若是影像类型则进入影像纠错,并得到量化后的相似度;S5、对量化后的相似度进行判别处理,若相似度高于设置的最低阈值则将该数据信息直接发送给请求方,结束纠错服务;否则执行步骤S6;S6、记录当前数据的预测场景类型及数据信息,作为负样本加入到教育资源池中,返回步骤S3。2.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S1中资源请求方的信息包括请求数据所属场景类型、数据请求详情信息;所述请求数据所属场景类型从资源池中自学习更新出来的数据场景类型表中选择,并为请求方创建唯一的请求ID;所述数据请求详情信息包括数据类型及其对应的请求数据数量。3.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S2具体实现方法为:以当前系统中已有的场景类型为行,请求的场景类型为列,信息内容为记录请求ID,建立场景匹配列表。4.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S4量化后的相似度结果:其中,SimValue
i,j
表示第i个文本分类与第j种场景所预测的相似度;Acc
j
表示第j种场景所预测的相似度,由系统根据需求在模型中自定义;Acc
i,j
的计算方法为:其中,TPd
i,j
表示第i个文本分类与第j种场景下,该类数据在分类模型中被正确预测出来,记为1;0<i≤I,0<j≤J,i和j由文本被划分的数量I及预定义的场景数量J控制;v表示预测次数,V表示预测的总次数,N表示分类决策的数量。5.根据权利要求1所述的基于深度学习的教育资源场景化综合纠错方法,其特征在于,所述步骤S6包括以下子步骤:S61、结合当前的场景需求,为教育资源池中的数据进行类别定义;对全域场景数据池进行信息统计归集,以表的形式记录每条数据所属的正确场景类型名,...

【专利技术属性】
技术研发人员:唐雪飞梁梅群胡茂秋陈科
申请(专利权)人:成都康赛信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1