基于大数据和OCR的网络课堂中文板书结构化分享系统技术方案

技术编号:24708981 阅读:53 留言:0更新日期:2020-07-01 00:06
本发明专利技术公开了一种基于大数据和OCR的网络课堂中文板书结构化分享系统,该系统包括:图像获取单元、课件排版特征提取单元、板书书写特征提取单元、张量融合单元、混合特征提取单元、板书分享单元,这些单元之间相互协作对课件图像、板书图像进行分析从而实现板书分享。利用本发明专利技术,在网络课堂教学中,实现了网络课堂板书结构化分享,能够帮助教师自主发现板书缺陷。

【技术实现步骤摘要】
基于大数据和OCR的网络课堂中文板书结构化分享系统
本专利技术涉及深度学习、大数据
,具体涉及一种基于大数据和OCR的网络课堂中文板书结构化分享系统。
技术介绍
目前,网络课堂是一种广泛应用在高校公开课、企业培训、职业培训、中小幼教育等线上课堂的广泛形式,具体是讲师使用PPT和实时板书内容来进行课件讲解。网络课堂具有广泛的前景。从泛IT教育机构举例来说3节课在线教育培训,与BAT、TMD等互联网公司展开合作,与企业共建评估标准,为企业和个人提供培训服务。Pluralsight美国在线培训公司,2018年5月登陆美国NASDAQ,截止2018年底市值达32.6亿美元。其市值之大,是因为线上教育的便利已经触及到每个领域,忽略重播的课程,仅每日产生的在线课堂板书数据已十分可观,但网络课堂的数据量十分庞大,每日产生的板书数据和课件数据尚未被用于分析。另一方面,教师的教育质量提升是离不开课堂反馈的,线下教育的质量能够有较好的把控的原因是教师在板书书写后能够根据课堂反馈把握较好的板书内容详尽程度,来把握较好的节奏。而目前,网络课堂讲师依赖的反馈主要限制在课后量化评分上,因为反馈不足,教师很难发现板书存在的问题。在这种反馈不足的情况下,教师需要通过相似板书来自主发现问题。而目前暂时没有自动化分析板书内容的系统,即教师难以发现与自己教授内容相似的板书推荐分享,也无法知道其他用户对自己板书的关注情况。因此,现有网络课堂教育领域存在缺少板书分享、教师无法自主发现板书缺陷的问题。
技术实现思路
专利技术提供了一种基于大数据和OCR的网络课堂中文板书结构化分享系统,实现了网络课堂板书结构化分享,能够帮助教师自主发现板书缺陷。一种基于大数据和OCR的网络课堂中文板书结构化分享系统,该系统包括:图像获取单元,用于基于网络课堂的应用程序接口获取课件图像以及板书图像;课件排版特征提取单元,用于将课件图像输入课件排版风格编码器、课件排版风格解码器构成的神经网络,进行前向传播,得到第一张量;板书书写特征提取单元,用于将板书图像输入板书书写风格编码器、板书书写风格解码器构成的神经网络,进行前向传播,得到第二张量;张量融合单元,用于将尺寸相同的第一张量、第二张量按通道维度进行拼接合并操作,得到通道数更高的第三张量;混合特征提取单元,用于将第三张量输入混合特征编码器进行编码处理,并将编码结果输入全连接网络,得到高维特征向量;文字识别单元,用于基于OCR模块对板书图像进行文字识别,得到中文字符数量;板书分享单元,用于根据高维特征向量以及中文字符数量计算板书之间的相似度,并根据相似度向用户进行双向分享。图像获取单元还包括预处理模块,预处理模块用于对获得的板书图像进行底色添加、反色处理,从而得到符合网络常规设计参数的板书图像。课件排版风格编码器、课件排版风格解码器是沙漏组合结构,采用卷积神经网络模块;板书书写风格编码器、板书书写风格解码器是沙漏组合结构,采用卷积神经网络模块。全连接网络的推荐配置是4096、4096、1024、256、512。OCR模块的识别结果是一组字符串,对字符串的字符进行过滤,统计中文字符数量。根据高维特征向量以及中文字符数量计算板书之间的相似度包括根据以下计算模型计算相似度:S1=D(V1,V2)*(W2-X)S2=D(V1,V2)*1其中,V1表示根据本地用户的课件图像以及板书图像数据经过神经网络分析得到的高维特征向量,V2表示待匹配的课件图像以及板书图像数据经过神经网络分析得到的高维特征向量,D(V1,V2)表示两个高维特征向量之间的相似度,W1表示本地板书的字数,W2表示待匹配的目标板书的字数,X为补偿值,S1是忽略本地板书字数,考虑目标板书字数的相似度计算模型;S2是忽略本地及目标板书字数,考虑全局风格特征的相似度计算模型;在使用S2对板书进行粗筛选之后可以使用S1对结果进行细化。本专利技术的有益效果在于:1、本专利技术基于深度神经网络技术对现有课件以及板书内容进行分析,实现了板书分享,帮助教师自主发现板书缺陷,有助于提高网络课堂教学质量。2、本专利技术根据板书图像的透明底色特性,对板书图像进行了底色添加、反色处理,保证输入的特征符合常规网络设计参数,有助于提高神经网络的精度。3、本专利技术在课件排版风格编码器以及板书书写风格编码器之后又利用课件排版风格解码器以及板书书写风格解码器对编码结果进行通道数降低、提高特征图的空域精度,相比于传统的一直使用编码器进行特征提取,更有助于提取到更加精准的特征向量。4、本专利技术基于通道融合技术得到的高维特征向量综合了课件排版风格特征、板书书写风格特征,使板书分享结果更加贴合板书主题,提高了板书分享结果的有效性。5、本专利技术利用OCR技术对板书字数进行识别,并将识别字数纳入板书相似度计算,是基于现有的认为字数多的板书分享更为有效的理念,因此,将识别字数纳入板书相似度计算进一步提高了板书分享结果的有效性。附图说明图1为本专利技术系统框架图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种基于大数据和OCR的网络课堂中文板书结构化分享系统,系统框架图如图1所示。下面通过具体实施例来进行说明。实施例一:基于大数据和OCR的网络课堂中文板书结构化分享系统,该系统包括:图像获取单元,用于基于网络课堂的应用程序接口获取课件图像以及板书图像。在利用网络课堂教学过程中,通常是结合电子课件与电子板书的形式进行教学。例如,教师上传课件后,在教学过程中,直接在课件上进行板书标注;或者,教书上传课件后,另外在电子白板上进行板书标注。由此可见,板书内容与课件内容息息相关。因此,在板书分享及推荐时,课件特征是非常重要的特征。首先,为了访问板书内容,需要使用网络课堂对应的应用程序接口API,并得到原始课件图像和板书图像。其中,板书图像一般是以RGBA的格式存储,从而实现网络课堂中的图层叠加,进而实时渲染。RGBA是代表Red(红色)Green(绿色)Blue(蓝色)和Alpha的色彩空间,Alpha通道一般用作不透明度参数。如果一个像素的alpha通道数值为0%,那它就是完全透明的(也就是看不见的),而数值为100%则意味着一个完全不透明的像素(传统的数字图像)。因此,IMG2需要设置底色,对于一般的张量而言,无特征部分应是黑色底色或中灰度底色最佳,而板书的特性导致白色才能显现黑色纹理,因此,将白色底色与具有透明图层的板书图像进行叠加,得到叠加后的白底板书图像。在将白底板书图像输入板书书写编码器EncB之前,需要对白底板书图像进行底色反转的反色处理,从而保证输入的特征符合常规网络设计参数,因为有些网络的卷积没有偏置项,本文档来自技高网...

【技术保护点】
1.一种基于大数据和OCR的网络课堂中文板书结构化分享系统,其特征在于,该系统包括:/n图像获取单元,用于基于网络课堂的应用程序接口获取课件图像以及板书图像;/n课件排版特征提取单元,用于将课件图像输入课件排版风格编码器、课件排版风格解码器构成的神经网络,进行前向传播,得到第一张量;/n板书书写特征提取单元,用于将板书图像输入板书书写风格编码器、板书书写风格解码器构成的神经网络,进行前向传播,得到第二张量;/n张量融合单元,用于将尺寸相同的第一张量、第二张量按通道维度进行拼接合并操作,得到通道数更高的第三张量;/n混合特征提取单元,用于将第三张量输入混合特征编码器进行编码处理,并将编码结果输入全连接网络,得到高维特征向量;/n文字识别单元,用于基于OCR模块对板书图像进行文字识别,得到中文字符数量;/n板书分享单元,用于根据高维特征向量以及中文字符数量计算板书之间的相似度,并根据相似度向用户进行双向分享。/n

【技术特征摘要】
1.一种基于大数据和OCR的网络课堂中文板书结构化分享系统,其特征在于,该系统包括:
图像获取单元,用于基于网络课堂的应用程序接口获取课件图像以及板书图像;
课件排版特征提取单元,用于将课件图像输入课件排版风格编码器、课件排版风格解码器构成的神经网络,进行前向传播,得到第一张量;
板书书写特征提取单元,用于将板书图像输入板书书写风格编码器、板书书写风格解码器构成的神经网络,进行前向传播,得到第二张量;
张量融合单元,用于将尺寸相同的第一张量、第二张量按通道维度进行拼接合并操作,得到通道数更高的第三张量;
混合特征提取单元,用于将第三张量输入混合特征编码器进行编码处理,并将编码结果输入全连接网络,得到高维特征向量;
文字识别单元,用于基于OCR模块对板书图像进行文字识别,得到中文字符数量;
板书分享单元,用于根据高维特征向量以及中文字符数量计算板书之间的相似度,并根据相似度向用户进行双向分享。


2.如权利要求1所述的基于大数据和OCR的网络课堂中文板书结构化分享系统,其特征在于,所述图像获取单元还包括预处理模块,预处理模块用于对获得的板书图像进行底色添加、反色处理,从而得到符合网络常规设计参数的板书图像。


3.如权利要求1所述的基于大数据和OCR的网络课堂中文板书结构化分享系统,其特征在于,所述课件排版风格编码器、课件排版风格解码器...

【专利技术属性】
技术研发人员:杨丽纳程兰芝钟大成尚宇张颢倚刘楚然余淼刘少卿
申请(专利权)人:郑州铁路职业技术学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1