基于图文智能识别的电子教育资源匹配方法及计算机可读存储介质组成比例

技术编号:23363334 阅读:55 留言:0更新日期:2020-02-18 17:23
本发明专利技术涉及电子教育资源匹配技术领域,尤其是一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现基于图文智能识别的电子教育资源匹配方法。通过收集中小学教学版本相应的教学资源并转化为电子版本和采集市面上已有的电子教学资源来构建电子教学资源数据库。把转化完成的电子教材与采集到的电子教学资源进行关联性匹配并提取出与两者关联的关键词信息后,该电子教学资源数据库提供给学生进行关键词检索。学生进行关键词检索时,主要方式是对待检索信息进行拍照,系统自动识别图片或文字对应电子教材,然后检索出与之相对应的电子资源。学生通过拍照自动识别图片或文字,快速检索出想要的资源。

Matching method of electronic education resources and computer readable storage medium based on intelligent recognition of image and text

【技术实现步骤摘要】
基于图文智能识别的电子教育资源匹配方法及计算机可读存储介质
本专利技术涉及电子教育资源匹配
,尤其是一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现基于图文智能识别的电子教育资源匹配方法。
技术介绍
在信息化、数字化、知识化爆炸式发展的时代,智慧学校的建设势在必行,空前迫切。随着国家大力推动智慧课堂的步伐,智慧课堂在学校中使用越来越广泛,颠覆了一些传统课堂的教学模式。但是随着电子教学资源以及慕课的发展,资源的数量及迅速超过千万级,然而这也为学生查找需要的资源带来极大的不便。现在一般都是通过搜索引擎模糊搜索资源。最普遍的是通过OCR技术识别电子文档里的文字,而且准确率和速度都能令人满意。但学习资源除了有文字外,还有图形、图表、公式等许多组件,仅仅靠OCR技术并不能满足学生快速查找想要资源的需求。而中小学的学生提取关键字的能力相对较弱,另外关键字搜索出的资源类目较多,学生无法快速定位到自己想要寻找的资源。
技术实现思路
本专利技术的目的是提供一种快速检索资源的方法和计算机可读存储介质,该计算机程序被处理器执行时实现基于图文智能识别的电子教育资源匹配方法。提供一种基于图文智能识别的电子教育资源匹配方法,包括以下步骤:电子教学资源数据库构建步骤,获取出版教材电子资源和网络教学电子资源;关键词提取步骤,提取出版教材电子资源和出版教材电子资源的关键词,所述关键词包括图像和主题关键词;匹配步骤,根据出版教材电子资源的图像和主题关键词在电子教学资源数据库中进行检索,把检索到的网络教学电子资源与出版教材电子资源进行关联性匹配,标记与两者关联的关键词信息;检索步骤,获取待检索图像信息,识别该图像信息中的图像和/或主题关键词,提取电子教学资源数据库中相匹配的网络教学电子资源。其中,关键词提取步骤中,通过图像匹配模型算法和主题模型算法分别提取图像和主题关键词。其中,所述提取图像,包括如下步骤:(1)预处理步骤,对图像数据进行去噪处理;(2)特征提取步骤,采用特征检索方法提取所述经过去噪处理的图像数据中的图像特征,并存储为图像数据库;(3)特征向量构建步骤:抽取同一图像关键词的全部所述图像特征来构建特征向量;(4)筛选步骤:根据所述特征向量,用图像匹配模型算法在图像数据库中匹配图像特征,根据相似性度量准则进行排序、搜索;(5)返回图像特征相似性较高的结果。其中,所述主题模型算法具体是LDA生成模型,所述提取主题关键词,进一步包括:通过光学字符识别OCR进行文本识别,基于LDA生成模型从识别到的文本中获取关键词。其中,所述通过光学字符识别OCR进行文本识别,进一步包括:根据文本所在章节、知识点短语增加文本权重。其中,所述通过光学字符识别OCR进行文本识别,进一步包括:通过物理分割方法和逻辑分割方法提取公式文本,所述物理分割方法是指按层次顺序提取文档;所述逻辑分割方法是指:根据文本排列方式探测大公式,根据标志性字符探测小公式。其中,所述根据文本排列方式探测大公式是指:若该文本位于每页或每行的中间位置,且连续的文本字符数不超过预设值,则判断该文本为大公式。其中,根据标志性字符探测小公式是指:若检索到公式符号,则以该公式符号为起点向两侧文本探寻不超过预设字符数,若识别到完整的公式则判断该文本为小公式。其中,所述检索步骤中,所述图像信息通过拍照或者屏幕截图得到。还提供一种计算机可读存储介质,该存储介质存储有可执行计算机程序,计算机程序被控制器执行时能够实现上述基于图文智能识别的电子教育资源匹配方法。本专利技术可以实现以下有益效果:通过收集中小学教学版本相应的教学资源并转化为电子教材和采集市面上已有的电子教学资源来构建电子教学资源数据库。把转化完成的电子教材与采集到的电子教学资源进行关联性匹配并提取出与两者关联的关键词信息后,该电子教学资源数据库提供给学生进行关键词检索。学生进行关键词检索时,主要方式是对待检索信息进行拍照,系统自动识别图片或文字对应电子教材,然后检索出与之相对应的电子资源。学生通过拍照自动识别图片或文字,快速检索出想要的资源。具体实施方式结合以下实施例对该基于图文智能识别的电子教育资源匹配方法作进一步描述。首先,构建电子教学资源数据库。一方面,收集中小学教学版本相应的教学资源并转化为电子教材作为出版教材电子资源,另一方面,采集市面上已有的电子教学资源作为网络教学电子资源。然后,把转化完成的电子教材与采集到的电子教学资源提取出与两者关联的关键词信息,并进行关联性匹配。具体的,提取出版教材电子资源和出版教材电子资源的图像和主题关键词根据出版教材电子资源的图像和主题关键词在电子教学资源数据库中进行检索,把检索到的网络教学电子资源与出版教材电子资源进行关联性匹配,标记与两者关联的关键词信息;并且,获取待检索图像信息,识别该图像信息中的图像和/或主题关键词,提取电子教学资源数据库中相匹配的网络教学电子资源。最后,该电子教学资源数据库提供给学生进行关键词检索。其中,录入资源以及检索资源都使用到了图片和文字识别。另外考虑效率问题,该电子教学资源数据库并非把整篇文章作为搜索关键字,而是在系统中自动提取关键字,由于自动提取关键字的算法为现有技术,此处不作赘述,通过在系统中自动提取关键字,可避免不同人提取关键字能力差异导致检索结果不准确的问题。学生进行关键词检索时,主要方式是对待检索信息进行拍照,系统自动识别图片或文字对应电子教材,然后检索出与之相对应的电子资源。具体的,关键词提取主要是基于图像匹配模型算法和主题模型算法,其关联性匹配和提出关键词的过程具体如下的文字识别流程和图像检索流程。其中,文字识别流程如下:步骤A:通过OCR(光学字符识别)进行文字识别。步骤B:把获取到的文字利用主题模型(即LDA生成模型)进行关键词提取,并针对章节、知识点短语增加权重,获取更有效的关键词。具体的,该LDA生成模型用于实现对文档的topic分布的估算。首先,根据当前语料库所有的文档,经过基于机器学习的训练过程建立模型,根据训练过程获取的参数完成模型建立和参数估计,得到最优的参数。然后根据目前的参数对待检索的文档进行topic分布计算,以此获取文档的有效的关键词。步骤C:通过物理分割方法和逻辑分割方法把公式从普通文本中分离出来,实现公式提取。具体的,采用物理分割按层次提取文档,层次排列如下:段、行、单词、字符,逐渐细化。细化后,利用逻辑分割方法来检索公式,其中逻辑分割方法通过两步来达到公式探测的目的:大公式的探测,这些大公式一般位于每页或每行的中间位置,而且这些大公式中没有太长的文本字符;文本中小公式的定位,这主要是通过寻找一些标志性的字符(如=、<)来完成的,找到这些标志性的字符,然后以它们为中心向左右寻找,直到找到整个公式。其中,图像检索流程如下:1、预处理步骤:通过常规的增强本文档来自技高网...

【技术保护点】
1.基于图文智能识别的电子教育资源匹配方法,其特征是:/n电子教学资源数据库构建步骤,获取出版教材电子资源和网络教学电子资源;/n关键词提取步骤,提取出版教材电子资源和出版教材电子资源的关键词,所述关键词包括图像和主题关键词;/n匹配步骤,根据出版教材电子资源的图像和主题关键词在电子教学资源数据库中进行检索,把检索到的网络教学电子资源与出版教材电子资源进行关联性匹配,标记与两者关联的关键词信息;/n检索步骤,获取待检索图像信息,识别该图像信息中的图像和/或主题关键词,提取电子教学资源数据库中相匹配的网络教学电子资源。/n

【技术特征摘要】
1.基于图文智能识别的电子教育资源匹配方法,其特征是:
电子教学资源数据库构建步骤,获取出版教材电子资源和网络教学电子资源;
关键词提取步骤,提取出版教材电子资源和出版教材电子资源的关键词,所述关键词包括图像和主题关键词;
匹配步骤,根据出版教材电子资源的图像和主题关键词在电子教学资源数据库中进行检索,把检索到的网络教学电子资源与出版教材电子资源进行关联性匹配,标记与两者关联的关键词信息;
检索步骤,获取待检索图像信息,识别该图像信息中的图像和/或主题关键词,提取电子教学资源数据库中相匹配的网络教学电子资源。


2.根据权利要求1所述的基于图文智能识别的电子教育资源匹配方法,其特征是,关键词提取步骤中,通过图像匹配模型算法和主题模型算法分别提取图像和主题关键词。


3.根据权利要求2所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述提取图像,包括如下步骤:
(1)预处理步骤,对图像数据进行去噪处理;
(2)特征提取步骤,采用特征检索方法提取所述经过去噪处理的图像数据中的图像特征,并存储为图像数据库;
(3)特征向量构建步骤:抽取同一图像关键词的全部所述图像特征来构建特征向量;
(4)筛选步骤:根据所述特征向量,用图像匹配模型算法在图像数据库中匹配图像特征,根据相似性度量准则进行排序、搜索;
(5)返回图像特征相似性较高的结果。


4.根据权利要求2所述的基于图文智能识别的电子教育资源匹配方法,其特征是,所述主题模型算法具体是LDA生成模...

【专利技术属性】
技术研发人员:李康单江涛袁野郑志强
申请(专利权)人:广东墨痕教育科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1