一种试题检索系统及方法技术方案

技术编号:36211326 阅读:10 留言:0更新日期:2023-01-04 12:07
本发明专利技术公开了一种试题检索系统及方法,包括试题库模块、ocr模块、第一检索模块、第二检索模块,试题库模块用于采集试题图像,ocr模块用于对待检索的试题图像进行ocr识别,第一检索模块用于对待检索试题进行第一检索操作,第二检索模块用于对第一检索模块的结果进行第二步骤的检索操作。本发明专利技术通过第一检索模块合第二检索模块,能够利用第一检索模块缩小待检索试题的检索范围,从而利用第二检索模块在提高待检索试题检索的准确性,通过有效的结合了文本识别匹配特性及图片相似度匹配特性,在保证了识别正确率的同时也保障了识别的速度。可有效提高用户的搜题使用体验。有效提高用户的搜题使用体验。

【技术实现步骤摘要】
一种试题检索系统及方法


[0001]本专利技术涉及智能教育
,具体为一种试题检索系统及方法。

技术介绍

[0002]目前,在线教育产品不断发展,其中包括具备拍照答疑等功能的搜题类产品。搜题类产品旨在学生用户在作业中遇到难题时,可以获取包含题目的图像并对该图像进行图像识别,基于图像识别的结果在后台题库搜索用户需要的题目和答案解析。
[0003]当前的试题搜索通常是拍摄试题图像,对试题题干进行ocr之后进行文本相似度检测,从而确认出目标检索题目,该种方法对文本较多的试题准确率很高,但是对文本少附图多的试题,则准确率低,因此需要一种试题检索优化系统及方法。

技术实现思路

[0004]本专利技术的目的在于提供一种试题检索系统及方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种试题检索系统,包括试题库模块、ocr模块、第一检索模块、第二检索模块;
[0006]试题库模块用于采集试题图像;
[0007]ocr模块用于对待检索的试题图像进行ocr识别;
[0008]第一检索模块用于对待检索试题进行第一检索操作;
[0009]第二检索模块用于对第一检索模块的结果进行第二步骤的检索操作。
[0010]优选的,所述试题库模块为扫描仪、高拍仪以及智能设备摄像头对试题图像进行采集。
[0011]优选的,所述试题库模块还用于对采集的试题资源数据进行预处理,包括题干以及试题图像储存。
[0012]优选的,所述第一检索模块用于缩小检索范围。
[0013]一种试题检索方法,其特征在于,包括以下步骤:
[0014]S1:采集试题,获取待识别试题,通过第一检索模块对试题获取检索结果集,若检索结果存在该目标试题,则检索结束,若检索结果集不存在该目标试题,则通过第二检索模块进行进一步检索,确认出目标试题;
[0015]S2:获取待识别试题,对所采集的试题图像进行题块切割,将试题题目切割成独立的试题块,用户可选择试题块作为待检索试题;
[0016]S3:文本字数检索,获取ocr识别的试题文本字数,当字数超过预设阈值时,第一检索模块检索的结果有效;
[0017]S4:文本内容检索:获取ocr识别的试题文本,根据试题文本在试题库模块中进行文本相似度匹配,若相似度置信度大于预设阈值时,第一检索模块检索结果有效;
[0018]S5:试题文本字数小于预设阈值时,以试题库模块中试题文本小于所述预设阈值
的结果集作为第一检索模块检索的结果集合;
[0019]S6:试题文本相似度置信度小于预设阈值时,进一步获取相似度大于第二预设阈值的结果集,将所述结果集作为第一检索模块的结果集合;
[0020]S7:第二检索模块检索,获取第一检索模块检索的结果集合试题库模块中的试图图像,根据当前采集的试题图像进行图像相似度匹配,依据匹配结果置信度最高的值为检索结果
[0021]优选的,所述试题库模块对试题进行预处理包括对采集图像展平以及图像校正。
[0022]优选的,所述S3试题题目文本相似度置信度超过一定值时,通过文本题目相似度匹配结果是可信的,以文本相似度最高的作为检索结果。
[0023]优选的,所述S4中文本检索相似度超过80%,则检索的结果时准确可信的。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]1、本专利技术通过有效的结合了文本识别匹配特性及图片相似度匹配特性,在保证了识别正确率的同时也保障了识别的速度,可有效提高用户的搜题使用体验。
[0026]2、本专利技术通过第一检索模块合第二检索模块,能够利用第一检索模块缩小待检索试题的检索范围,从而利用第二检索模块在提高待检索试题检索的准确性。
[0027]3、通过第二检索模块的使用,使得第一检索模块一开始就不使用图像检索,避免图像检索计算量大,让文本检索计算量相对小很多,从而必须先筛选出一个小范围集合后再用文本相似度匹配,保障了识别效率。
具体实施方式
[0028]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]实施例1:
[0030]本专利技术提供一种技术方案:1.一种试题检索系统,包括试题库模块、ocr模块、第一检索模块、第二检索模块;
[0031]试题库模块用于采集试题图像,所述试题库模块为扫描仪、高拍仪以及智能设备摄像头对试题图像进行采集,所述试题库模块还用于对采集的试题资源数据进行预处理,包括题干以及试题图像储存;
[0032]ocr模块用于对待检索的试题图像进行ocr识别;
[0033]第一检索模块用于对待检索试题进行第一检索操作,所述第一检索模块用于缩小检索范围;
[0034]第二检索模块用于对第一检索模块的结果进行第二步骤的检索操作。
[0035]一种试题检索方法,包括以下步骤:
[0036]S1:采集试题,获取待识别试题,所述试题库模块对试题进行预处理包括对采集图像展平以及图像校正,通过第一检索模块对试题获取检索结果集,若检索结果存在该目标试题,则检索结束,若检索结果集不存在该目标试题,则通过第二检索模块进行进一步检索,确认出目标试题;
[0037]S2:获取待识别试题,对所采集的试题图像进行题块切割,将试题题目切割成独立的试题块,用户可选择试题块作为待检索试题;
[0038]S3:文本字数检索,获取ocr识别的试题文本字数,当字数超过预设阈值时,第一检索模块检索的结果有效,试题题目文本相似度置信度超过一定值时,通过文本题目相似度匹配结果是可信的,以文本相似度最高的作为检索结果;
[0039]S4:文本内容检索:获取ocr识别的试题文本,根据试题文本在试题库模块中进行文本相似度匹配,若相似度置信度大于预设阈值时,第一检索模块检索结果有效,文本检索相似度超过80%,则检索的结果时准确可信的。
[0040]实施例2:
[0041]本专利技术提供一种技术方案:1.一种试题检索系统,包括试题库模块、ocr模块、第一检索模块、第二检索模块;
[0042]试题库模块用于采集试题图像,所述试题库模块为扫描仪、高拍仪以及智能设备摄像头对试题图像进行采集,所述试题库模块还用于对采集的试题资源数据进行预处理,包括题干以及试题图像储存;
[0043]ocr模块用于对待检索的试题图像进行ocr识别;
[0044]第一检索模块用于对待检索试题进行第一检索操作,所述第一检索模块用于缩小检索范围;
[0045]第二检索模块用于对第一检索模块的结果进行第二步骤的检索操作。
[0046]一种试题检索方法,包括以下步骤:
[0047]S1:采集试本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种试题检索系统,其特征在于,包括试题库模块、ocr模块、第一检索模块、第二检索模块;试题库模块用于采集试题图像;ocr模块用于对待检索的试题图像进行ocr识别;第一检索模块用于对待检索试题进行第一检索操作;第二检索模块用于对第一检索模块的结果进行第二步骤的检索操作。2.根据权利要求1所述的一种试题检索系统,其特征在于:所述试题库模块为扫描仪、高拍仪以及智能设备摄像头对试题图像进行采集。3.根据权利要求1所述的一种试题检索系统,其特征在于:所述试题库模块还用于对采集的试题资源数据进行预处理,包括题干以及试题图像储存。4.根据权利要求1所述的一种试题检索系统,其特征在于:所述第一检索模块用于缩小检索范围。5.一种利用权利要求1

4任一所述一种试题检索方法,其特征在于,包括以下步骤:S1:采集试题,获取待识别试题,通过第一检索模块对试题获取检索结果集,若检索结果存在该目标试题,则检索结束,若检索结果集不存在该目标试题,则通过第二检索模块进行进一步检索,确认出目标试题;S2:获取待识别试题,对所采集的试题图像进行题块切割,将试题题目切割成独立的试题块,用户可选择试题块作为待检索试题;S3:文本字数检...

【专利技术属性】
技术研发人员:傅元弟林劲吴河林
申请(专利权)人:读书郎教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1