System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于结构化模型的习题抽取方法、系统、设备和介质技术方案_技高网

基于结构化模型的习题抽取方法、系统、设备和介质技术方案

技术编号:40580549 阅读:6 留言:0更新日期:2024-03-06 17:23
本公开涉及基于结构化模型的习题抽取方法、系统、设备和介质,所述方法包括如下步骤:获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域;对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。本公开针对不同的题型定义了不同的输出格式,并在结构化模型的输出中定义每个题型的属性,保证了输出结果的结构化精细程度,同时提高了习题抽取的效率与准确性。

【技术实现步骤摘要】

本公开涉及教育领域,具体涉及基于结构化模型的习题抽取方法、系统、设备和介质


技术介绍

1、在教育领域中,题库是一个重要的教育数据库,无论是日常的作业布置,还是阶段性的考试测试,题库都扮演着重要的角色。这使得如何有效的维护更新题库成为了一个有价值的研究,海量的文档数据需要消耗大量的人力资源来将题目录入的题库。

2、目前在文档信息结构化领域,常见的做法就是先做ocr进行文本检测与识别,再通过一些结构化算法进行信息结构化,通常结构化算法都对输入图像的版面格式有一定的要求。但是在教育领域的习题收录中,上述做法无法满足用户的需求,主要表现在:

3、1、试卷或者教辅中存在大量的数理化公式,文本识别无法识别,只能人工录入。

4、2、试卷或者教辅的版面任意,且存在大量的图片,这将大大降低结构化算法的准确率。

5、3、习题的属性复杂,在抽取时需要明确习题的题型,题号,题干,问题,选项等多种属性。并且题目之间还存在子父级关系,通用的结构化算法结果无法达到如此精细的程度。

6、4、教育场景中学科众多,不同的学科习题题型也不同,在结构化抽取时对不同学科的语义理解也不同,这就导致了大多数的结构化算法需要针对每个学科单独训练模型,不仅大大增加了模型的复杂度与处理时的时间消耗,用户在输入时还需要指定学科,不同的学科数据也无法一并处理。


技术实现思路

1、本公开提供基于结构化模型的习题抽取方法、系统、设备和介质,能够解决因习题内容的属性复杂,使得通用的结构化算法准确率不高,无法保证输出结果的结构化精细程度的问题。为解决上述技术问题,本公开提供如下技术方案:

2、作为本公开实施例的一个方面,提供基于结构化模型的习题抽取方法。

3、包括如下步骤:

4、s10、获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域,所述文本内容包括如下类型中的至少一种:文本或公式;所述图表内容包括如下类型中的至少一种:图片、表格或二维码;

5、s20、对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;

6、s30、将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。

7、可选地,所述对检测出的文本内容进行识别包括文本识别,所述文本识别采用ctc算法与ace算法相结合的方法实现,包括:在训练阶段,采用ctc算法和ace算法分别进行反向传播,引导网络的学习;在推理阶段,只采用ctc算法进行文本识别。

8、可选地,所述对检测出的文本内容进行识别还包括公式识别,所述公式识别采用attention的构架,以resnext101作为特征提取网络,通过注意力机制对特征进行抓取,以预测序列的方式识别文本内容中的公式。

9、可选地,所述排版区域为属于同一段落的文本和公式的区域,通过排版区域的范围判断哪些文本和公式属于同一段落。

10、可选地,所述根据排版规律进行文章拼接,包括:通过位置关系对文本和公式进行排序,根据排版规律,按照从左到右、从上到下的阅读顺序将识别结果拼接为一篇文章。

11、可选地,所述通过位置关系对文本和公式进行排序,包括:在段落内部,对每个文本和公式按照从左到右、从上到下的顺序进行段落内部的排序;在段落外部,按照从左到右、从上到下的阅读顺序的逻辑对段落进行排序。

12、可选地,所述通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果,包括:

13、以transformer为特征提取网络和以rnn为特征提取网络的两轮特征提取网络对拼接完的文章与所述图表内容进行特征提取,得到特征提取结果;

14、对特征提取结果进行结构化分类得到分类结果,所述结构化分类包括标题和题目,所述题目包括题号、题型、题干、选项和附图表,所述附图表为所述图表内容提取得到;

15、将所述分类结果按照逻辑进行组合得到习题精细结构化结果。

16、作为本公开实施例的另一个方面,提供基于结构化模型的习题抽取系统,包括:

17、目标检测模块,获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域,所述文本内容包括如下类型中的至少一种:文本或公式;所述图表内容包括如下类型中的至少一种:图片、表格或二维码;

18、文章拼接模块,对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;

19、结构化处理模块,将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。

20、作为本公开实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于结构化模型的习题抽取方法。

21、作为本公开实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述的基于结构化模型的习题抽取方法。

22、相对于现有技术,本公开的有益效果为:

23、1、本公开在检测阶段,除了检测文本外,还对图像文档中的图片、表格、二维码、以及版面排版的关键信息进行目标检测,这些结果后续用于版面分析,以适应各种不同版面排版的输入。

24、2、结构化算法针对教育场景中的习题进行针对性改造,列举了各种题型,针对不同的题型定义了不同的输出格式,并在结构化模型的输出中定义每个题型的属性,使最后输出的结果结构化精细程度非常高。

25、3、采用了transformer和rnn的构架,使用一个神经网络模型一次性解决9个学科的结构化任务,用户在使用时无需指定输入文档的所属学科。

本文档来自技高网...

【技术保护点】

1.基于结构化模型的习题抽取方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于结构化模型的习题抽取方法,其特征在于,所述对检测出的文本内容进行识别包括文本识别,所述文本识别采用CTC算法与ACE算法相结合的方法实现,包括:在训练阶段,采用CTC算法和ACE算法分别进行反向传播,引导网络的学习;在推理阶段,只采用CTC算法进行文本识别。

3.如权利要求2所述的基于结构化模型的习题抽取方法,其特征在于,所述对检测出的文本内容进行识别还包括公式识别,所述公式识别采用attention的构架,以resnext101作为特征提取网络,通过注意力机制对特征进行抓取,以预测序列的方式识别文本内容中的公式。

4.如权利要求1或3任一项所述的基于结构化模型的习题抽取方法,其特征在于,所述排版区域为属于同一段落的文本和公式的区域,通过排版区域的范围判断哪些文本和公式属于同一段落。

5.如权利要求4所述的基于结构化模型的习题抽取方法,其特征在于,所述根据排版规律进行文章拼接,包括:通过位置关系对文本和公式进行排序,根据排版规律,按照从左到右、从上到下的阅读顺序将识别结果拼接为一篇文章。

6.如权利要求5所述的基于结构化模型的习题抽取方法,其特征在于,所述通过位置关系对文本和公式进行排序,包括:在段落内部,对每个文本和公式按照从左到右、从上到下的顺序进行段落内部的排序;在段落外部,按照从左到右、从上到下的阅读顺序的逻辑对段落进行排序。

7.如权利要求1所述的基于结构化模型的习题抽取方法,其特征在于,所述通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果,包括:

8.基于结构化模型的习题抽取系统,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于结构化模型的习题抽取方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7任一项所述的基于结构化模型的习题抽取方法。

...

【技术特征摘要】

1.基于结构化模型的习题抽取方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于结构化模型的习题抽取方法,其特征在于,所述对检测出的文本内容进行识别包括文本识别,所述文本识别采用ctc算法与ace算法相结合的方法实现,包括:在训练阶段,采用ctc算法和ace算法分别进行反向传播,引导网络的学习;在推理阶段,只采用ctc算法进行文本识别。

3.如权利要求2所述的基于结构化模型的习题抽取方法,其特征在于,所述对检测出的文本内容进行识别还包括公式识别,所述公式识别采用attention的构架,以resnext101作为特征提取网络,通过注意力机制对特征进行抓取,以预测序列的方式识别文本内容中的公式。

4.如权利要求1或3任一项所述的基于结构化模型的习题抽取方法,其特征在于,所述排版区域为属于同一段落的文本和公式的区域,通过排版区域的范围判断哪些文本和公式属于同一段落。

5.如权利要求4所述的基于结构化模型的习题抽取方法,其特征在于,所述根据排版规律进行文章拼接,包括:通过位置关系对文本...

【专利技术属性】
技术研发人员:夏天
申请(专利权)人:北京汉仪创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1