System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于模式识别领域,更具体地,涉及一种题目提示的手写作答数学公式识别方法及系统。
技术介绍
1、手写数学公式具有书写风格多样、符号种类繁多、二维结构复杂等特点,这些特点使得手写数学公式识别任务变得十分具有挑战性。由于学生特别是中小学生的笔迹还未发展成熟,书写经常呈现潦草、不规范等特征,与一般场景相比,教育作答场景中的手写数学公式识别更加困难。
2、数学公式识别的研究起源于19世纪60年代。在早期阶段,研究人员提出的方法通常遵循符号分割、符号识别和结构分析的流程。该流程首先产生一组符号假设,然后利用语法解析技术生成有效的数学表达式。这类方法不仅存在误差累积问题,还需要手动设计大量的语法产生式。近年来,随着深度学习技术的快速发展,编码器-解码器框架在手写数学公式识别领域得到了广泛的探索。研究人员将手写数学公式识别视为一项图像到序列的任务,直接将手写数学公式图像转录为相应的latex标记序列。基于编码器-解码器的方法得益于端到端可训练的特点,在性能上大大优于传统方法。
3、针对数学公式识别所提出的解决方案整体上可以分为三类:顺序解决方案、集成解决方案、基于端到端可训练的神经网络的解决方案。在顺序解决方案中,符号分割、符号识别与结构分析被假设为独立的任务。但是,该假设与三个任务之间是相互依赖的关系这一事实相矛盾。为了解决这一矛盾,研究者们开始转向研究集成解决方案。此类方案利用上下文信息(此处指语法知识)来引导符号的分割和识别,从而避免生成不符合语法规则的数学公式。然而集成方案需要针对不同的数据集人工设计大
4、目前,手写数学公式识别的主流方法为第三类方法。这类方法多基于编码器-解码器框架,将数学公式识别视为一个图像到序列的任务,取得了非常出色的结果。总的来说,这些基于深度学习的方法要么致力于优化编码器或解码器,要么试图引入计数信息或语法规则等附加信息来提高识别精度。然而,这些方法都无法解决教育作答场景中由于书写潦草、不规范而引起的识别歧义问题。
技术实现思路
1、针对现有技术的以上缺陷或改进需求,本专利技术提供了一种题目提示的手写作答数学公式识别方法及系统,可以提高手写作答数学公式识别的准确率。
2、为实现上述目的,按照本专利技术的一个方面,提供了一种题目提示的手写作答数学公式识别方法,包括步骤:
3、获得手写作答数学公式图像,从所述手写作答数学公式图像中提取视觉特征,识别所述手写作答数学公式图像对应的题目,从所述题目中提取第一题目文本特征;
4、采用缩放点积注意力机制从所述第一题目文本特征中提取与所述视觉特征相关的第二题目文本特征,将所述视觉特征与所述第二题目文本特征进行特征融合,获得融合特征;
5、采用具有注意力机制的gru解码器,对所述融合特征进行解码,输出公式标记序列。
6、进一步地,采用densenet网络从所述手写作答数学公式图像中提取所述视觉特征。
7、进一步地,所述提取第一题目文本特征包括步骤:
8、识别所述题目中包含的数学符号和数学公式,将识别结果记为qm,采用嵌入矩阵乘以qm,获得所述第一题目文本特征。
9、进一步地,所述采用缩放点积注意力机制从所述第一题目文本特征中提取与所述视觉特征相关的第二题目文本特征包括步骤:以所述视觉特征为查询向量,以所述第一题目文本特征作为键值和属性值,计算与所述视觉特征相关的第二题目文本特征,计算公式为:
10、q=wq(f)
11、k=wk(l)
12、v=wv(l)
13、z=attention(q,k,v)
14、其中,wq,wk,wv均为投影函数,f为所述视觉特征,l为所述第一题目文本特征,attention(·)表示注意力函数,z为所述第二题目文本特征。
15、进一步地,采用门控单元来控制所述视觉特征与所述的第二题目文本特征的特征融合,计算公式为:
16、ff=g(z)⊙z+f
17、其中,⊙表示逐元素乘法,g(·)表示所述门控单元,ff表示所述融合特征,z表示所述第二题目文本特征,f表示所述视觉特征。
18、进一步地,所述门控单元包括两层感知器,第一层为线性层和relu非线性激活函数,第二层为线性层和tanh激活函数。
19、按照本专利技术的另一方面,提供了一种题目提示的手写作答数学公式识别系统,包括:
20、特征提取模块,用于获取手写作答数学公式图像,从所述手写作答数学公式图像中提取视觉特征,识别所述手写作答数学公式图像对应的题目,从所述题目中提取第一题目文本特征;
21、特征融合模块,用于采用缩放点积注意力机制从所述第一题目文本特征中提取与所述视觉特征相关的第二题目文本特征,将所述视觉特征与所述第二题目文本特征进行特征融合,获得融合特征;
22、解码模块,用于采用具有注意力机制的gru解码器,对所述融合特征进行解码,输出公式标记序列。
23、进一步地,所述特征提取模块包括题目文本特征提取模块,用于识别所述题目中包含的数学符号和数学公式,将识别结果记为qm,采用嵌入矩阵乘以qm,获得所述第一题目文本特征。
24、进一步地,所述采用缩放点积注意力机制从所述第一题目文本特征中提取与所述视觉特征相关的第二题目文本特征包括步骤:以所述视觉特征为查询向量,以所述第一题目文本特征作为键值和属性值,计算与所述视觉特征相关的第二题目文本特征,计算公式为:
25、q=wq(f)
26、k=wk(l)
27、v=wv(l)
28、z=attention(q,k,v)
29、其中,wq,wk,wv为投影函数,f为所述视觉特征为查询向量,l为所述第一题目文本特征,attention(·)表示注意力函数,z为所述第二题目文本特征。
30、进一步地,所述特征融合模块包括门控单元,所述门控单元用于控制所述视觉特征与所述的第二题目文本特征的特征融合,计算公式为:
31、ff=g(z)⊙z+f
32、其中,⊙表示逐元素乘法,g(·)表示门控机制,ff表示所述融合特征,z表示所述第二题目文本特征,f表示所述视觉特征。
33、总体而言,本专利技术所构思的以上技术方案与现有技术相比,基于题目和作答之间存在的强相关性,提出了一种手写作答数学公式识别方法,通过在编码阶段引入题目信息,解决了现有的基于编码器-解码器框架的方法中存在的不能有效利用题目文本信息的问题,从而提高手写作答数学公式识别的准确率,实现从图像到标记语言(latex)的直接有效转录。
本文档来自技高网...【技术保护点】
1.一种题目提示的手写作答数学公式识别方法,其特征在于,包括步骤:
2.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,采用DenseNet网络从所述手写作答数学公式图像中提取所述视觉特征。
3.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,所述提取第一题目文本特征包括步骤:
4.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,所述采用缩放点积注意力机制从所述第一题目文本特征中提取与所述视觉特征相关的第二题目文本特征包括步骤:以所述视觉特征为查询向量,以所述第一题目文本特征作为键值和属性值,计算与所述视觉特征相关的第二题目文本特征,计算公式为:
5.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,采用门控单元来控制所述视觉特征与所述的第二题目文本特征的特征融合,计算公式为:
6.如权利要求5所述的题目提示的手写作答数学公式识别方法,其特征在于,所述门控单元包括两层感知器,第一层为线性层和ReLU非线性激活函数,第二层为线性层和Tanh激活函数。
...【技术特征摘要】
1.一种题目提示的手写作答数学公式识别方法,其特征在于,包括步骤:
2.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,采用densenet网络从所述手写作答数学公式图像中提取所述视觉特征。
3.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,所述提取第一题目文本特征包括步骤:
4.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,所述采用缩放点积注意力机制从所述第一题目文本特征中提取与所述视觉特征相关的第二题目文本特征包括步骤:以所述视觉特征为查询向量,以所述第一题目文本特征作为键值和属性值,计算与所述视觉特征相关的第二题目文本特征,计算公式为:
5.如权利要求1所述的题目提示的手写作答数学公式识别方法,其特征在于,采用门控单元来控制所述视觉特征与所述的第二题目文本特征的特征融合,计算公式为:
6.如权利要求5所述的题目提示的手写作答数学公式识别方法,其特征在于,所述门控单元包...
【专利技术属性】
技术研发人员:张婷,靳欣欣,赵以洋,彭信子,刘金正,
申请(专利权)人:华中师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。