一种公式识别算法制造技术

技术编号:38030537 阅读:15 留言:0更新日期:2023-06-30 10:57
本发明专利技术提供的公式识别算法,包括特征提取模块、特征融合模块、特征编码模块、特征解码模块,以及动态软标签生成模块,算法包括以下步骤:步骤S1,特征提取模块从原始输入图片中提取数学表达式结构、全局上下文特征及局部上下文特征;步骤S2,特征融合模块对特征提取模块得到的全局上下文特征及局部上下文特征进行融合;步骤S3,特征编码模块在融合的特征内部进行全局交互,并根据输入的位置信息确定公式的结构;步骤S4,特征解码模块对特征编码模块压缩后的特征进行解码;步骤S5,动态软标签模块为模型训练提供合理的训练标签。块为模型训练提供合理的训练标签。块为模型训练提供合理的训练标签。

【技术实现步骤摘要】
一种公式识别算法


[0001]本专利技术涉及计算机视觉
,尤其是涉及一种公式识别算法。

技术介绍

[0002]数学作为通用的自然科学语言,在教育、金融、培训等行业发展中有着重要的地位。数学计算表达式作为重要的数学载体,广泛出现在教育教学、科研活动等相关文档中。然而,数学表达式通常以图片的形式出现,不能被数字计算机进行分析处理。因此,需要开发识别技术将数学表达式由图片的形式转化为可编辑、可处理的文字表示,使其能够被数字计算机处理,从而易于输入、修改、传输、分析和搜索数学表达式。基于以上原因,数学表达式识别的研究成为当下热门的研究课题,快速并准确地识别数学表达式,具有现实和长远的意义。
[0003]最早的数学表达式识别算法由Anderson博士于1968年提出,并收到了持续的关注。传统的数学计算表达式识别算法可以归纳为以下三步:数学符号分割,符号识别,以及表达式结构的解析。字符分割是将数学表达式中的字符逐个进行提取和分割,字符识别是将分割出的字符进行理解、分类,表达式结构解析是以字符的空间位置、几何及视觉特征等信息为基础,得到字符间的关联,将识别后的字符按照其空间结构进行排列再现。
[0004]传统的数学表达式识别算法虽然具有较强的可解释性,但往往需要对特征提取进行手工设计,它的识别性能与表达式样本、算法结构紧密相关,推理时间过长。近年来,随着深度学习技术的发展,机器和算法处理复杂任务的能力日益增强。卷积神经网络(CNN)因其对图像的平移、旋转不变性,以及权重共享等优点,已被广泛用于模式识别,逐步渗透到公式识别领域。例如Jiaming Wang于2020年提出基于跨模态注意力机制机型手写数学表达式识别的模型。
[0005]卷积神经网络虽然在模式识别领域大放异彩,其感受野通常受网络深度、宽度的限制,随着输入图片尺寸的升高,卷积神经网络有限的感受野难以捕捉图片全局上下文线索,导致一定的性能损失。2017年,Google提出Transformer架构,在自然语言处理领域取得广泛传播和应用,其关键结构自注意力机制,可以捕捉单词间的长距离关系,非常适合以序列为输入的自然语言处理任务。近年来,逐渐有工作将其引入计算机视觉领域,例如2020年Yingnan Fu提出的EDSL算法将Transformer引入公式识别任务,提出位置注意力模块,提升网络对字符位置的感知能力,从而准确把握字符间的语义及位置信息的关联,相比卷积神经网络的方法得到了巨大的提升。
[0006]然而,由于数学表达式的字符间存在固有的语义关联,因此充分挖掘字符间的上下文关系对表达式识别任务来说是非常关键的。然而EDSL算法对于字符间的上下文信息提取并不充分,原因主要有以下两点:一是不充分的局部上下文线索,例如底数和指数之间应该有指数符号“^”,然而,EDSL算法采用连通域分析算法将每个字符进行独立切分,并分别作为网络的输入进行特征提取,这破坏了相邻字符间的局部连接;二是不充分的全局上下文线索,EDSL算法仅对单个字符进行特征提取,忽视了包含所有字符的完整数学表达式的
信息。局部及全局上下文的不充分利用导致EDSL对于复杂数学表达式具有一系列的漏检、误检,对结构复杂的数学表达式识别准确率低等问题,这对数学表达式的后续应用造成一定困扰。

技术实现思路

[0007]基于此,有必要提出一种能够充分提取、利用数学表达式全局和局部上下文信息的识别算法,以达到准确的数学表达式识别效果。
[0008]本专利技术提供一种公式识别算法,包括特征提取模块、特征融合模块、特征编码模块、特征解码模块,以及动态软标签生成模块,算法包括以下步骤:
[0009]步骤S1,特征提取模块从原始输入图片中提取数学表达式结构、全局上下文特征及局部上下文特征;
[0010]步骤S2,特征融合模块对特征提取模块得到的全局上下文特征及局部上下文特征进行融合;
[0011]步骤S3,特征编码模块在融合的特征内部进行全局交互,并根据输入的位置信息确定公式的结构;
[0012]步骤S4,特征解码模块对特征编码模块压缩后的特征进行解码;
[0013]步骤S5,动态软标签模块为模型训练提供合理的训练标签。
[0014]优选的,特征提取模块采用双分支网络结构,分别提取数学表达式的全局上下文信息和局部上下文信息。
[0015]优选的,双分支网络结构由卷积神经网络及激活函数构成。
[0016]优选的,步骤S2包括以下步骤:
[0017]步骤S21,将由特征提取模块提取的局部上下文特征记为L,全局上下文特征记为G;
[0018]步骤S22,对局部上下文特征和全局上下文特征进行特征对齐:
[0019][0020]其中g进一步对全局上下文信息进行变换。f是一个相似度度量函数,以交互的方式计算L
i
和G
j
之间的关系权重,输出特征y与局部特征L尺寸一致。最后对y进行归一化,C(L)为局部上下文L的特征维度;
[0021]步骤S23,将对齐的全局上下文y与局部上下文L进行通道维度的拼接融合:
[0022]z
i
=Conv1×1[L
i
,y
i
][0023]其中z
i
表示输出的融合后的特征,[
·
,
·
]表示通道级连接,采用尺寸为1的卷积核进行通道的融合。
[0024]优选的,特征编码模块采用Transformer结构的编码器,由六个编码层构成,每层解码器都包括一个多头注意力机制,以及一个前馈神经网络和特征归一化模块。
[0025]优选的,根据权利要求1的公式识别算法,其特征在于,动态软标签模块利用模型产生的预测捕捉类别之间的关系并在训练阶段更新软标签。
[0026]本专利技术提供的公式识别算法,包括特征提取模块、特征融合模块、特征编码模块、特征解码模块,以及动态软标签生成模块,算法包括以下步骤:步骤S1,特征提取模块从原
始输入图片中提取数学表达式结构、全局上下文特征及局部上下文特征;步骤S2,特征融合模块对特征提取模块得到的全局上下文特征及局部上下文特征进行融合;步骤S3,特征编码模块在融合的特征内部进行全局交互,并根据输入的位置信息确定公式的结构;步骤S4,特征解码模块对特征编码模块压缩后的特征进行解码;步骤S5,动态软标签模块为模型训练提供合理的训练标签。通过本专利技术的局部全局双分支上下文提取网络,以及特征融合、编解码、动态软标签模块,可完成对数学表达式的准确识别,缓解表达式的漏检、误检等情况的发生,为后续应用提供可靠识别准确率保障。
附图说明
[0027]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公式识别算法,包括特征提取模块、特征融合模块、特征编码模块、特征解码模块,以及动态软标签生成模块,其特征在于,所述算法包括以下步骤:步骤S1,所述特征提取模块从原始输入图片中提取数学表达式结构、全局上下文特征及局部上下文特征;步骤S2,所述特征融合模块对所述特征提取模块得到的所述全局上下文特征及所述局部上下文特征进行融合;步骤S3,所述特征编码模块在所述融合的特征内部进行全局交互,并根据输入的位置信息确定公式的结构;步骤S4,所述特征解码模块对所述特征编码模块压缩后的特征进行解码;步骤S5,所述动态软标签模块为模型训练提供合理的训练标签。2.根据权利要求1所述的公式识别算法,其特征在于,所述特征提取模块采用双分支网络结构,分别提取数学表达式的所述全局上下文信息和所述局部上下文信息。3.根据权利要求2所述的公式识别算法,其特征在于,所述双分支网络结构由卷积神经网络及激活函数构成。4.根据权利要求1所述的公式识别算法,其特征在于,所述步骤S2包括以下步骤:步骤S21,将由所述特征提取模块提取的所述局部上下文特征记为L,所述全局上下文特征记为G;步骤S22,对所述局部上下文特...

【专利技术属性】
技术研发人员:朱跃生王宇晴翁振宇
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1