一种基于覆盖注意力和位置感知的手写数学公式识别方法技术

技术编号:45837166 阅读:18 留言:0更新日期:2025-07-15 22:43
本发明专利技术公开了一种基于覆盖注意力和位置感知的手写数学公式识别方法,包括:构建位置感知模块,通过弱监督学习生成字符位置图;构建多尺度覆盖注意力模块,优化Transformer解码架构中的注意力计算;将特征图与位置感知图融合,输入Transformer解码器生成LaTeX序列。本发明专利技术通过位置感知模块显式提取字符位置信息,增强模型对复杂数学结构的理解;多尺度覆盖注意力机制减少注意力漂移;采用计数标签的弱监督学习方式降低训练成本,提高模型性能。

【技术实现步骤摘要】

本专利技术涉及手写数学表达式识别,特别是涉及一种基于覆盖注意力和位置感知的手写数学公式识别方法


技术介绍

1、手写数学表达式识别(hmer)是自动评分、纠错系统、办公自动化以及数学公式图像检索等多个应用领域中的核心技术。根据输入数据的不同形式,hmer可分为离线识别和在线识别两类。离线识别的主要任务是从静态的手写数学公式图像中提取并生成相应的latex序列。

2、在实际应用中,hmer面临的主要挑战包括:首先,书写风格的显著差异导致同一符号存在多种表现形式;其次,数学公式的复杂二维布局使得符号间的空间关系难以准确捕捉,这些因素使得从静态图像中精确解析latex序列变得尤其困难,特别是在离线环境下。

3、传统的hmer方法通常采用三步流程:字符分割、字符识别和结构分析。然而,这种方法容易导致误差在处理过程中累积,影响最终识别准确度。例如,li等人提出了一种基于yolov5s的细粒度分割方法,通过目标检测技术提升了符号分割效果。tang等人在此基础上引入了图神经网络,试图通过空间拓扑关联突破单一检测的局限性。该方法通过空间信息聚合的图本文档来自技高网...

【技术保护点】

1.一种基于覆盖注意力和位置感知的手写数学公式识别方法,其特征在于,包括:

2.根据权利要求1所述的基于覆盖注意力和位置感知的手写数学公式识别方法,其特征在于,所述步骤S1构建位置感知模块,具体包括:S101.多尺度特征提取:使用多核卷积策略,具体采用3×3和5×5两种不同大小的卷积核,旨在从输入特征图中提取多尺度、多分辨率的特征信息,有效捕获手写数学符号的细节和整体结构特征;S102.特征增强:引入通道注意力机制SE块,通过自适应调整通道权重,显著提升特征表达能力和区分性,增强模型对手写数学符号的敏感性;S103.位置图生成:利用全连接层将通道数智能压缩到符号类数量C,并通...

【技术特征摘要】

1.一种基于覆盖注意力和位置感知的手写数学公式识别方法,其特征在于,包括:

2.根据权利要求1所述的基于覆盖注意力和位置感知的手写数学公式识别方法,其特征在于,所述步骤s1构建位置感知模块,具体包括:s101.多尺度特征提取:使用多核卷积策略,具体采用3×3和5×5两种不同大小的卷积核,旨在从输入特征图中提取多尺度、多分辨率的特征信息,有效捕获手写数学符号的细节和整体结构特征;s102.特征增强:引入通道注意力机制se块,通过自适应调整通道权重,显著提升特征表达能力和区分性,增强模型对手写数学符号的敏感性;s103.位置图生成:利用全连接层将通道数智能压缩到符号类数量c,并通过s形函数sigmoid精确生成取值范围在(0,1)内的位置感知图,实现对符号空间分布的概率建模;s104.计数向量计算:对生成的位置感知图应用求和池化操作,得到高度浓缩的计数向量,为后续训练阶段提供准确的位置统计信息和约束条件。

3.根据权利要求2所述的基于覆盖注意力和位置感知的手写数学公式识别方法,其特征在于,所述se块的特征增强过程包括:s1021全局平均池化:通过在特征图的空间维度上进行平均池化,获取跨通道的全局语义信息,为后续通道注意力提供压缩表示;s1022非线性变换:采用第一个全连接层结合relu激活函数,引入非线性变换,增强特征的表达能力和非线性建模能力;s1023通道权重生成:利用第二个全连接层和sigmoid函数,自适应...

【专利技术属性】
技术研发人员:付鹏斌温锦鹏杨惠荣
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1