【技术实现步骤摘要】
一种基于字符级特征的印刷体数学公式识别方法
[0001]本专利技术涉及计算机文本识别
,尤其是一种基于字符级特征的印刷体数学公式识别方法。
技术介绍
[0002]数学公式理解被广泛应用在许多智慧教育场景中,包括自动解题、个性化习题推荐、学生学情评估等。由于数学公式通常被保存为印刷体图片的形式,不利于对公式进行编辑、搜索、语义理解等操作。因此,将数学公式印刷体图片转换为结构化表达式(如LaTeX、字符布局树)就成为了一项非常重要的基础工作,这个过程被称为印刷体数学公式识别。与光学字符识别相比(OCR),印刷体数学公式识别不仅需要识别出图片中所有的字符,还需要获取图片中字符之间的空间关系。
[0003]传统的印刷体数学公式识别方法包括字符分割、字符识别和版面分析三个阶段。这不仅需要大量手工定义的规则,还会在不同的任务之间造成错误累积,识别精度不高。随着深度学习的发展,编码器
‑
解码器模型被用于解决图像到文本的生成问题。许多用于看图说话问题的方法被用来完成公式识别任务。尽管和传统方法相比编码器 />‑
解码本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于字符级特征的印刷体数学公式识别方法,其特征在于采用端到端的神经网络架构,使用无监督的图像分割算法提取数学公式的字符级特征,利用位置感知的注意力机制构建字符级位置关系,使模型能够捕捉获二维空间中字符之间的复杂位置关系,印刷体数学公式的识别具体包括如下步骤:(一)、字符级图像特征提取使用无监督的图像分割算法对印刷体数学公式图片进行切分,得到多个字符级图像块,使用神经网络模型对每个图像块进行特征提取,以获得印刷体数学公式的全部字符级图像特征;(二)、字符级位置关系提取计算每个图像块在原始图片中的位置归一化坐标向量,使用神经网络模型对每一个图像块的坐标向量编码得到印刷体数学公式的全部字符级位置特征,将字符级图像特征和字符级位置特征进行结合,并使用带有位置感知的编码器模块提取图像块之间的位置关系,得到印刷体数学公式图片的字符级特征;(三)、LaTeX序列解码使用一个能够捕获长距离文本信息的解码器,对上一步得到的印刷体数学公式图片的字符级特征进行解码,并输出图片的LaTeX序列;(四)、模型训练使用不同阈值的无监督图像分割算法对图片进行数据增强,定义一个损失函数,使用优化器训练神经网络模型,直至损失函数收敛,得到印刷体数学公式图片的LaTeX序列。2.根据权利要求1所述的基于字符级特征的印刷体数学公式识别的方法,其特征在于所述字符级图像特征提取步骤中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。