一种用于数学公式识别和抽取方法及系统技术方案

技术编号:39405643 阅读:11 留言:0更新日期:2023-11-19 15:57
本发明专利技术公开了一种用于数学公式识别和抽取方法及系统,方法包括:获取输入的原始文本数据;对所述原始文本数据进行预处理,得到预处理后的文本信息;对预处理后的文本信息采用公式识别抽取方法来抽取数学公式,得到抽取结果;输出抽取结果

【技术实现步骤摘要】
一种用于数学公式识别和抽取方法及系统


[0001]本专利技术涉及在线教育
,具体涉及一种用于数学公式识别和抽取方法及系统


技术介绍

[0002]数学公式抽取是一项具有挑战性的任务,也是一项具有实际意义的任务

在在线教育领域中,从用户作答的纯文本文字中识别并抽取数学公式,是智能阅卷任务中核心的一环

例如“20
×2年初乙公司股权价值=
20
×1年末乙公司股权价值=
350
×
90

×
(1+7

)/(11

‑7%
)

8426.25(
万元
)”,“20
×
2”表示的是年份而不是“20
乘以
2”,“=
20
×
1”表示的是年份而不是“20
乘以
1”,“=
350
×
90

×
(1+7

)/(11

‑7%
)

8426.25(
万元
)”是一个正确的公式

并且用户作答通常是不规范的,系统固然可以通过“20
×1年”中的“年”字来判断“20
×
1”的含义,但是当用户没有写明“年”这类关键字
(

)
时,判断“20
×
1”含义的难度相当大

[0003]当前主要的解决方法可归结为以下三类:基于规则的方法

基于模板的方法和基于机器学习的方法

[0004]1、
基于规则的方法:基于规则的方法主要依赖预定义的规则,通过匹配这些规则来抽取数学公式

例如,可以通过匹配
LaTeX
代码的特定模式来识别公式

通过正则表达式匹配符合预定义模式的公式

基于规则的方法也是最常用的方法

[0005]优点:这种方法在处理符合预定义规则的公式时效果较好,实现相对简单,匹配速度很快

[0006]缺点:由于数学公式的多样性和复杂性,定义全面的规则十分困难

此外,这种方法对于非标准的公式或新的公式形式适应性差,无法很好地处理

[0007]2、
基于模板的方法:基于模板的方法则主要依赖预定义的模板,对符合模板结构的公式进行抽取

这种方法通常需要专家对公式的结构进行深入分析,创建精细的公式模板

[0008]优点:对于符合模板的公式,这种方法能够准确地抽取和解析

[0009]缺点:由于需要专家进行模板创建,工作量大且耗时

同时,对于不符合模板的公式,这种方法无法有效处理

此外,新出现的公式形式需要重新设计模板,灵活性和适应性较差

[0010]3、
基于机器学习的方法:基于机器学习的方法主要是利用机器学习算法,自动学习公式的特征和结构,进行公式抽取

此类方法大都使用深度学习技术,例如使用命名实体识别
(Named Entity Recognition)
进行公式位置的识别

[0011]优点:这种方法可以自动地学习公式的特征,无需手动定义规则或模板,能够处理更复杂的公式,对新的公式形式具有一定的泛化能力

[0012]缺点:此类方法需要大量标注的数据进行训练,且训练过程计算复杂度高,耗时且耗资源

同时,深度学习模型往往需要更精细的调参和优化

[0013]综上所述,尽管现有技术在一定程度上实现了数学公式的抽取,但仍存在一些问题和不足,例如:抽取的准确性和效率,公式的适应性等

因此,研究和开发一种新的数学公式抽取方法是十分必要的


技术实现思路

[0014]针对现有技术中的缺陷,本专利技术提供的一种用于数学公式识别和抽取方法及系统,能准确提高数学公式抽取的准确性和适应性,并且抽取效率高,提高处理大量文本的效率

[0015]第一方面,本专利技术实施例提供的一种用于数学公式识别和抽取方法,包括:
[0016]获取输入的原始文本数据;
[0017]对所述原始文本数据进行预处理,得到预处理后的文本信息;
[0018]对预处理后的文本信息采用公式识别抽取方法来抽取数学公式,得到抽取结果;
[0019]输出抽取结果

[0020]第二方面,本专利技术实施例提供的一种用于数学公式识别和抽取系统,包括:数据获取模块

预处理模块

公式抽取模块和结果输出模块;
[0021]所述数据获取模块用于获取输入的原始文本数据;
[0022]所述预处理模块用于对所述原始文本数据进行预处理,得到预处理后的文本信息;
[0023]所述公式抽取模块对预处理后的文本信息采用公式识别抽取方法来抽取数学公式,得到抽取结果;
[0024]所述结果输出模块用于输出抽取结果

[0025]本专利技术的有益效果:
[0026]本专利技术实施例提供的一种用于数学公式识别和抽取方法,具有以下显著的效果和优点:
[0027]高准确率:能够有效地识别和抽取出文本中的数学公式,包括复杂的数学符号和结构,大幅提高公式抽取的准确性

[0028]高适应性:不仅能处理常见类型和格式的数学公式,还能处理未见过的或非标准的公式

通过引入机器学习技术,使模型具有更强的泛化能力,能够适应各种复杂情况

[0029]高效率:优化了抽取流程,减少了冗余计算,有效提高了抽取效率

尤其在处理大规模文本时,能显著降低处理时间

[0030]本专利技术实施例提供的一种用于数学公式识别和抽取系统,与上述用于数学公式识别和抽取方法具有相同的构思,除了具有相同的效果外,还具有易于扩展的优点:设计具有很好的模块化特性,可以方便地与其他系统或模块结合,如可以结合自然语言处理系统进行深层次的文本分析和处理

附图说明
[0031]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍

在所有附图中,类似的元件或部分一般由类似的附图标记标识

附图中,各元件或部分并不一定按照实际的比例绘制

[0032]图1示出了本专利技术第一实施例所提供的一种用于数学公式识别和抽取方法的流程图;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用于数学公式识别和抽取方法,其特征在于,包括:获取输入的原始文本数据;对所述原始文本数据进行预处理,得到预处理后的文本信息;对预处理后的文本信息采用公式识别抽取方法来抽取数学公式,得到抽取结果;输出抽取结果
。2.
如权利要求1所述的方法,其特征在于,所述对原始文本数据进行预处理的具体方法包括:将所述原始文本数据中连续的数字或符号分别组合成一组得到分割后的文本;将分割后的文本进行合并处理,将汉字还原并在相应的位置添加“=”,得到合并后的数据;将所述合并后的数据中的公式分组,确定合并后的数据中的计算过程和结果之间的关系;将公式中的符号转化为计算机可识别的数学运算符
。3.
如权利要求2所述的方法,其特征在于,所述将原始文本中连续的数字或符号分别组合成一组的具体方法包括:将所述原始文本输入数据按汉字进行切分分割,遍历文本的每一个字符,将连续的非汉字构造成组,将汉字替换为空,得到分割后的文本
。4.
如权利要求3所述的方法,其特征在于,所述将分割后的文本进行合并处理的具体方法包括:在合并过程中,使用第一指针指向分组前字符串的每个元素,使用第二指针指向分组后列表中的每个元素,初始化一个新的空字符串用于存储合并后的文本,如果第二指针指向的元素为空,说明在分组前字符串的对应位置上是一个汉字,则将新的空字符串与分组前字符串中当前的字符进行拼接,如果第二指针指向的元素非空,且该元素中含有有效的计算符号,且不以“=”开头,则在第二指针指向的元素前面添加“=”后,将新的空字符串与该元素进行拼接
。5.
如权利要求4所述的方法,其特征在于,所述将合并后的数据中的公式分组的具体方法包括:将合并后的数据用“=”分割得到多个片段,若片段中存在系数,将系数转换成可计算的公式后进行分割,得到若干公式分组
。6.
如权利要求5所述的方法,其特征在于,所述对预处理后的文本信息采用公式识别抽取方法来抽取数学公式的具体方法包括:依次识别单位

【专利技术属性】
技术研发人员:刘琛陈旭阳杨旭川
申请(专利权)人:重庆觉晓科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1