一种用于数学公式识别和抽取方法及系统技术方案

技术编号：39405643 阅读：11 留言：0更新日期：2023-11-19 15:57

本发明专利技术公开了一种用于数学公式识别和抽取方法及系统，方法包括：获取输入的原始文本数据；对所述原始文本数据进行预处理，得到预处理后的文本信息；对预处理后的文本信息采用公式识别抽取方法来抽取数学公式，得到抽取结果；输出抽取结果

全部详细技术资料下载

【技术实现步骤摘要】
一种用于数学公式识别和抽取方法及系统

[0001]本专利技术涉及在线教育
，具体涉及一种用于数学公式识别和抽取方法及系统
。

技术介绍

[0002]数学公式抽取是一项具有挑战性的任务，也是一项具有实际意义的任务
。
在在线教育领域中，从用户作答的纯文本文字中识别并抽取数学公式，是智能阅卷任务中核心的一环
。
例如“20
×2年初乙公司股权价值＝
20
×1年末乙公司股权价值＝
350
×
90
％
×
(1+7
％
)/(11
％
‑7％
)
＝
8426.25(
万元
)”，“20
×
2”表示的是年份而不是“20
乘以
2”，“＝
20
×
1”表示的是年份而不是“20
乘以
1”，“＝
350
×
90
％
×
(1+7
％
)/(11
％
‑7％
)
＝
8426.25(
万元
)”是一个正确的公式
。
并且用户作答通常是不规范的，系统固然可以通过“20
×1年”中的“年”字来判断“20
×
1”的含义，但是当用户没有写明“年”这类关键字
(
词
)
时，判断“2...

【技术保护点】

【技术特征摘要】
1.
一种用于数学公式识别和抽取方法，其特征在于，包括：获取输入的原始文本数据；对所述原始文本数据进行预处理，得到预处理后的文本信息；对预处理后的文本信息采用公式识别抽取方法来抽取数学公式，得到抽取结果；输出抽取结果
。2.
如权利要求1所述的方法，其特征在于，所述对原始文本数据进行预处理的具体方法包括：将所述原始文本数据中连续的数字或符号分别组合成一组得到分割后的文本；将分割后的文本进行合并处理，将汉字还原并在相应的位置添加“＝”，得到合并后的数据；将所述合并后的数据中的公式分组，确定合并后的数据中的计算过程和结果之间的关系；将公式中的符号转化为计算机可识别的数学运算符
。3.
如权利要求2所述的方法，其特征在于，所述将原始文本中连续的数字或符号分别组合成一组的具体方法包括：将所述原始文本输入数据按汉字进行切分分割，遍历文本的每一个字符，将连续的非汉字构造成组，将汉字替换为空，得到分割后的文本
。4.
如权利要求3所述的方法，其特征在于，所述将分割后的文本进行合并处理的具体方法包括：在合并过程中，使用第一指针指向分组前字符串的每个元素，使用第二指针指向分组后列表中的每个元素，初始化一个新的空字符串用于存储合并后的文本，如果第二指针指向的元素为空，说明在分组前字符串的对应位置上是一个汉字，则将新的空字符串与分组前字符串中当前的字符进行拼接，如果第二指针指向的元素非空，且该元素中含有有效的计算符号，且不以“＝”开头，则在第二指针指向的元素前面添加“＝”后，将新的空字符串与该元素进行拼接
。5.
如权利要求4所述的方法，其特征在于，所述将合并后的数据中的公式分组的具体方法包括：将合并后的数据用“＝”分割得到多个片段，若片段中存在系数，将系数转换成可计算的公式后进行分割，得到若干公式分组
。6.
如权利要求5所述的方法，其特征在于，所述对预处理后的文本信息采用公式识别抽取方法来抽取数学公式的具体方法包括：依次识别单位

【专利技术属性】
技术研发人员：刘琛，陈旭阳，杨旭川，
申请(专利权)人：重庆觉晓科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人