【技术实现步骤摘要】
数学公式识别方法及装置
本专利技术涉及自然语言处理领域,具体涉及一种数学公式识别方法及装置。
技术介绍
随着互联网的不断普及和互联网技术的迅速发展,传统的教育模式也在逐渐发生改变,信息、在线化、智能化等辅助教学手段正在向传统教育领域渗透,并逐步获得广大教师、家长和学生的认可。在以考试为主要评价方式的教育模式下,试题是学生巩固所学知识和教育者评价学生水平的基础数据资源,因此,试题资源的构建显得尤为重要。试题资源构建时,需要对大量包含公式的数据进行解析,判断试题的难度、给出试题的答案等,因此如何准确地将公式字符从数据中识别出来具有重大意义。现有方法在进行文本解析时,一般不单独对数学公式进行识别,而是直接将公式字符作为普通字符进行处理,如文本“若f(x)=x+1”中既包含非公式字符“若”,又包含公式字符“f(x)=x+1”,进行文本解析时,直接将公式字符看作普通字符进行分词处理或者按照固定的规则将文本字符与公式字符拆分开。然而,由于公式字符中存在大量歧义字符,如“ax+b”中的字符“ax”和字符“b”,既可以作为英文字符,也可以作为公式字符,如果不进行公式字符的识别,很 ...
【技术保护点】
一种数学公式识别方法,其特征在于,包括:预先构建公式识别模型;接收待识别文本;提取待识别文本中各字符的公式识别特征;利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式。
【技术特征摘要】
1.一种数学公式识别方法,其特征在于,包括:预先构建公式识别模型;接收待识别文本;提取待识别文本中各字符的公式识别特征;利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式。2.根据权利要求1所述的方法,其特征在于,所述构建公式识别模型包括:收集设定数量包含公式的文本数据作为训练数据;提取所述训练数据中各字符的公式识别特征及公式标注特征;利用所述公式识别特征及公式标注特征训练公式识别模型。3.根据权利要求2所述的方法,其特征在于,所述提取所述训练数据中各字符的公式识别特征包括:采用滑动窗口的方法,依次以当前字符为中心移动滑动窗口;提取窗口内每个字符的特征信息及当前字符的上下文模式特征作为当前字符的公式识别特征,所述上下文模式特征用于描述当前字符前后括号的匹配情况。4.根据权利要求2所述的方法,其特征在于,所述公式识别模型采用分类模型表征。5.根据权利要求1至4任一项所述的方法,其特征在于,所述利用提取的公式识别特征及预先构建的公式识别模型对待识别文本进行公式识别,得到识别出的公式包括:在待识别文本的开始和结束分别添加一个开始状态和一个结束状态,并列出待识别文本中所有字符可能的识别结果,每个字符为一个状态,得到待识别文本的状态图;采用动态规划方法在所述状态图中查找后验概率最大的路径作为最优路径,各路径的后验概率是将该路径上的所有字符的公式识别特征输入所述公式识别模型得到的;根据最优路径上每个字符的取值得到待识别文本中的公式。6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:采用列表方式展示所述识别出的公式;或者在所述待识别文本中标识所述识别出的公式。7.根据权利要求6所述的方法,其特征在于,所述在所述待识别文本中标识所述识别出的公式包括:改变所述待识别文本中识别出的公式的颜色;或者使用线条标识所述待识别文本中识别出的公式。8.一种数学公式识别装置,其特征在于,包括...
【专利技术属性】
技术研发人员:刘青文,张丹,邓晓栋,胡国平,胡郁,刘庆峰,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。