一种公式解析方法技术

技术编号:24331617 阅读:39 留言:0更新日期:2020-05-29 19:51
本发明专利技术提出的一种公式解析方法,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。本发明专利技术提出的一种公式解析方法,通过对字符单元和切割字符的拆分,实现了将公式中每一个字符的单独确认。本发明专利技术是通过将公式拆分为字符,然后通过识别字符还原公式。如此,以字符识别代替公式识别,大大降低了识别难度,同时还提高了识别精度。

A method of formula analysis

【技术实现步骤摘要】
一种公式解析方法
本专利技术涉及文本处理
,尤其涉及一种公式解析方法。
技术介绍
随着互联网的不断普及和互联网技术的迅速发展,信息、在线化、智能化等信息处理手段正在向传统逐渐取代纸质文件。很多文件构建时,需要对大量包含公式的数据进行语义解析,如何准确地对包含数学公式的数据进行语义解析具重大意义。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种公式解析方法。本专利技术提出的一种公式解析方法,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。优选的,逐一识别各字符单元的方式为,将每一个字符单元与预设的字符库中存储的字符逐一进行对比,获取与字符单元相符合的字符作为识别结果。优选的,对切割字符进行识别的方法为:将每一个切割字符与预设的字符库中存储的字符逐一进行对比,获取与切割字符相符合的字符。优选的,根据字符长度对各分离对象进行切割的方法为:根据识别结果,获取标准字符长度,并根据标准字符长度对分离对象进行切割。优选的,标准字符长度为成功识别的各字符单元的平均长度。优选的,根据标准字符长度对分离对象进行切割的方法为:从分离对象的左侧起,逐一切割出长度等于标准字符长度的切割字符;对于剩余的不足一个标准字符长度的部分,获取其长度值,当其长度值与标准字符长度的比值大于或等于预设阈值,则将该剩余部分作为一个切割字符;反之,则放弃该剩余部分。优选的,预设阈值大于或等于0.8。优选的,对于无法识别的切割字符,则根据其在字符单元中的排序,获取位置连续的不能识别的切割字符作为一个组合对象,然后对每一个组合对象,首先以最左侧的切割字符作为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别:如果组合字符识别成功,则将与组合字符相邻的切割字符更新为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别;如果组合字符识别失败,则将组合字符作为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别。优选的,具体包括以下步骤:S1、设置字符库,用于存储字符模型;S2、获取公式,并建立模型参照库,将字符库中的各字符模型根据公式进行格式调整后存储到模型参照库中;S3、根据字符间隙对公式进行切割,获取一个或多个字符单元;S4、将每一个字符单元与模型参照库中各字符模型逐一对比,获取与字符单元相符合的字符模型作为识别结果;S5、判断是否存在没有识别结果的字符单元;否,则根据各字符单元的识别结果组合公式;S6、是,则提取无法识别的字符单元作为分离对象,并根据字符长度对各分离对象进行切割,获得切割字符;S7、将每一个切割字符与模型参照库中各字符模型逐一对比,获取与切割字符相符合的字符模型作为识别结果;S8、判断是否存在没有识别结果的切割字符;否,则根据各字符单元和切割字符的识别结果组合公式;S9、是,则判断没有识别结果的切割字符在字符单元中是否独立存在,是,则输出公式解析失败信息;S10、否,则获取所述没有识别结果的切割字符所在字符单元中位置连续的不能识别的切割字符作为一个组合对象;S11、对每一个组合对象,首先以最左侧的切割字符作为起始字符;S12、将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别:S13、如果组合字符识别成功,则判断组合对象中是否有剩余的切割字符;是,则将与组合字符相邻的切割字符更新为起始字符,然后返回步骤S12;否,则根据各字符单元、切割字符和组合字符的识别结果组合公式;S14、如果组合字符识别失败,则判断组合对象中是否有剩余的切割字符;是,则将组合字符作为起始字符,然后返回步骤S12;否,则输出公式解析失败信息。本专利技术提出的一种公式解析方法,通过对字符单元和切割字符的拆分,实现了将公式中每一个字符的单独确认。本专利技术是通过将公式拆分为字符,然后通过识别字符还原公式。如此,以字符识别代替公式识别,大大降低了识别难度,同时还提高了识别精度。本专利技术中,首先根据字符间隙拆分字符单元,实现了相互独立的字符之间的拆分;同时对于无法识别的字符,根据字符长度进行切割,实现了对于黏连的字符的切分,从而进一步保证了将公式拆分为最小字符单元的精确,保证字符的完全拆分,从而保证字符识别精度。附图说明图1为本专利技术提出的一种公式解析方法流程图;图2为本专利技术提出的另一种公式解析方法流程图。具体实施方式参照图1,本专利技术提出的一种公式解析方法,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。如此,本实施方式中,通过对字符单元和切割字符的拆分,实现了将公式中每一个字符的单独确认。本实施方式中的公式解析方法,是通过将公式拆分为字符,然后通过识别字符还原公式。本实施方式中,以字符识别代替公式识别,大大降低了识别难度,同时还提高了识别精度。本实施方式中,首先根据字符间隙拆分字符单元,实现了相互独立的字符之间的拆分;同时对于无法识别的字符,根据字符长度进行切割,实现了对于黏连的字符的切分,从而进一步保证了将公式拆分为最小字符单元的精确,保证字符的完全拆分,从而保证字符识别精度。本实施方式中,逐一识别各字符单元的方式为,将每一个字符单元与预设的字符库中存储的字符逐一进行对比,获取与字符单元相符合的字符作为识别结果。如果某一个字符单元在字符库中无法匹配到相符合的字符,则判断该字符单元无法识别。同理,对切割字符进行识别的方法为:将每一个切割字符与预设的字符库中存储的字符逐一进行对比,获取与切割字符相符合的字符。如果某一个切割字符在字符库中无法匹配到相符合的字符,则判断该切割字符无法识别。本实施方式中,根据字符长度对各分离对象进行切割的方法为:根据识别结果,获取标准字符长度,并根据标准字符长度对分离对象进行切割。具体的,本实施方式中,标准字符长度为成功识别的各字符单元的平均长度。具体的,本实施方式中,在切割字符单元时,以字符间隙作为切割参照,故而可保证切割出的字符单元中字符的最左点与最右点与边缘之间无间隙,即保证字符单元的长度为字符长度。且,公式编辑过程中,单个字符长度固定,保证了标准字符长度的精确计算。同时,本实施方式中,通过根据标准字符长度切割标准字符,实现了黏连字符的分离,从而方便了后续对标准字符的识别。具体的,本实施方式中,对于不能识别的切割字符,则根据其在字符单元中的排序,获取位置连续的不能识别的切割字符作为一个组合对象,然后对每一个组合对象,首先以最左侧的切割字符作为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别:如果组合字符识别成功本文档来自技高网...

【技术保护点】
1.一种公式解析方法,其特征在于,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。/n

【技术特征摘要】
1.一种公式解析方法,其特征在于,首先根据字符间隙对公式进行切割,获取一个或多个字符单元;然后逐一识别各字符单元,并提取无法识别的字符单元作为分离对象;根据字符长度对各分离对象进行切割,获得切割字符,并对切割字符进行识别。


2.如权利要求1所述的公式解析方法,其特征在于,逐一识别各字符单元的方式为,将每一个字符单元与预设的字符库中存储的字符逐一进行对比,获取与字符单元相符合的字符作为识别结果。


3.如权利要求2所述的公式解析方法,其特征在于,对切割字符进行识别的方法为:将每一个切割字符与预设的字符库中存储的字符逐一进行对比,获取与切割字符相符合的字符。


4.如权利要求1所述的公式解析方法,其特征在于,根据字符长度对各分离对象进行切割的方法为:根据识别结果,获取标准字符长度,并根据标准字符长度对分离对象进行切割。


5.如权利要求4所述的公式解析方法,其特征在于,标准字符长度为成功识别的各字符单元的平均长度。


6.如权利要求4所述的公式解析方法,其特征在于,根据标准字符长度对分离对象进行切割的方法为:从分离对象的左侧起,逐一切割出长度等于标准字符长度的切割字符;对于剩余的不足一个标准字符长度的部分,获取其长度值,当其长度值与标准字符长度的比值大于或等于预设阈值,则将该剩余部分作为一个切割字符;反之,则放弃该剩余部分。


7.如权利要求6所述的公式解析方法,其特征在于,预设阈值大于或等于0.8。


8.如权利要求1至6任一项所述的公式解析方法,其特征在于,对于无法识别的切割字符,则根据其在字符单元中的排序,获取位置连续的不能识别的切割字符作为一个组合对象,然后对每一个组合对象,首先以最左侧的切割字符作为起始字符,然后将起始字符与右侧相邻的切割字符组合,并对组合字符进行识别:如果组合字符识别成功,则将与组合字符相邻的切割字符更新为起始字符...

【专利技术属性】
技术研发人员:董霞李颖齐苗苗
申请(专利权)人:合肥长远知识产权管理有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1