公式主体定位方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:24853607 阅读:21 留言:0更新日期:2020-07-10 19:07
本发明专利技术提供一种公式主体定位方法、装置、设备及计算机可读存储介质,方法包括:获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。

【技术实现步骤摘要】
公式主体定位方法、装置、设备及计算机可读存储介质
本专利技术涉及数字出版领域,尤其涉及一种公式主体定位方法、装置、设备及计算机可读存储介质。
技术介绍
现有的电子文档中一般除了文本以外,还包括公式等内容,因此,在对电子文档进行处理的过程中,还需要对电子文档中的公式进行定位以及识别。现有的公式识别方法一般都是对电子文档进行识别,确定公式所在的位置,对该位置的公式进行整体定位。但是,对于电子文档中的公式而言,由于在布局上存在条件、分段、二维、嵌套等关系,因此,采用上述定位方法定位效果欠佳。举例来说,大量文献中的公式带有后续处理无用的符号信息;而对于多行公式或者方程组公式,整体定位结果不易于检索;对于内嵌公式来说,定位结果中往往包含上下文信息;一些复杂文档中存在图表形式的伪公式,因此,针对上述情况来说,采用整体定位公式的方法获得的公式中往往包含较多的噪声。
技术实现思路
本专利技术提供一种公式主体定位方法、装置、设备及计算机可读存储介质,用于解决现有的公式识别方法定位效果欠佳,获得的公式中往往包含较多的噪声的技术问题。本专利技术的第一个方面是提供一种公式主体定位方法,包括:获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。本专利技术的另一个方面是提供一种公式主体定位装置,包括:获取模块,用于获取初步定位获得的公式整体数据;分割模块,用于对所述公式整体数据进行分割,获得至少一行公式行数据;聚类模块,用于针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除模块,用于去除所述待选公式主体中的非公式主体信息,获得所述公式主体。本专利技术的又一个方面是提供一种公式主体定位设备,包括:存储器,处理器;存储器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为由所述处理器执行如上述的公式主体定位方法。本专利技术的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的公式主体定位方法。本专利技术提供的公式主体定位方法、装置、设备及计算机可读存储介质,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的公式主体定位方法的流程示意图;图2为本专利技术实施例二提供的公式主体定位方法的流程示意图;图3为本专利技术实施例提供的公式整体数据图;图4为本专利技术实施例提供的分行后的公式行数据图;图5为本专利技术实施例三提供的公式主体定位方法的流程示意图;图6为本专利技术实施例提供的连通域提取图;图7为本专利技术提供的连通域合并图;图8为本专利技术实施例四提供的公式主体定位方法的流程示意图;图9为本专利技术实施例五提供的公式主体定位装置的结构示意图;图10为本专利技术实施例六提供的公式主体定位设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例所获得的所有其他实施例,都属于本专利技术保护的范围。现有的公式识别方法一般都是对电子文档进行识别,确定公式所在的位置,对该位置的公式进行整体定位。但是,对于电子文档中的公式而言,由于在布局上存在条件、分段、二维、嵌套等关系,因此,采用上述定位方法定位效果欠佳。举例来说,大量文献中的公式带有后续处理无用的符号信息;而对于多行公式或者方程组公式,整体定位结果不易于检索;对于内嵌公式来说,定位结果中往往包含上下文信息;一些复杂文档中存在图表形式的伪公式,因此,针对上述情况来说,采用整体定位公式的方法获得的公式中往往包含较多的噪声。为了解决上述技术问题,本专利技术提供了一种公式主体定位方法、装置、设备及计算机可读存储介质。需要说明的是,本申请提供公式主体定位方法、装置、设备及计算机可读存储介质可运用在对各种文件进行公式定位的场景中。图1为本专利技术实施例一提供的公式主体定位方法的流程示意图,如图1所示,所述方法包括:步骤101、获取初步定位获得的公式整体数据;步骤102、对所述公式整体数据进行分割,获得至少一行公式行数据;步骤103、针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;步骤104、去除所述待选公式主体中的非公式主体信息,获得所述公式主体。本实施例的执行主体为公式主体定位装置。公式主体定位装置可以获取初步定位获得的公式整体数据,其中,该公式整体数据中可以包括多个公式主体以及非公式主体信息等,该公式整体数据的获取可以采用现有任意一种公式定位方法,本专利技术在此不做限制。获取到公式整体数据之后,由于现有的公式定位方法往往存在噪声,因此,为了提高后续公式定位精度,首先,需要对该公式整体数据进行预处理,其中,预处理包括滤波去躁、二值化以及倾斜矫正等。由于公式整体数据中包括至少一行、至少一个公式主体,因此,为了实现对每一个公式主体的定位,首先需要对该公式整体数据进行分割,将其分割为至少一行公式行数据。可以理解的是,每一行公式行数据中也可以包括至少一个公式主体,因此,针对每一个公式行数据,可以对其进行聚类操作,获取至少一个待选公式主体。需要说明的是,由于待选公式主体中可能包括非公式主体信息,其中,该非公式主体信息可以包括条件词汇以及其他文本,因此,需要对待选公式主体中的非公式主体信息进行去除,获得公式主体。通过上述方法,能够获得至少一个独立的公式主体,从而便于后续的检索以及识别步骤。本实施例提供的公式主体定位方法,通过获取初步定位获得的公式整体数据;对所述公式整体数据进行分割,获得至少一行公式行数据;针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;去除所述待选公式主体中的非公式主体信息,获得所述公式主体。从而能够精准地定位到公式主体信息,噪声较低,便于后续的检索、识别操作。图2为本专利技术实施例二提供的公式主体定位方法的流程示意图,图3为本专利技术实施例提供的公式整本文档来自技高网...

【技术保护点】
1.一种公式主体定位方法,其特征在于,包括:/n获取初步定位获得的公式整体数据;/n对所述公式整体数据进行分割,获得至少一行公式行数据;/n针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;/n去除所述待选公式主体中的非公式主体信息,获得所述公式主体。/n

【技术特征摘要】
1.一种公式主体定位方法,其特征在于,包括:
获取初步定位获得的公式整体数据;
对所述公式整体数据进行分割,获得至少一行公式行数据;
针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体;
去除所述待选公式主体中的非公式主体信息,获得所述公式主体。


2.根据权利要求1所述的方法,其特征在于,所述对所述公式整体数据进行分割,获得至少一行公式行数据,包括:
对所述公式整体数据进行水平投影;
对水平投影值大于预设的合并阈值的公式整体数据进行分割,获得分割后的公式整体数据;
计算所述分割后的公式主体数据的投影区间间隔,将投影区间间隔小于预设的分割阈值的分割后的公式主体数据进行合并,获得所述至少一行公式行数据。


3.根据权利要求1所述的方法,其特征在于,所述针对每一行公式行数据,对所述公式行数据进行聚类操作,获得至少一个待选公式主体,包括:
针对每一行公式行数据,按照预设的空间顺序,从所述公式行数据中选取初始种子像素;
针对各初始种子像素,将与所述初始种子像素相邻并与所述初始种子像素具有相同性质的像素以及所述初始种子像素进行连通,获得至少一个连通域;
针对任意两个连通域,判断所述任意两个连通域的几何中心距离是否小于预设的阈值;
若是,则合并所述任意两个连通域,获得至少一个待选公式主体。


4.根据权利要求1所述的方法,其特征在于,所述去除所述待选公式主体中的非公式主体信息,获得所述公式主体,包括:
将所述待选公式主体与预设的条件词汇表进行比对,判断所述待选公式主体中是否包含所述条件词汇表中的任一条件词汇;
若是,则对所述待选公式主体中的条件词汇进行去除。


5.根据权利要求1所述的方法,其特征在于,所述去除所述待选公式主体中的非公式主体信息,获得所述公式主体,包括:
根据所述各待选公式主体中数据的外形以及内容特征,确定所述待选公式主体中的公式主体以及非公式主体信息;

【专利技术属性】
技术研发人员:陈一帆颜钦钦高良才汤帜
申请(专利权)人:北大方正集团有限公司北大方正信息产业集团有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1