一种文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:22531925 阅读:16 留言:0更新日期:2019-11-13 09:12
本公开实施例公开了一种文本处理方法、装置、设备及存储介质,所述方法包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息,确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离,根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。本公开实施例提供的方法根据文字位置信息以及分割线信息对待分块文本进行分块,简化了文本分块过程,提高了文本分块结果的准确度。

A text processing method, device, equipment and storage medium

The embodiment of the disclosure discloses a text processing method, device, device and storage medium, the method includes: obtaining the text location information contained in the text to be divided into blocks, determining at least one text line and the text line location information of the text line according to the text location information, determining the segmentation line information contained in the text to be divided into blocks according to the text line location information The setting information and the segmentation line information determine the target distance between the text lines, cluster the text lines according to the target distance, and determine at least one text block of the text to be segmented according to the clustering result of the text lines. The method provided by the embodiment of the disclosure divides the text into blocks according to the text position information and the segmentation line information, simplifies the text dividing process, and improves the accuracy of the text dividing result.

【技术实现步骤摘要】
一种文本处理方法、装置、设备及存储介质
本公开实施例涉及信息
,尤其涉及一种文本处理方法、装置、设备及存储介质。
技术介绍
可移植文档格式(PortableDocumentFormat,PDF)是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。PDF文件能很好的还原文档样式,但因其主要目的为保证渲染结果,导致内容的结构信息被忽略。因而PDF文档内容间的逻辑结构或语义结构无法直接获取,所以难以很好地结构化。如果不对PDF文档做文本分块,直接抽取文字会有顺序错乱的问题。因此需要将文字区域框出,保证区块内部文字顺序正确。再按照从上到下,从左到右的顺序排列区块。因此文本分块是PDF文档结构化的基础。目前,文本分块方法包括通过页面元素的横纵坐标,将二维平面分割问题转化为一维字符串解析问题,然后是规则将相应的元素进行区分的分块方法,按照形状运算的分割算法,泰森多边形(Voronoi)算法,约束游程算法或者基于深度学习的区域检测算法等。但是目前的文本分块方法需要设置大量规则和参数,识别结果准确性不高,或标注大量数据进行训练,过程繁琐。
技术实现思路
本公开提供一种文本处理方法、装置、设备及存储介质,以实现简化文本分块过程,提高文本分块结果的准确度。第一方面,本公开实施例提供了一种文本处理方法,包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。第二方面,本公开实施例还提供了一种文本处理装置,包括:文本行确定模块,用于获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;目标距离确定模块,用于根据所述文本行位置信息确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;文本块确定模块,用于根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。第三方面,本公开实施例还提供了终端设备,其特征在于,所述终端设备包括:一个或多个处理装置;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开实施例任一所述的文本处理方法。第四方面,本公开实施例还提供了一种计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一所述的文本处理方法。本公开实施例通过获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息,确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离,根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块,根据文字位置信息以及分割线信息对待分块文本进行分块,简化了文本分块过程,提高了文本分块结果的准确度。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。图1为本公开实施例提供的一种文本处理方法的流程图;图2为本公开实施例提供的一种文本处理方法的流程图;图3a为本公开实施例提供的一种文本处理方法的流程图;图3b为本公开实施例提供的一种文本处理方法中的文本块抽取结果示意图;图3c为本公开实施例提供的一种文本处理方法中的分割图示意图;图3d为本公开实施例提供的一种文本处理方法中的文本行聚类结果示意图;图3e为本公开实施例提供的一种文本处理方法中待分块文本的示意图;图3f为本公开实施例提供的一种文本处理方法中待分块文本的分块结果示意图;图4为本公开实施例提供的一种文本处理装置的结构示意图;图5为本公开实施例提供的一种终端设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。实施例一图1为本公开实施例提供的一种文本处理方法的流程图。本公开实施例可适用于对PDF文本进行文本分块时的情形,该方法可以由文本处理装置来执行,该文本处理装置可以采用软件和/或硬件的方式实现,例如,该文本处理装置可以配置于终端设备中。如图1所示,所述方法包括:S110、获取待分块文本中包含的文字位置信息,根据文字位置信息确定至少一个文本行以及文本行的文本行位置信息。在本公开实施例中,待分块文本可以为PDF文本中包含的一个或多个页面。文字位置信息可以为待分块文本中各个文字的文字坐标。可以理解的是,PDF文本中可以包括文字、图片等元素,且PDF文本的数据流中包含所有元素的元素信息,针对不同的元素类型,其对应的元素信息不同。示例性的,当元素类型为文字时,元素信息可以为坐标、字体、大小等信息,当元素类型为图片时,元素信息可以为坐标、高宽度等信息。通过对PDF文本的数据流进行解析,可以获得每个文字的坐标。示例性的,可以根据元素信息判断元素信息对应的元素是否为文字,当元素信息对应的元素为文字时,获取该元素信息中包含的坐标作为文字坐标。可选的,可以判断元素信息中是否包含“字体”对应的信息,若元素信息中包含“字体”对应的信息,则判定元素信息对应的元素为文字。获取待分块文本中包含的所有文字的文字位置信息后,根据各文字的文字位置信息确定文本行以及文本行的文本行位置信息。可选的,可以根据各文字的文本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离,包括:根据所述文本行位置信息确定文本行之间的空间距离;根据所述文本行位置信息以及所述分割线信息确定文本行之间的分割距离,所述分割距离为所述文本行之间存在的分割点数量;根据所述空间距离以及所述分割距离确定文本行之间的目标距离。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本行位置信息以及所述分割线信息确定文本行之间的分割距离,包括:根据所述文本行位置信息确定分割点识别范围;获取所述分割点识别范围内像素点的像素值,将所述分割点识别范围内像素点的像素值大于设定阈值的像素点个数作为所述分割距离。4.根据权利要求2所述的方法,其特征在于,所述根据所述空间距离以及所述分割距离确定文本行之间的目标距离,包括:将所述空间距离与所述分割距离进行加权求和,得到所述目标距离。5.根据权利要求1所述的方法,其特征在于,所述确定所述待分块文本中包含的分割线信息,包括:将所述待分块文本中文本行之外的其他区域转化为图片格式,并将转化得到的图片进行灰度化,得到灰度图片;将所述灰度图片中与所述待分块文本位置信息对应的区域内的像素点的像素值进行填充,得到待检测图片;通过边缘检测...

【专利技术属性】
技术研发人员:张航
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1