The embodiment of the disclosure discloses a text processing method, device, device and storage medium, the method includes: obtaining the text location information contained in the text to be divided into blocks, determining at least one text line and the text line location information of the text line according to the text location information, determining the segmentation line information contained in the text to be divided into blocks according to the text line location information The setting information and the segmentation line information determine the target distance between the text lines, cluster the text lines according to the target distance, and determine at least one text block of the text to be segmented according to the clustering result of the text lines. The method provided by the embodiment of the disclosure divides the text into blocks according to the text position information and the segmentation line information, simplifies the text dividing process, and improves the accuracy of the text dividing result.
【技术实现步骤摘要】
一种文本处理方法、装置、设备及存储介质
本公开实施例涉及信息
,尤其涉及一种文本处理方法、装置、设备及存储介质。
技术介绍
可移植文档格式(PortableDocumentFormat,PDF)是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。PDF文件能很好的还原文档样式,但因其主要目的为保证渲染结果,导致内容的结构信息被忽略。因而PDF文档内容间的逻辑结构或语义结构无法直接获取,所以难以很好地结构化。如果不对PDF文档做文本分块,直接抽取文字会有顺序错乱的问题。因此需要将文字区域框出,保证区块内部文字顺序正确。再按照从上到下,从左到右的顺序排列区块。因此文本分块是PDF文档结构化的基础。目前,文本分块方法包括通过页面元素的横纵坐标,将二维平面分割问题转化为一维字符串解析问题,然后是规则将相应的元素进行区分的分块方法,按照形状运算的分割算法,泰森多边形(Voronoi)算法,约束游程算法或者基于深度学习的区域检测算法等。但是目前的文本分块方法需要设置大量规则和参数,识别结果准确性不高,或标注大量数据进行训练,过程繁琐。
技术实现思路
本公开提供一种文本处理方法、装置、设备及存储介质,以实现简化文本分块过程,提高文本分块结果的准确度。第一方面,本公开实施例提供了一种文本处理方法,包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;根据所述目标距离将所述文本行进行聚类,根据所述文本 ...
【技术保护点】
1.一种文本处理方法,其特征在于,包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待分块文本中包含的文字位置信息,根据所述文字位置信息确定至少一个文本行以及所述文本行的文本行位置信息;确定所述待分块文本中包含的分割线信息,根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离;根据所述目标距离将所述文本行进行聚类,根据所述文本行的聚类结果确定所述待分块文本的至少一个文本块。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本行位置信息以及所述分割线信息确定文本行之间的目标距离,包括:根据所述文本行位置信息确定文本行之间的空间距离;根据所述文本行位置信息以及所述分割线信息确定文本行之间的分割距离,所述分割距离为所述文本行之间存在的分割点数量;根据所述空间距离以及所述分割距离确定文本行之间的目标距离。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本行位置信息以及所述分割线信息确定文本行之间的分割距离,包括:根据所述文本行位置信息确定分割点识别范围;获取所述分割点识别范围内像素点的像素值,将所述分割点识别范围内像素点的像素值大于设定阈值的像素点个数作为所述分割距离。4.根据权利要求2所述的方法,其特征在于,所述根据所述空间距离以及所述分割距离确定文本行之间的目标距离,包括:将所述空间距离与所述分割距离进行加权求和,得到所述目标距离。5.根据权利要求1所述的方法,其特征在于,所述确定所述待分块文本中包含的分割线信息,包括:将所述待分块文本中文本行之外的其他区域转化为图片格式,并将转化得到的图片进行灰度化,得到灰度图片;将所述灰度图片中与所述待分块文本位置信息对应的区域内的像素点的像素值进行填充,得到待检测图片;通过边缘检测...
【专利技术属性】
技术研发人员:张航,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。