一种基于字符在平面位置信息的分段方法技术

技术编号：39244870 阅读：34 留言：0更新日期：2023-10-30 11:57

本发明专利技术涉及一种基于字符在平面位置信息的分段方法，包括以下步骤：步骤S1、文本位置校正：对文本进行位置校正，以保证文本的位置信息准确无误；步骤S2、文本聚类：对文本进行聚类，将标题文本和内容文本区分开来，利用文字大小、位置、颜色信息进行分析，以识别出标题文本和内容文本；步骤S3、布局分析：通过字符的联通性检测出内容的布局信息，如左右结构、上下结构，这一步骤利用字符的连通性特征和字形信息进行分析，以识别出文本的布局结构；步骤S4、分段识别：根据标点符号以及不同内容的行间距、字间距特征将内容分段，这一步骤利用标点符号、行间距、字间距特征进行分析，以识别出文本的段落结构。本的段落结构。本的段落结构。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于字符在平面位置信息的分段方法

[0001]本专利技术涉及计算机算法
，尤其是涉及一种基于字符在平面位置信息的分段方法。

技术介绍

[0002]目前存在一些基于字符位置信息的文本分段方法，其中比较常见的是基于纵向对齐和水平间距的分段方法。这些方法通常将文本看做是由一系列具有相同字符高度的字符行组成的，然后根据字符行之间的间距和纵向对齐程度将文本分成不同的段落。这些方法通常能够识别出文本的段落结构，但是由于字符行之间的间距不一定始终存在，因此这些方法可能会存在一定的误差。
[0003]现有的技术中，除此之外，还有一些基于文本语义的分段方法，如基于标点符号、段落开头关键词、标题等进行文本分段的方法。这些方法通常能够识别出文本的段落结构，但是需要对文本语义有一定的理解和分析能力，因此可能存在一定的错误率和复杂度。
[0004]另外，还有一些基于机器学习和深度学习的方法，如基于卷积神经网络(CNN)和循环神经网络(RNN)的文本分段方法。这些方法通常能够在一定程度上解决文本分段问题，但是需要大量的训练数据...

【技术保护点】

【技术特征摘要】
1.一种基于字符在平面位置信息的分段方法，其特征在于，包括以下步骤：步骤S1、文本位置校正：对文本进行位置校正，以保证文本的位置信息准确无误；步骤S2、文本聚类：对文本进行聚类，将标题文本和内容文本区分开来，利用文字大小、位置、颜色信息进行分析，以识别出标题文本和内容文本；步骤S3、布局分析：通过字符的联通性检测出内容的布局信息，如左右结构、上下结构，这一步骤利用字符的连通性特征和字形信息进行分析，以识别出文本的布局结构；步骤S4、分段识别：根据标点符号以及不同内容的行间距、字间距特征将内容分段，这一步骤利用标点符号、行间距、字间距特征进行分析，以识别出文本的段落结构。2.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S1中，对于PDF文档等格式的文本，先尝试直接获取文本及对应的位置信息，如果无法获取则将PDF文本转换为图片；对于图片通过OCR识别出文本及对应的位置信息；通过计算文本位置的矩形与水平线之间的角度，将矩形旋转相应的角度，然后对文本进行校正。3.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S2中，统计文字的大小和对应字数、空间上的距离，通过K
‑
Means算法将文字分为A、B两类，若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。4.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S3中，通过文字的联通性检测出内容的布局信息的具体步骤如下：对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记，检查竖直联通的空白区域，如果空白联通区域包含3行及以上文本则将文本分为左右结构；仅考虑内容部分文本，统计...

【专利技术属性】
技术研发人员：肖盼，郑侃炜，
申请(专利权)人：上海互盾信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人