一种PDF文档中文字的分段方法、装置及电子设备制造方法及图纸

技术编号:23625058 阅读:57 留言:0更新日期:2020-03-31 22:47
本发明专利技术实施例提供了一种PDF文档中文字的分段方法、装置及电子设备,方案如下:可以将待分段PDF文档中待分段的连续的三行文字,确定该三行文字中每行文字的位置信息,作为行位置信息,基于三行文字的行位置信息,确定该三行文字中每相邻两行文字之间的位置间隔,作为行间距,当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。通过本发明专利技术实施例提供的方案,可以针对整个PDF文档,以该PDF文档每一行为单位,按照每相邻两行文字之间的行间距对PDF文档进行分段处理,得到分段后的段落,提高了PDF文档分段的准确性。

A segmentation method, device and electronic equipment of text in PDF document

【技术实现步骤摘要】
一种PDF文档中文字的分段方法、装置及电子设备
本专利技术涉及计算机
,特别是涉及一种PDF文档中文字的分段方法、装置及电子设备。
技术介绍
目前对PDF(PortableDocumentFormat,便携文档格式)文档进行分段处理时,往往只能针对某一页面中的内容进行分段。若需要对整个PDF文档进行分段处理,则需要逐一对该PDF文档的每个页面进行分段处理。因此,对于PDF文档中处于两个页面的同一段文字进行分段时,会出现分段偏差。例如,一段文字由两行文字组成段落,一行文字位于PDF文档中第四页的最后一行,另一行文字位于第五页的第一行,在分段时这两行文字将被当作两段文字。除此以外,在对PDF文档中的每个页面进行分段处理时,一般通过计算PDF文档中每个文字组成一个段落的概率,完成对PDF文档的分段。但是在分段过程中,也会出现一定的偏差,例如,一个PDF文档中某一段落仅有一数学公式,对该段进行分段时,由于公式中的每个参数组成一个段落的概率可能存在较大的差异,因此,该公式可能被划分为两段落或者更多段落。由上述方案可知,现有技术对PDF文档进行分段时,分段的准确性存在不足。
技术实现思路
本专利技术实施例的目的在于提供一种PDF文档中文字的分段方法、装置及电子设备,以提高PDF文档分段的准确性。具体技术方案如下:本专利技术实施例提供了一种PDF文档中文字的分段方法,所述方法包括:针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息;基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距;当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中。进一步的,所述三行文字中第一行文字与第二行文字已被划分在同一个段落中;所述方法还包括:当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。进一步的,所述三行文字中第一行文字为一个段落的第一行文字;所述方法还包括:当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第一行文字的末尾字符为预设字符时,在所述三行文字中的第一行文字与第二行文字之间进行分段;当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为所述预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。进一步的,在所述针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息之前,还包括:针对待分段PDF文档中待分段的连续的三行文字,将每一个文字用与该文字相切的矩形区域表示该文字所在的位置,确定所述三行文字中每个文字对应的所述矩形区域的位置信息,作为字位置信息;所述针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息,包括:针对待分段PDF文档中待分段的连续的三行文字,至少根据每一行文字左右两端文字的所述字位置信息,确定该行文字的位置信息,作为行位置信息。进一步的,所述字位置信息至少包括:字上边缘位置信息、字下边缘位置信息、字左边缘位置信息和字右边缘位置信息;所述针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息,包括:针对所述待分段PDF文档中的待分段的连续的三行文字,将每一行文字的最左端文字的所述字上边缘位置信息和所述字左边缘位置信息,以及最右端文字的所述字下边缘位置信息和所述右边缘位置信息,确定为该行文字的位置信息,作为行位置信息。进一步的,所述行位置信息至少包括:行上边缘位置信息和行下边缘位置信息;所述基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距,包括:针对所述三行文字中的每相邻两行文字,基于所述三行文字的所述行位置信息,计算所述两行文字中排列在上的一行文字的所述行下边缘位置信息与排列在下的一行文字的所述行上边缘位置信息之间的差值,得到所述两行文字之间的位置间隔,作为行间距。进一步的,所述行位置信息至少包括:行左边缘位置信息和行右边缘位置信息;在所述当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中之后,还包括:针对所述待分段PDF文档分段后的每个段落,将该段落中每行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较,其中,所述预设段落标准表示针对PDF文档中每个段落,预先设定的关于该段落中每一行文字的左边缘位置和右边缘位置的标准;根据比较的结果,确定是否对所述待分段PDF文档中的段落进行再处理。进一步的,所述再处理表示再分段处理;所述根据比较的结果,确定是否对所述分段PDF文档中的段落进行再处理,包括:针对所述待分段PDF文档分段后的每个段落,若该段落中至少存在一行文字的行左边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落;针对所述待分段PDF文档分段后的每个段落,若该段落中至少存在一行文字的行右边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最右端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。进一步的,所述再处理表示段落合并处理;所述根据比较的结果,确定是否对所述分段PDF文档中的段落进行再处理,包括:针对所述待分段PDF文档分段后的连续的两个段落,若排列在上的段落中最后一行文字的所述行右边缘位置信息不符合所述预设段落标准,对该段落以及排列在下的段落进行段落合并处理,得到合并后的段落;针对所述待分段PDF文档分段后的连续的两个段落,若排列在下的段落中第一行文字的所述行左边缘位置信息不符合所述预设段落标准,对该段落以及排列在上的段落进行段落合并处理,得到合并后的段落。本专利技术实施例还提供了一种PDF文档中文字的分段装置,所述装置包括:行位置信息确定模块,用于针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息;行间距确定模块,用于基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距;段落划分模块,用于当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中。进一步的,所述三行文字中第一行文字与第二行文字已被划分在同一个段落中;所述装置还包括:第一分段模块,用于当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为预设字符时,在所述三行文字中的第二行文本文档来自技高网...

【技术保护点】
1.一种便携文档格式PDF文档中文字的分段方法,其特征在于,包括:/n针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息;/n基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距;/n当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中。/n

【技术特征摘要】
1.一种便携文档格式PDF文档中文字的分段方法,其特征在于,包括:
针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息;
基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距;
当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中。


2.根据权利要求1所述的方法,其特征在于,所述三行文字中第一行文字与第二行文字已被划分在同一个段落中;
所述方法还包括:
当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。


3.根据权利要求1所述的方法,其特征在于,所述三行文字中第一行文字为一个段落的第一行文字;
所述方法还包括:
当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第一行文字的末尾字符为预设字符时,在所述三行文字中的第一行文字与第二行文字之间进行分段;
当所述三行文字中每相邻两行文字之间的所述行间距不相等,且所述三行文字中第二行文字的末尾字符为所述预设字符时,在所述三行文字中的第二行文字与第三行文字之间进行分段。


4.根据权利要求1-3任一所述的方法,其特征在于,在所述针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息之前,还包括:
针对待分段PDF文档中待分段的连续的三行文字,将每一个文字用与该文字相切的矩形区域表示该文字所在的位置,确定所述三行文字中每个文字对应的所述矩形区域的位置信息,作为字位置信息;
所述针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息,包括:
针对待分段PDF文档中待分段的连续的三行文字,至少根据每一行文字左右两端文字的所述字位置信息,确定该行文字的位置信息,作为行位置信息。


5.根据权利要求4所述的方法,其特征在于,所述字位置信息至少包括:字上边缘位置信息、字下边缘位置信息、字左边缘位置信息和字右边缘位置信息;
所述针对待分段PDF文档中待分段的连续的三行文字,确定所述三行文字中每行文字的位置信息,作为行位置信息,包括:
针对所述待分段PDF文档中的待分段的连续的三行文字,将每一行文字的最左端文字的所述字上边缘位置信息和所述字左边缘位置信息,以及最右端文字的所述字下边缘位置信息和所述右边缘位置信息,确定为该行文字的位置信息,作为行位置信息。


6.根据权利要求1-3任一所述的方法,其特征在于,所述行位置信息至少包括:行上边缘位置信息和行下边缘位置信息;
所述基于所述三行文字的所述行位置信息,确定所述三行文字中每相邻两行文字之间的位置间隔,作为行间距,包括:
针对所述三行文字中的每相邻两行文字,基于所述三行文字的所述行位置信息,计算所述两行文字中排列在上的一行文字的所述行下边缘位置信息与排列在下的一行文字的所述行上边缘位置信息之间的差值,得到所述两行文字之间的位置间隔,作为行间距。


7.根据权利要求1-3任一所述的方法,其特征在于,所述行位置信息至少包括:行左边缘位置信息和行右边缘位置信息;
在所述当所述三行文字中每相邻两行文字之间的所述行间距相等时,将所述三行文字划分在同一个段落中之后,还包括:
针对所述待分段PDF文档分段后的每个段落,将该段落中每行文字的行左边缘位置信息,以及行右边缘位置信息与预设段落标准进行比较,其中,所述预设段落标准表示针对PDF文档中每个段落,预先设定的关于该段落中每一行文字的左边缘位置和右边缘位置的标准;
根据比较的结果,确定是否对所述待分段PDF文档中的段落进行再处理。


8.根据权利要求7所述的方法,其特征在于,所述再处理表示再分段处理;
所述根据比较的结果,确定是否对所述分段PDF文档中的段落进行再处理,包括:
针对所述待分段PDF文档分段后的每个段落,若该段落中至少存在一行文字的行左边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最左端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落;
针对所述待分段PDF文档分段后的每个段落,若该段落中至少存在一行文字的行右边缘位置信息不符合所述预设段落标准,将不符合所述预设段落标准对应行的最右端作为段落分段点,对该段落进行再分段处理,得到再分段后的段落。


9.根据权利要求7所述的方法,其特征在于,所述再处理表示段落合并处理;
所述根据比较的结果,确定是否对所述分段PDF文档中的段落进行再处理,包括:
针对所述待分段PDF文档分段后的连续的两个段落,若排列在上的段落中最后一行文字的所述行右边缘位置信息不符合所述预设段落标准,对该段落以及排列在下的段落进行段落合并处理,得到合并后的段落;
针对所述待分段PDF文档分段后的连续的两个段落,若排列在下的段落中第一行文字的所述行左边缘位置信息不符合所述预设段落标准,对该段落以及排列在上...

【专利技术属性】
技术研发人员:邓斌
申请(专利权)人:广州金山移动科技有限公司珠海金山办公软件有限公司北京金山办公软件股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1