一种版式文档的段落识别方法、装置及电子设备制造方法及图纸

技术编号:36210691 阅读:17 留言:0更新日期:2023-01-04 12:06
本申请的实施例公开了一种版式文档的段落识别方法、装置及电子设备,涉及计算机应用技术领域,为能够识别版式文档的段落,便于对版式文档进行二次编辑,提高用户体验而发明专利技术。所述方法,包括:确定文体对象中的各文本行;判断各文本行中的第一文本行中相邻文本对象之间的间距是否小于第一预设阈值,若是,则将第一文本行中相邻文本对象组合成第一文本块;判断各文本行中的第二文本行中相邻文本对象之间的间距是否小于第一预设阈值,若是,则将第二文本行中相邻文本对象组合成第二文本块;判断第二文本块与第一文本块之间的行间距是否小于第二预设阈值,若是,则确定第二文本块与第一文本块属于同一文本段。本申请适用于对版式文档进行二次编辑。式文档进行二次编辑。式文档进行二次编辑。

【技术实现步骤摘要】
一种版式文档的段落识别方法、装置及电子设备


[0001]本申请涉及计算机应用
,尤其涉及一种版式文档的段落识别方法、装置、电子设备及可读存储介质。

技术介绍

[0002]文档作为记载信息的载体,在日常生活和工作中经常被用到,其中的版式文档能够实现跨平台、跨系统间的内容无差异展现效果,然而现有技术中,由于无法对版式文档中的段落进行识别,进而导致用户无法对版式文档进行二次编辑,用户体验差。

技术实现思路

[0003]有鉴于此,本申请实施例提供一种版式文档的段落识别方法、装置、电子设备及可读存储介质,能够识别版式文档的段落,便于对版式文档进行二次编辑,提高用户体验。
[0004]第一方面,本申请实施例提供一种版式文档的段落识别方法,包括:加载版式文档当前页中的文本对象;确定所述文体对象中的各文本行;判断所述各文本行中的第一文本行中相邻文本对象之间的间距,是否小于第一预设阈值,若是,则将所述第一文本行中相邻文本对象组合成第一文本块;判断所述各文本行中的第二文本行中相邻文本对象之间的间距,是否小于所述第一预设阈值,若是,则将所述第二文本行中相邻文本对象组合成第二文本块;判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,若是,则确定所述第二文本块与所述第一文本块属于同一文本段。
[0005]根据本申请实施例的一种具体实现方式,所述确定所述文体对象中的各文本行,包括:根据所述文本对象的纵坐标和多个第一预设纵坐标范围,确定所述文本对象中的各文本行;其中,每个第一预设纵坐标范围与一个文本行对应。
[0006]根据本申请实施例的一种具体实现方式,所述判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,包括:根据所述第二文本块中的文本对象的纵坐标和所述第一文本块中的文本对象的纵坐标,确定所述第二文本块与所述第一文本块之间的行间距;判断所述第二文本块与所述第一文本块之间的行间距,是否小于所述第二预设阈值。
[0007]根据本申请实施例的一种具体实现方式,在加载版式文档当前页中的文本对象之后,确定所述文体对象中的各文本行之前,所述方法还包括:确定文本对象的角度是否为零度;若所述文本对象的角度不为零度,则对所述文本对象进行旋转,得到具有第一角度的文本对象;其中,所述第一角度等于零度。
[0008]根据本申请实施例的一种具体实现方式,所述文本对象为两个以上;在确定所述文本对象的角度不为零度之后,所述对所述文本对象进行旋转,得到具有第一角度的文本对象,包括:根据各文本对象的角度和多个第二预设角度范围,将各文本对象进行分组;将分组后的各组文本对象进行旋转,得到具有第一角度的文本对象组。
[0009]第二方面,本申请实施例提供版式文档的段落识别装置,包括:加载模块,用于加
载版式文档当前页中的文本对象;第一确定模块,用于确定所述文体对象中的各文本行;第一组合模块,用于判断所述各文本行中的第一文本行中相邻文本对象之间的间距,是否小于第一预设阈值,若是,则将所述第一文本行中相邻文本对象组合成第一文本块;第二组合模块,用于判断所述各文本行中的第二文本行中相邻文本对象之间的间距,是否小于所述第一预设阈值,若是,则将所述第二文本行中相邻文本对象组合成第二文本块;第二确定模块,用于判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,若是,则确定所述第二文本块与所述第一文本块属于同一文本段。
[0010]根据本申请实施例的一种具体实现方式,所述第一确定模块,具体用于:根据所述文本对象的纵坐标和多个第一预设纵坐标范围,确定所述文本对象中的各文本行;其中,每个第一预设纵坐标范围与一个文本行对应。
[0011]根据本申请实施例的一种具体实现方式,所述第二确定模块,具体用于:根据所述第二文本块中的文本对象的纵坐标和所述第一文本块中的文本对象的纵坐标,确定所述第二文本块与所述第一文本块之间的行间距;判断所述第二文本块与所述第一文本块之间的行间距,是否小于所述第二预设阈值。
[0012]根据本申请实施例的一种具体实现方式,所述装置还包括:第三确定模块,用于在所述加载模块加载版式文档当前页中的文本对象之后,所述第一确定模块确定所述文体对象中的各文本行之前,确定文本对象的角度是否为零度;旋转模块,用于若所述文本对象的角度不为零度,则对所述文本对象进行旋转,得到具有第一角度的文本对象;其中,所述第一角度等于零度。
[0013]根据本申请实施例的一种具体实现方式,所述文本对象为两个以上;所述旋转模块,具体用于:在确定所述文本对象的角度不为零度之后,根据各文本对象的角度和多个第二预设角度范围,将各文本对象进行分组;将分组后的各组文本对象进行旋转,得到具有第一角度的文本对象组。
[0014]第三方面,本申请实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实现方式所述的版式文档的段落识别方法。
[0015]第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一实现方式所述的版式文档的段落识别方法。
[0016]本实施例的版式文档的段落识别方法、装置、电子设备及可读存储介质,首先确定文体对象中的各文本行,再判断所述各文本行中的第一文本行中相邻文本对象之间的间距,是否小于第一预设阈值,若是,则将第一文本行中相邻文本对象组合成第一文本块,以及判断各文本行中的第二文本行中相邻文本对象之间的间距,是否小于所述第一预设阈值,若是,则将第二文本行中相邻文本对象组合成第二文本块,最后,判断第二文本块与第一文本块之间的行间距,是否小于第二预设阈值,若是,则确定第二文本块与第一文本块属于同一文本段,从而将第一文本块中的文本对象和第二文本块中的文本对象确定为属于同一文本段,实现段落的划分,在此基础上,可以对段落中的文本对象进行编辑,本实施例的
段落识别方法的实施,便于对版式文档进行二次编辑,提高版式文档的可用性。
附图说明
[0017]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0018]图1为本申请一实施例提供的版式文档的段落识别方法的流程示意图;
[0019]图2为本申请一具体实施例提供的段落识别后的示意图;
[0020]图3为本申请一实施例提供的版式文档的段落识别装置的结构示意图;
[0021]图4为本申请一实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种版式文档的段落识别方法,其特征在于,包括:加载版式文档当前页中的文本对象;确定所述文体对象中的各文本行;判断所述各文本行中的第一文本行中相邻文本对象之间的间距,是否小于第一预设阈值,若是,则将所述第一文本行中相邻文本对象组合成第一文本块;判断所述各文本行中的第二文本行中相邻文本对象之间的间距,是否小于所述第一预设阈值,若是,则将所述第二文本行中相邻文本对象组合成第二文本块;判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,若是,则确定所述第二文本块与所述第一文本块属于同一文本段。2.根据权利要求1所述的方法,其特征在于,所述确定所述文体对象中的各文本行,包括:根据所述文本对象的纵坐标和多个第一预设纵坐标范围,确定所述文本对象中的各文本行;其中,每个第一预设纵坐标范围与一个文本行对应。3.根据权利要求1所述的方法,其特征在于,所述判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,包括:根据所述第二文本块中的文本对象的纵坐标和所述第一文本块中的文本对象的纵坐标,确定所述第二文本块与所述第一文本块之间的行间距;判断所述第二文本块与所述第一文本块之间的行间距,是否小于所述第二预设阈值。4.根据权利要求1所述的方法,其特征在于,在加载版式文档当前页中的文本对象之后,确定所述文体对象中的各文本行之前,所述方法还包括:确定文本对象的角度是否为零度;若所述文本对象的角度不为零度,则对所述文本对象进行旋转,得到具有第一角度的文本对象;其中,所述第一角度等于零度。5.根据权利要求4所述的方法,其特征在于,所述文本对象为两个以上;在确定所述文本对象的角度不为零度之后,所述对所述文本对象进行旋转,得到具有第一角度的文本对象,包括:根据各文本对象的角度和多个第二预设角度范围,将各文本对象进行分组;将分组后的各组文本对象进行旋转,得到具有第一角度的文本对象组。6.一种版式文档的段落识别装置,其特...

【专利技术属性】
技术研发人员:陈文杰
申请(专利权)人:珠海豹趣科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1