【技术实现步骤摘要】
一种版式文档的段落识别方法、装置及电子设备
[0001]本申请涉及计算机应用
,尤其涉及一种版式文档的段落识别方法、装置、电子设备及可读存储介质。
技术介绍
[0002]文档作为记载信息的载体,在日常生活和工作中经常被用到,其中的版式文档能够实现跨平台、跨系统间的内容无差异展现效果,然而现有技术中,由于无法对版式文档中的段落进行识别,进而导致用户无法对版式文档进行二次编辑,用户体验差。
技术实现思路
[0003]有鉴于此,本申请实施例提供一种版式文档的段落识别方法、装置、电子设备及可读存储介质,能够识别版式文档的段落,便于对版式文档进行二次编辑,提高用户体验。
[0004]第一方面,本申请实施例提供一种版式文档的段落识别方法,包括:加载版式文档当前页中的文本对象;确定所述文体对象中的各文本行;判断所述各文本行中的第一文本行中相邻文本对象之间的间距,是否小于第一预设阈值,若是,则将所述第一文本行中相邻文本对象组合成第一文本块;判断所述各文本行中的第二文本行中相邻文本对象之间的间距,是否小于所述第一 ...
【技术保护点】
【技术特征摘要】
1.一种版式文档的段落识别方法,其特征在于,包括:加载版式文档当前页中的文本对象;确定所述文体对象中的各文本行;判断所述各文本行中的第一文本行中相邻文本对象之间的间距,是否小于第一预设阈值,若是,则将所述第一文本行中相邻文本对象组合成第一文本块;判断所述各文本行中的第二文本行中相邻文本对象之间的间距,是否小于所述第一预设阈值,若是,则将所述第二文本行中相邻文本对象组合成第二文本块;判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,若是,则确定所述第二文本块与所述第一文本块属于同一文本段。2.根据权利要求1所述的方法,其特征在于,所述确定所述文体对象中的各文本行,包括:根据所述文本对象的纵坐标和多个第一预设纵坐标范围,确定所述文本对象中的各文本行;其中,每个第一预设纵坐标范围与一个文本行对应。3.根据权利要求1所述的方法,其特征在于,所述判断所述第二文本块与所述第一文本块之间的行间距,是否小于第二预设阈值,包括:根据所述第二文本块中的文本对象的纵坐标和所述第一文本块中的文本对象的纵坐标,确定所述第二文本块与所述第一文本块之间的行间距;判断所述第二文本块与所述第一文本块之间的行间距,是否小于所述第二预设阈值。4.根据权利要求1所述的方法,其特征在于,在加载版式文档当前页中的文本对象之后,确定所述文体对象中的各文本行之前,所述方法还包括:确定文本对象的角度是否为零度;若所述文本对象的角度不为零度,则对所述文本对象进行旋转,得到具有第一角度的文本对象;其中,所述第一角度等于零度。5.根据权利要求4所述的方法,其特征在于,所述文本对象为两个以上;在确定所述文本对象的角度不为零度之后,所述对所述文本对象进行旋转,得到具有第一角度的文本对象,包括:根据各文本对象的角度和多个第二预设角度范围,将各文本对象进行分组;将分组后的各组文本对象进行旋转,得到具有第一角度的文本对象组。6.一种版式文档的段落识别装置,其特...
【专利技术属性】
技术研发人员:陈文杰,
申请(专利权)人:珠海豹趣科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。