【技术实现步骤摘要】
表格处理方法、装置、设备及计算机可读存储介质
本申请涉及计算机
,具体而言,本申请涉及一种表格处理方法、装置、设备及计算机可读存储介质。
技术介绍
PDF(PortableDocumentFormat,可携带文档格式)文件是一种不依赖具体设备,能够高质量的存储和还原页面版式信息的保存形式,在科技文献的发布和存储中广泛使用。PDF文件中版式信息的识别和获取对于判断文本间的语义关联很有帮助,传统的PDF文档解析和处理方法通常将其转换成文本格式TXT,再进行信息抽取。文本格式易于数据交换和解析处理,但原始页面中大量的布局信息将会丢失,尤其是页面中表格的各文本之间相互关系很难再次还原,文本抽取中大量的语义信息无法获取。如何提升PDF文件中表格的文本的识别准确度是有待解决的问题。
技术实现思路
本申请针对现有的方式的缺点,提出一种表格处理方法、装置、设备及计算机可读存储介质,用以解决如何提升PDF文件中表格的文本的识别准确度的问题。第一方面,本申请提供了一种表格处理方法,包括:获取可携带文档格 ...
【技术保护点】
1.一种表格处理方法,其特征在于,包括:/n获取可携带文档格式PDF文件中至少一个表格的线条集合和文本集合;/n根据所述线条集合,确定所述至少一个表格的行距单元格集合和实线行距单元格集合;/n根据所述行距单元格集合和所述实线行距单元格集合,确定合并单元格集合;/n将所述实线行距单元格集合中各实线行距单元格的坐标,以及所述合并单元格集合中各合并单元格的坐标,分别与所述文本集合中各文本的坐标相匹配,确定所述各实线行距单元格对应的文本和所述各合并单元格对应的文本。/n
【技术特征摘要】
1.一种表格处理方法,其特征在于,包括:
获取可携带文档格式PDF文件中至少一个表格的线条集合和文本集合;
根据所述线条集合,确定所述至少一个表格的行距单元格集合和实线行距单元格集合;
根据所述行距单元格集合和所述实线行距单元格集合,确定合并单元格集合;
将所述实线行距单元格集合中各实线行距单元格的坐标,以及所述合并单元格集合中各合并单元格的坐标,分别与所述文本集合中各文本的坐标相匹配,确定所述各实线行距单元格对应的文本和所述各合并单元格对应的文本。
2.根据权利要求1所述的方法,其特征在于,所述线条集合包括横向线条集合和纵向线条集合;所述根据所述线条集合,确定所述至少一个表格的行距单元格集合,包括:
针对一个表格,获取所述一个表格的左边界、右边界、上边界和下边界;
当所述一个表格的横向线条集合中任意两个相邻横向线条之间的纵向坐标差大于预设第一阈值,则将所述任意两个相邻横向线条确定为行间距横线;
根据所述一个表格的左边界、右边界、上边界和下边界,确定所述一个表格的外围边框;
根据所述外围边框和所述横向线条集合中的行间距横线,确定多个行距框;
根据所述多个行距框和所述一个表格的纵向线条集合,确定所述一个表格的行距单元格集合。
3.根据权利要求1所述的方法,其特征在于,所述线条集合包括横向线条集合和纵向线条集合;所述根据所述线条集合,确定所述至少一个表格的实线行距单元格集合,包括:
针对一个表格,当所述一个表格的横向线条集合中的一个横向线条不为所述一个表格的顶线,则根据所述一个横向线条,以及与所述一个横向线条相邻且位于所述一个横向线条上方的横向线条,确定实线区域集合中的一个实线区域;
根据所述实线区域集合以及所述一个表格的纵向线条集合,确定所述一个表格的实线行距单元格集合。
4.根据权利要求3所述的方法,其特征在于,所述一个横向线条的坐标包括第一横向坐标、第一纵向坐标、第一宽度坐标和第一高度坐标,与所述一个横向线条相邻且位于所述一个横向线条上方的横向线条的坐标包括第二横向坐标、第二纵向坐标、第二宽度坐标和第二高度坐标;
所述根据所述一个横向线条,以及与所述一个横向线条相邻且位于所述一个横向线条上方的横向线条,确定实线区域集合中的一个实线区域,包括以下至少一项:
当所述第一宽度坐标大于所述第二宽度坐标,则确定所述一个实线区域的坐标包括所述第二横向坐标、所述第一纵向坐标、所述第二宽度坐标和第三高度坐标,所述第三高度坐标为所述第二纵向坐标与所述第一纵向坐标之间的差;
当所述第二宽度坐标大于所述第一宽度坐标,则确定所述一个实线区域的坐标包括所述第一横向坐标、所述第一纵向坐标、所述第一宽度坐标和所述第三高度坐标。
<...
【专利技术属性】
技术研发人员:许德山,何彦青,吴振峰,徐红娇,兰天,潘优,刘志辉,董诚,
申请(专利权)人:中国科学技术信息研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。