一种PDF文件的对象识别处理方法及装置制造方法及图纸

技术编号:22364501 阅读:60 留言:0更新日期:2019-10-23 04:49
本发明专利技术实施例公开了一种PDF文件的对象识别处理方法及装置,方法包括:将PDF文件的当前页面转换为待识别图像并进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;识别背景图像中的表格和图片,并根据识别到的表格和图片对背景图像进行自动化标记,得到标记图像;将标记图像输入训练好的深度学习模型中,得到深度学习模型输出的带有对象识别结果的识别图像。通过对待识别图像进行灰度转换处理、二值化处理和闭合处理,进行图像背景的识别;通过预设规则识别背景图像中的表格和图片并进行标记,最后通过训练好的深度学习模型输出的带有对象识别结果的识别图像,不仅快速简单、节约了大量人工标注的人力成本,而且识别准确率高。

An object recognition method and device for PDF file

【技术实现步骤摘要】
一种PDF文件的对象识别处理方法及装置
本专利技术涉及计算机
,具体涉及一种PDF文件的对象识别处理方法及装置。
技术介绍
PDF(PortableDocumentFormat,便携式文档格式)是一种独立于硬件、操作系统和应用程序的电子文档格式。由于其具有跨平台、多媒体集成、安全等优点,PDF已成为目前使用最为广泛的电子文档格式之一。随着PDF格式文档的应用越来越广泛,大量有价值的数据均以PDF文件的形式进行呈现。因此,如何从PDF文件中提取所需数据,尤其是结构化、半结构化的表格数据和图片,是一个被广泛关注和研究的问题。现有的PDF表格识别工具采用先将PDF文件转换为一种中间格式的文档(如HTML(HyperTextMarkupLanguage,超文本标记语言)、XML(ExtensibleMarkupLanguage,可扩展标记语言)、DOC(Document,文档)等),然后再从这种中间格式的文档中提取出所需要的数据。该方法不仅多引入了一次转换到中间文件的操作,而且转换得到的中间文件难以准确地保持数据在原有PDF文件中的位置和结构,因此不一定能得到准确的表格数据解析结果,从本文档来自技高网...

【技术保护点】
1.一种PDF文件的对象识别处理方法,其特征在于,包括:将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像;其中,所述对象识别结果包括背景、图片、表格和文字。

【技术特征摘要】
1.一种PDF文件的对象识别处理方法,其特征在于,包括:将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理、二值化处理和闭合处理,得到识别背景后的背景图像;根据第一预设规则识别所述背景图像中的表格,根据第二预设规则识别所述背景图像中的图片,并根据识别到的表格和图片对所述背景图像进行自动化标记,得到标记图像;将所述标记图像输入训练好的深度学习模型中,得到所述深度学习模型输出的带有对象识别结果的识别图像;其中,所述对象识别结果包括背景、图片、表格和文字。2.根据权利要求1所述的PDF文件的对象识别处理方法,其特征在于,所述根据第一预设规则识别所述背景图像中的表格,具体包括:根据水平维度和垂直维度对所述背景图像中的目标区域分别进行识别,若识别到格线状对象,则确定所述格线状对象为表格;其中,所述目标区域为所述背景图像中去除背景之后的区域。3.根据权利要求2所述的PDF文件的对象识别处理方法,其特征在于,所述根据第二预设规则识别所述背景图像中的图片,具体包括:若判断所述目标区域的若干子区域之间相连,则分别获取所述若干相连的子区域中横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置,根据所述横坐标最大、横坐标最小、纵坐标最大和纵坐标最小的位置确定包围所述若干相连的子区域的最小区域,并确定所述最小区域对应的对象为图片。4.根据权利要求1所述的PDF文件的对象识别处理方法,其特征在于,所述PDF文件的对象识别处理方法还包括:对所述识别图像中顶部和底部预设区域内识别到的文字进行词频统计,将词频大于预设词频的文字作为页首页尾候选文字,将所述页首页尾候选文字与所述识别图像中部区域的文字进行相似性计算,将相似性大于相似性预设值的文字作为页首页尾文字,并将所述页首页尾文字从所述识别图像识别到的文字中进行删除,得到更新后的识别图像。5.一种PDF文件的对象识别处理装置,其特征在于,包括:背景识别模块,用于将便携式文档格式PDF文件的当前页面转换为图像格式的待识别图像,对所述待识别图像依次进行灰度转换处理...

【专利技术属性】
技术研发人员:罗彤周占文曹德亮赵红军
申请(专利权)人:北京融汇金信信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1