【技术实现步骤摘要】
一种PDF文档布局检测方法、装置、设备及介质
[0001]本专利技术涉及计算机视觉
,特别涉及一种PDF文档布局检测方法、装置、设备及介质。
技术介绍
[0002]当前,随着信息化的发展,越来越多的办公场合使用便携式文档格式PDF(Portable Document Format)电子文档进行沟通交流,该格式文件将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,集成度和安全可靠性都较高,这一特点使它成为在网络上进行电子文档发行和数字化信息传播的理想文档格式。
[0003]虽然这些电子文档便于使用和传播,但由于理解文档布局和使用这种格式提取信息很复杂,并且PDF文档的语言不同(中文、英文等)、排版格式不同、文档格式不同(扫描型、文本型)、字体类型和字号大小不同、行业领域不同等原因,实现统一的文档布局检测具有十分的难度和挑战,因此很难自动处理和检测这些文档。现有的PDF文档解析工具在一定程度上可以实现文档布局检测,但现有算法大多针对某一特定类型PDF文档数据进行训练,如:英文论文、中文期刊, ...
【技术保护点】
【技术特征摘要】
1.一种PDF文档布局检测方法,其特征在于,包括:获取各类预设内容、预设格式和预设语言的历史PDF文档,并将所述历史PDF文档对应的全部页面转化为图片;根据预设标注框对所述图片中的目标对象进行标注得到已标注图片以及对应的目标标注信息;所述目标标注信息包含目标标注类别和目标标注位置坐标;根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练以得到训练模型;所述目标检测点网络为基于图片中的关键点进行目标检测的网络;将待检测PDF文档输入所述训练模型以对所述待检测PDF文档行布局检测。2.根据权利要求1所述的PDF文档布局检测方法,其特征在于,所述根据所述已标注图片以及对应的所述目标标注信息对目标检测点网络进行训练,包括:将所述已标注图片划分至训练集得到训练图片,并将所述目标标注信息作为所述训练集的预设格式的训练标签;根据所述训练图片以及所述训练标签对所述目标检测点网络进行训练。3.根据权利要求2所述的PDF文档布局检测方法,其特征在于,所述根据所述训练图片以及所述训练标签对所述目标检测点网络进行训练,包括:对所述训练图片进行预处理得到预处理后图片;将所述预处理后图片以及所述训练标签输入所述目标检测点网络中的MobileNet
‑
V2基础网络,以便所述MobileNet
‑
V2基础网络对所述预处理后图片进行特征提取得到不同初始特征图;将所述不同初始特征图输入所述目标检测点网络中的特征金字塔网络,以便所述特征金字塔基于预设通道数量的输出通道得到不同强化后特征图;检测所述目标对象的中心点以及预设点数量的边界点,并将所述中心点和所述边界点作为用于构成目标检测框的关键点,然后基于所述目标检测框对所述强化后特征图进行目标检测,并输出目标检测信息。4.根据权利要求3所述的PDF文档布局检测方法,其特征在于,所述对所述训练图片进行预处理得到预处理后图片,包括:将所述训练图片的边长调整至预设长度范围得到调整后训练图片,并对所述调整后训练图片的RGB三通道进行归一化处理得到处理后训练图片,然后对所述处理后训练图片进行填充处理和随机水平翻转得到预处理后图片。5.根据权利要求3所述的PDF文档布局检测方法,其特征在于,所述基于所述目标检测框对所述强化后特征图进行目标检测,并输出目标检测信息,包括:以所述强化后特征图的每一个像素点为中心,预测所述目标对象中所述关键点的回归前偏移量,并基于所述回归前偏移量进行第一卷积运算完成第一阶段偏移量回归得到回归后偏移量,然后基于所述强化后特征图和所述回归后偏移量进行第二卷积运算得到新特征图,将所述新特征图输入分类层得到类别得分图;所述类别得分图中标明目标检测类别;基于所述新特征图进行第一卷积运算以完成第二阶段偏移量回归,并将所述第一阶段偏移量和所述第二阶段偏移量进行结合以得到目标偏移量,然后基于所述目标偏移量确定目标位置坐标;输出包含所述目标检测类别和所述目标位置坐标的目标检测信息。
6.根据权利要求5所述的PDF文档布局检测方法,其特征在于,所述根据所述已标注图片以及对应...
【专利技术属性】
技术研发人员:祝蕾,吴杰,
申请(专利权)人:成都卫士通信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。