一种版式文件结构化处理方法技术

技术编号:42637255 阅读:47 留言:0更新日期:2024-09-06 01:35
本发明专利技术涉及计算机技术领域,尤其涉及一种版式文件结构化处理方法。该方法包括导入待处理版式文件;形成实体关系组;形成对应的表结构进行储存,将半结构化数据转化为结构化数据;检测修正。本发明专利技术通过对导入的各种格式的版式文件进行解析,以识别版式文件中的半结构化数据,以将半结构化数据转换为结构化数据,通过对半结构化数据进行文本提取,以提取关键信息,通过将识别的实体与拆分的图像片进行匹配,找出与实体相关联的图像片,将匹配的图像片与文本数据段以及对应的实体关系存储为图结构,通过图结构清晰地表示文本数据段、实体、实体关系和关联的图像片之间的关系,方便进一步的分析和查询,提高数据的管理和分析效率。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种版式文件结构化处理方法


技术介绍

1、版式文件的内容信息包括文字、图形、图像等,这些内容元素的位置、方向、大小、颜色、形状等的具体排布都存储在文件中,文件中的内容呈现并不会随着环境的不同而变更,因此文件内容的排版效果和页数都是固定的,ofd和pdf都属于典型的版式文档格式。通过对版式文件进行文本识别、信息提取和数据整合,以将分散的信息整合为结构化数据,便于管理和分析,而如何提高数据处理的准确性和一致性,成为相关研究人员关注的热点。

2、公开号为cn118095205a的专利文献公开了一种版式文件的信息提取方法、装置、设备及存储介质,方法包括:接收终端设备发送的提取请求,提取请求中包括有待处理的目标版式文件和目标版式文件的版式类型的信息,目标版式文件为固定排版模式的文件;根据目标版式文件的版式类型的信息,确定目标版式文件对应的目标字段库,目标字段库中包括待提取的目标字段;根据目标字段库中的待提取的目标字段,对目标版式文件进行信息提取,得到目标版式文件对应的结构化字段信息,结构化字段信息中包括待提取的目标字段和从本文档来自技高网...

【技术保护点】

1.一种版式文件结构化处理方法,其特征在于,包括,

2.根据权利要求1所述的版式文件结构化处理方法,其特征在于,对所述图像数据进行轮廓识别包括,

3.根据权利要求2所述的版式文件结构化处理方法,其特征在于,将所述图形的原始灰度值调整为目标灰度值包括,

4.根据权利要求2所述的版式文件结构化处理方法,其特征在于,识别所述中间图像片中的修正边界点包括,

5.根据权利要求4所述的版式文件结构化处理方法,其特征在于,根据判定结果确定对当前初始边界点进行修正处理包括,

6.根据权利要求1所述的版式文件结构化处理方法,其特征在于,根据抽取结...

【技术特征摘要】

1.一种版式文件结构化处理方法,其特征在于,包括,

2.根据权利要求1所述的版式文件结构化处理方法,其特征在于,对所述图像数据进行轮廓识别包括,

3.根据权利要求2所述的版式文件结构化处理方法,其特征在于,将所述图形的原始灰度值调整为目标灰度值包括,

4.根据权利要求2所述的版式文件结构化处理方法,其特征在于,识别所述中间图像片中的修正边界点包括,

5.根据权利要求4所述的版式文件结构化处理方法,其特征在于,根据判定结果确定对当前初始边界点进行修正处理包括,

6.根据权利要求1所述的版式文件结构化处理方法,其特征在于,根据抽取...

【专利技术属性】
技术研发人员:黄春鹏王磊
申请(专利权)人:北京美络克思科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1