【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种版式文件结构化处理方法。
技术介绍
1、版式文件的内容信息包括文字、图形、图像等,这些内容元素的位置、方向、大小、颜色、形状等的具体排布都存储在文件中,文件中的内容呈现并不会随着环境的不同而变更,因此文件内容的排版效果和页数都是固定的,ofd和pdf都属于典型的版式文档格式。通过对版式文件进行文本识别、信息提取和数据整合,以将分散的信息整合为结构化数据,便于管理和分析,而如何提高数据处理的准确性和一致性,成为相关研究人员关注的热点。
2、公开号为cn118095205a的专利文献公开了一种版式文件的信息提取方法、装置、设备及存储介质,方法包括:接收终端设备发送的提取请求,提取请求中包括有待处理的目标版式文件和目标版式文件的版式类型的信息,目标版式文件为固定排版模式的文件;根据目标版式文件的版式类型的信息,确定目标版式文件对应的目标字段库,目标字段库中包括待提取的目标字段;根据目标字段库中的待提取的目标字段,对目标版式文件进行信息提取,得到目标版式文件对应的结构化字段信息,结构化字段信息中包括
...【技术保护点】
1.一种版式文件结构化处理方法,其特征在于,包括,
2.根据权利要求1所述的版式文件结构化处理方法,其特征在于,对所述图像数据进行轮廓识别包括,
3.根据权利要求2所述的版式文件结构化处理方法,其特征在于,将所述图形的原始灰度值调整为目标灰度值包括,
4.根据权利要求2所述的版式文件结构化处理方法,其特征在于,识别所述中间图像片中的修正边界点包括,
5.根据权利要求4所述的版式文件结构化处理方法,其特征在于,根据判定结果确定对当前初始边界点进行修正处理包括,
6.根据权利要求1所述的版式文件结构化处理方法,其
...【技术特征摘要】
1.一种版式文件结构化处理方法,其特征在于,包括,
2.根据权利要求1所述的版式文件结构化处理方法,其特征在于,对所述图像数据进行轮廓识别包括,
3.根据权利要求2所述的版式文件结构化处理方法,其特征在于,将所述图形的原始灰度值调整为目标灰度值包括,
4.根据权利要求2所述的版式文件结构化处理方法,其特征在于,识别所述中间图像片中的修正边界点包括,
5.根据权利要求4所述的版式文件结构化处理方法,其特征在于,根据判定结果确定对当前初始边界点进行修正处理包括,
6.根据权利要求1所述的版式文件结构化处理方法,其特征在于,根据抽取...
【专利技术属性】
技术研发人员:黄春鹏,王磊,
申请(专利权)人:北京美络克思科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。