一种不可编辑文档的结构化方法和装置制造方法及图纸

技术编号:36469630 阅读:36 留言:0更新日期:2023-01-25 23:11
本发明专利技术涉及信息处理技术领域,提供了一种不可编辑文档的结构化方法和装置,包括获取待处理的不可编辑文档;对待处理的不可编辑文档进行转码和行对齐;通过预先构建的行分类模型确定待处理的不可编辑文档中每行各自所对应多个属性标签的概率,并将概率处于第一高位的属性标签作为行的类别属性;根据各行的类别属性,对待处理的不可编辑文档进行行分类校准和分表;对待处理的不可编辑文档进行列对齐,并输出待处理的不可编辑文档的结构化结果。采用本发明专利技术的不可编辑文档的结构化方法,能够自动输出不可编辑文档的结构化结果,高效快捷,便于后续分析。于后续分析。于后续分析。

【技术实现步骤摘要】
一种不可编辑文档的结构化方法和装置


[0001]本专利技术一般涉及信息处理
,具体涉及一种不可编辑文档的结构化方法和装置。

技术介绍

[0002]体检报告(Medical Examination Report)是指对人的身体进行检查,并根据身体反应数据而生成的不可编辑的格式文档。目前,相关技术中不可编辑文档的格式主要为PDF,这会导致计算机无法分析该不可编辑文档,具有局限性。
[0003]常见的,例如,公开号为CN115391516A的中国专利申请,提出一种非结构化文档提取方法,接收输入的目标文档信息,从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与目标文档类型信息匹配的若干目标文档元胞列矩阵;基于各目标文档元胞矩阵对应的文档提取分数值,提取目标文档;而该矩阵模型相对比较繁复,因此,急需一种能够快速、有效的将不可编辑文档结构化,并将结构化的结果转化为可编辑文档的方法。

技术实现思路

[0004]鉴于相关技术中的上述缺陷或不足,期望提供一种不可编辑文档的结构化方法和装置,能够对体检报告等不可编辑文档进行结构化处理,便本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种不可编辑文档的结构化方法,其特征在于,所述方法包括:获取待处理的不可编辑文档;对所述待处理的不可编辑文档进行转码和行对齐;通过预先构建的行分类模型确定所述待处理的不可编辑文档中每行各自所对应的多个属性标签的概率,并将概率最高的属性标签作为所述行的类别属性;根据各所述行的类别属性,对所述待处理的不可编辑文档进行行分类校准和分表;对所述待处理的不可编辑文档进行列对齐,并输出所述待处理的不可编辑文档的结构化结果。2.根据权利要求1所述的一种不可编辑文档的结构化方法,其特征在于,所述对所述待处理的不可编辑文档进行转码和行对齐,包括:将所述待处理的不可编辑文档转换为图片;识别所述图片中每个字符和/或字符块以及各所述字符和/或字符块的坐标;根据所述每个字符和/或字符块以及各所述字符和/或字符块的坐标,分别将处于同行的所述字符块合并为一行,其中所述处于同行的所述字符块之间使用间隔特征符拼接。3.根据权利要求2所述的一种不可编辑文档的结构化方法,其特征在于,所述根据所述每个字符和/或字符块以及各所述字符和/或字符块的坐标,分别将处于同行的所述字符块合并为一行,还包括:检测各所述字符之间的距离;当所述距离小于预设阈值时,将所述字符组合形成新字符块,并计算所述新字符块的坐标。4.根据权利要求1所述的一种不可编辑文档的结构化方法,其特征在于,所述根据各所述行的类别属性,对所述待处理的不可编辑文档进行行分类校准的步骤包括:若相邻两行均为第一类别属性,并且该第一类别属性不应同时出现于相邻的两行,则比较两行的第一类别属性的属性标签的概率,将第一类别属性的属性标签的概率高的行确定为分类正确的行,并将第一类别属性的属性标签的概率低的行所对应的概率第二高的属性标签作为该行的新的类别属性;若相邻两行分别为第二类别属性和第三类别属性,并且所述第二类别属性和所述第三类别属性不应出现于相邻两行,则比较两行的第一类别属性的属性标签的概率,将第一类别属性的属性标签的概率高的行确定为分类正确的行,并将第一类别属性的属性标签的概率低的行所对应的概率第二高的属性标签作为该行的新的类别属性;若相邻两行的类别属性为页眉和页脚,则根据两行中的字符串在全文中的坐标位置识别相邻两行的分类正确行和分类错误行,并将分类错误行中概率第二高的属性标签作为新的类别属性。5.根据权利要求1所述的一种不可编辑文档的结构化方法,其特征在于,所述根据各所述行的类别属性,对所述待处理的不可编辑文档进行分表,包括:定位所述待处理的不可编辑文档中表格标题行;若所述表格标题行的前行是表格名称,则将所述前行中首个字符块作为所述表格名称;若所述表格标题行的后行是表...

【专利技术属性】
技术研发人员:刘大海王惠婷
申请(专利权)人:北京左医科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1