System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种便携式文档格式文件的结构化解析方法及相关产品。
技术介绍
1、为了以一种更方便浏览的方式将便携式文档格式文件呈现给用户,需要对便携式文档格式文件进行结构化解析处理。
2、现有的结构化解析方法一般是通过对文件进行图像版面的分析识别从而获得文件的内容文字信息。但这种方法存在一定的错误率,不能准确还原文件的文本内容,从而导致解析准确性不足的问题。
3、因此,如何提高解析的准确性,是本领域技术人员急需解决的问题。
技术实现思路
1、基于上述问题,本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而解决了现有技术解析准确性不足的问题。
2、第一方面,本申请提供了一种便携式文档格式文件的结构化解析方法,包括:
3、对便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;所述内容信息包括:文本、图片、文本坐标以及图片坐标;
4、利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域;
5、基于所述页面尺寸信息、所述文本坐标以及所述图片坐标,利用所述训练好的文件智能分析模型将所述文本和所述图片与所述类型区域进行匹配,得到第一结构化数据;
6、基于所
7、对所述元数据信息和所述第二结构化数据进行关联并输出,实现对所述便携式文档格式文件的结构化解析。
8、可选的,所述对便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息,包括:
9、对便携式文档格式文件的头文件信息进行解析,提取与所述便携式文档格式文件对应的元数据信息;
10、基于开源库对所述便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的内容信息以及页面尺寸信息。
11、可选的,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域之前,还包括:
12、将所述便携式文档格式文件的页面转换为预设图片格式文件。
13、可选的,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域之前,还包括:
14、构建样本数据集;
15、利用深度学习图像标注工具对所述样本数据集中的样本数据进行版面标注,得到模型调优训练集;
16、利用所述模型调优训练集对基础的文件智能分析模型进行训练,得到训练好的文件智能分析模型。
17、可选的,所述构建样本数据集,包括:
18、获取训练用文件;
19、对所述训练用文件进行页面转图片处理,得到训练用图片;
20、对所述训练用图片进行灰度转换处理、图像平滑处理、边缘检测处理以及二值化预处理,得到样本数据;
21、利用所述样本数据构建样本数据集。
22、可选的,所述利用所述模型调优训练集对基础的文件智能分析模型进行训练,得到训练好的文件智能分析模型,包括:
23、通过百度飞桨深度学习框架,利用所述模型调优训练集和智能文档多模态预训练模型对基础的文件智能分析模型进行训练,得到训练好的文件智能分析模型。
24、可选的,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域,包括:
25、利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的页眉区域、页脚区域、标题区域、作者区域、作者单位区域、章节区域、段落区域、图片区域、图片文本区域、表格区域、表格文本区域、公式区域以及参考文献区域。
26、第二方面,本申请提供了一种便携式文档格式文件的结构化解析装置,包括:
27、解析模块,用于对便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;所述内容信息包括:文本、图片、文本坐标以及图片坐标;
28、分析模块,用于利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域;
29、匹配模块,用于基于所述页面尺寸信息、所述文本坐标以及所述图片坐标,利用所述训练好的文件智能分析模型将所述文本和所述图片与所述类型区域进行匹配,得到第一结构化数据;
30、映射模块,用于基于所述第一结构化数据,利用正则表达式和所述文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;
31、输出模块,用于对所述元数据信息和所述第二结构化数据进行关联并输出,实现对所述便携式文档格式文件的结构化解析。
32、第三方面,本申请提供了一种便携式文档格式文件的结构化解析设备,包括:
33、存储器,用于存储计算机程序;
34、处理器,用于执行所述计算机程序时实现如上述任一项所述便携式文档格式文件的结构化解析方法的步骤。
35、第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述便携式文档格式文件的结构化解析方法的步骤。
36、从以上技术方案可以看出,相较于现有技术,本申请具有以下优点:
37、本申请首先对便携式文档格式文件进行解析,提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息。其中,内容信息包括:文本、图片、文本坐标以及图片坐标。然后利用训练好的文件智能分析模型对便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定预设图片格式文件的类型区域,并基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据。最后基于第一结构化数据,利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据,并对元数据信息和第二结构化数据进行关联并输出,实现对便携式文档格式文件的结构化解析。如此,基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。
本文档来自技高网...【技术保护点】
1.一种便携式文档格式文件的结构化解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域之前,还包括:
4.根据权利要求1所述的方法,其特征在于,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域之前,还包括:
5.根据权利要求4所述的方法,其特征在于,所述构建样本数据集,包括:
6.根据权利要求4所述的方法,其特征在于,所述利用所述模型调优训练集对基础的文件智能分析模型进行训练,得到训练好的文件智能分析模型,包括:
7.根据权利要求1所述的方法,其特征在于,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面
8.一种便携式文档格式文件的结构化解析装置,其特征在于,包括:
9.一种便携式文档格式文件的结构化解析设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述便携式文档格式文件的结构化解析方法的步骤。
...【技术特征摘要】
1.一种便携式文档格式文件的结构化解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域之前,还包括:
4.根据权利要求1所述的方法,其特征在于,所述利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域之前,还包括:
5.根据权利要求4所述的方法,其特征在于,所述构建...
【专利技术属性】
技术研发人员:唐小利,李晓瑛,刘宇炀,杨雪梅,王超,
申请(专利权)人:中国医学科学院医学信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。