一种文件内容确定方法、设备和计算机可读存储介质技术

技术编号:37426081 阅读:11 留言:0更新日期:2023-04-30 09:47
本申请实施例公开了一种文件内容确定方法,包括:对样本文件进行解析得到样本文件的第一基础对象;样本文件的文件格式为目标格式;第一基础对象是具有分类的;获取第一基础对象的位置信息,并基于位置信息和第一基础对象的类型,生成基础对象分类模型;位置信息表征第一基础对象与基础对象所在的样本文件的页面的位置关系;基于基础对象分类模型对待处理文件进行解析,得到待处理文件的第二基础对象;第二基础对象是具有分类的;将待处理文件的每一类第二基础对象划分为多组;基于第二基础对象的类型,对多组第二基础对象进行处理得到待处理文件的内容。本申请实施例还公开了一种文件内容确定设备和计算机可读存储介质。种文件内容确定设备和计算机可读存储介质。种文件内容确定设备和计算机可读存储介质。

【技术实现步骤摘要】
一种文件内容确定方法、设备和计算机可读存储介质


[0001]本申请涉及通信领域中的文件内容确定技术,尤其涉及一种文件内容确定方法、设备和计算机可读存储介质。

技术介绍

[0002]目前,可携带文档格式(Portable Document Format,PDF)文件的应用越来越普遍,那么对于PDF文件的解析需求也越来越高;目前,一般是通过如下两种方式进行PDF文件解析的:一种是基于PDF解析库的方式,解析出PDF文件中字符、图片、直线等基础对象及其位置、格式等相关信息,然后基于规则的方式将基础对象组合成段落、图、表等;另一种是基于图像识别的方式,将PDF文件页保存成图片的形式,基于图像识别算法检测图片中的相关区域(如表区域),再与PDF解析库解析出来的基础对象进行对齐操作,将修正后的区域或基础对象集合用于相关信息的提取。
[0003]但是,上述相关技术中解析PDF文件的方式存在难以区分注释,页眉页脚等中的文字信息,进而导致提取出的文段信息存在错误的问题,且只适用于内容形式比较简单的文件使用范围比较局限;以及在组合阶段需要加工大量特征导致处理过程较为复杂,且制定的规则难以满足各种场景,识别准确率较低。

技术实现思路

[0004]为解决上述技术问题,本申请实施例期望提供一种文件内容确定方法、设备和计算机可读存储介质,解决了相关技术中解析PDF文件存在识别准确率低、使用范围比较局限,且处理过程复杂的问题。
[0005]本申请的技术方案是这样实现的:
[0006]一种文件内容确定方法,所述方法包括:
[0007]对样本文件进行解析得到所述样本文件的第一基础对象;其中,所述样本文件的文件格式为目标格式;所述第一基础对象是具有分类的;
[0008]获取第一基础对象的位置信息,并基于所述位置信息和所述第一基础对象的类型,生成基础对象分类模型;其中,所述位置信息表征所述第一基础对象与所述基础对象所在的所述样本文件的页面的位置关系;
[0009]基于所述基础对象分类模型对待处理文件进行解析,得到所述待处理文件的第二基础对象;其中,所述第二基础对象是具有分类的;
[0010]将所述待处理文件的每一类第二基础对象划分为多组;
[0011]基于所述第二基础对象的类型,对所述多组第二基础对象进行处理得到所述待处理文件的内容。
[0012]上述方案中,所述基于所述位置信息和所述第一基础对象的类型,生成基础对象分类模型,包括:
[0013]基于所述位置信息和所述第一基础对象的类型生成第一矩阵和第二矩阵;
[0014]基于所述第一矩阵和所述第二矩阵生成所述基础对象分类模型。
[0015]上述方案中,所述获取第一基础对象的位置信息,包括:
[0016]获取所述每一第一基础对象的边界信息和所述每一第一基础对象的区域信息;其中,所述边界信息表征所述第一基础对象所在的位置与所述样本文件所对应的页面的边之间的距离;
[0017]相应的,所述基于所述位置信息和所述第一基础对象的类型生成第一矩阵和第二矩阵,包括:
[0018]针对所述样本文件的每一页面,基于所述每一第一基础对象的类型、所述边界信息和所述区域信息,生成第一矩阵;
[0019]针对所述样本文件的每一页面,基于所述第一基础对象的区域信息生成所述第二矩阵。
[0020]上述方案中,所述针对所述样本文件的每一页面,基于所述每一第一基础对象的类型、所述边界信息和所述区域信息,生成第一矩,包括:
[0021]针对样本文件的每一页面的第一基础对象,基于每一所述第一基础对象的类型、所述边界信息和所述区域信息,生成每一所述第一基础对象对应的属性向量;
[0022]针对所述样本文件的每一页面的第一基础对象,基于所述样本文件的每一页面的所述第一基础对象的属性向量,生成所述第一矩阵。
[0023]上述方案中,所述针对样本文件的每一页面的基础对象,基于每一所述第一基础对象的类型、所述边界信息和所述区域信息,生成每一所述第一基础对象对应的属性向量,包括:
[0024]针对样本文件的每一页面的第一基础对象,在所述第一基础对象的类型为第一类型的情况下,确定第一类型的所述第一基础对象的文本信息和文本的属性信息;
[0025]基于每一所述第一基础对象的类型、所述边界信息、所述区域信息、所述文本信息和所述文本的属性信息,生成所述属性向量。
[0026]上述方案中,所述针对所述样本文件的每一页面,基于所述第一基础对象的区域信息生成所述第二矩阵,包括:
[0027]生成初始矩阵;
[0028]针对所述样本文件的每一页面的第一基础对象,确定所述初始矩阵中行数和列数不相同的目标元素,并将所述目标元素的行数和列数对应的第一基础对象,所在区域的各个边延伸目标数值,得到扩展后的区域;
[0029]确定所述目标元素的行数和列数分别对应的第一基础对象对应的所述扩展后的区域之间的位置关系;
[0030]基于所述位置关系设置所述目标元素的值,并设置所述初始矩阵中行数和列数相同的元素的值为目标值,得到所述第二矩阵。
[0031]上述方案中,所述基于所述第一矩阵和所述第二矩阵生成所述基础对象分类模型,包括:
[0032]采用图神经网络算法,基于所述第一矩阵和所述第二矩阵进行训练得到所述基础对象分类模型。
[0033]上述方案中,所述将所述待处理文件的每一类第二基础对象划分为多组,包括:
[0034]确定每一所述第二基础对象的边界信息;其中,所述边界信息表征所述第二基础对象所在的位置与所述待处理文件所对应的页面的边之间的距离;
[0035]针对所述待处理文件的每一页面的第二基础对象,基于每一所述第二基础对象的边界信息,将每一类所述第二基础对象划分为多组。
[0036]上述方案中,所述针对所述待处理文件的每一页面的第二基础对象,基于每一所述第二基础对象的边界信息,将每一类所述第二基础对象划分为多组,包括:
[0037]针对所述待处理文件的每一页面的第二基础对象,基于所述每一第二基础对象的第一边界的值,对每一类中的第二基础对象进行排序;
[0038]采用间隔阈值法,基于所述每一第二基础对象的第一边界的值与第二边界的值,将所述待处理文件的每一页面的每一类排序后的所述第二基础对象划分成m组;其中,所述第一边界所在的边与所述第二边界所在的边平行;
[0039]采用间隔阈值法,基于所述每一第二基础对象的第三边界的值与第四边界的值,对所述待处理文件的每一页面的所述m组的每一组中的第二基础对象进行分组,得到n组;其中,所述第三边界所在的边与所述第四边界所在的边平行。
[0040]上述方案中,所述基于所述第二基础对象的类型,对所述多组第二基础对象进行处理得到所述待处理文件的内容,包括:
[0041]确定所述多组中每组包括的第二基础对象所在的区域为目标区域,并确定每一目标区域的区域信息;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件内容确定方法,其特征在于,所述方法包括:对样本文件进行解析得到所述样本文件的第一基础对象;其中,所述样本文件的文件格式为目标格式;所述第一基础对象是具有分类的;获取第一基础对象的位置信息,并基于所述位置信息和所述第一基础对象的类型,生成基础对象分类模型;其中,所述位置信息表征所述第一基础对象与所述基础对象所在的所述样本文件的页面的位置关系;基于所述基础对象分类模型对待处理文件进行解析,得到所述待处理文件的第二基础对象;其中,所述第二基础对象是具有分类的;将所述待处理文件的每一类第二基础对象划分为多组;基于所述第二基础对象的类型,对所述多组第二基础对象进行处理得到所述待处理文件的内容。2.根据权利要求1所述的方法,其特征在于,所述基于所述位置信息和所述第一基础对象的类型,生成基础对象分类模型,包括:基于所述位置信息和所述第一基础对象的类型生成第一矩阵和第二矩阵;基于所述第一矩阵和所述第二矩阵生成所述基础对象分类模型。3.根据权利要求2所述的方法,其特征在于,所述获取第一基础对象的位置信息,包括:获取所述每一第一基础对象的边界信息和所述每一第一基础对象的区域信息;其中,所述边界信息表征所述第一基础对象所在的位置与所述样本文件所对应的页面的边之间的距离;相应的,所述基于所述位置信息和所述第一基础对象的类型生成第一矩阵和第二矩阵,包括:针对所述样本文件的每一页面,基于所述每一第一基础对象的类型、所述边界信息和所述区域信息,生成第一矩阵;针对所述样本文件的每一页面,基于所述第一基础对象的区域信息生成所述第二矩阵。4.根据权利要求3所述的方法,其特征在于,所述针对所述样本文件的每一页面,基于所述每一第一基础对象的类型、所述边界信息和所述区域信息,生成第一矩阵,包括:针对样本文件的每一页面的第一基础对象,基于每一所述第一基础对象的类型、所述边界信息和所述区域信息,生成每一所述第一基础对象对应的属性向量;针对所述样本文件的每一页面的第一基础对象,基于所述样本文件的每一页面的所述第一基础对象的属性向量,生成所述第一矩阵。5.根据权利要求4所述的方法,其特征在于,所述针对样本文件的每一页面的基础对象,基于每一所述第一基础对象的类型、所述边界信息和所述区域信息,生成每一所述第一基础对象对应的属性向量,包括:针对样本文件的每一页面的第一基础对象,在所述第一基础对象的类型为第一类型的情况下,确定第一类型的所述第一基础对象的文本信息和文本的属性信息;基于每一所述第一基础对象的类型、所述边界信息、所述区域信息、所述文本信息和所述文本的属性信息,生成所述属性向量。6.根据权利要求3所述的方法,其特征在于,所述针对所述样本文件的每一页面,基于
所述第一基础对象的区域信息生成所述第二矩阵,包括:生成初始矩阵;针对所述样本文件的每一页面的第一基础对象,确定所述初始矩阵中行数和列数不相同的目标元素,并将所述目标元素的行数和列数对应的第一基础对象,所在区域的各个边延伸目标数值,得到扩展后的区域;确...

【专利技术属性】
技术研发人员:高源刘阳张晶边增亚张雪艳
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1