【技术实现步骤摘要】
一种文件内容确定方法、设备和计算机可读存储介质
[0001]本申请涉及通信领域中的文件内容确定技术,尤其涉及一种文件内容确定方法、设备和计算机可读存储介质。
技术介绍
[0002]目前,可携带文档格式(Portable Document Format,PDF)文件的应用越来越普遍,那么对于PDF文件的解析需求也越来越高;目前,一般是通过如下两种方式进行PDF文件解析的:一种是基于PDF解析库的方式,解析出PDF文件中字符、图片、直线等基础对象及其位置、格式等相关信息,然后基于规则的方式将基础对象组合成段落、图、表等;另一种是基于图像识别的方式,将PDF文件页保存成图片的形式,基于图像识别算法检测图片中的相关区域(如表区域),再与PDF解析库解析出来的基础对象进行对齐操作,将修正后的区域或基础对象集合用于相关信息的提取。
[0003]但是,上述相关技术中解析PDF文件的方式存在难以区分注释,页眉页脚等中的文字信息,进而导致提取出的文段信息存在错误的问题,且只适用于内容形式比较简单的文件使用范围比较局限;以及在组合阶段需要加工大量特征导致处理过程较为复杂,且制定的规则难以满足各种场景,识别准确率较低。
技术实现思路
[0004]为解决上述技术问题,本申请实施例期望提供一种文件内容确定方法、设备和计算机可读存储介质,解决了相关技术中解析PDF文件存在识别准确率低、使用范围比较局限,且处理过程复杂的问题。
[0005]本申请的技术方案是这样实现的:
[0006]一种文件内容确定方法,所 ...
【技术保护点】
【技术特征摘要】
1.一种文件内容确定方法,其特征在于,所述方法包括:对样本文件进行解析得到所述样本文件的第一基础对象;其中,所述样本文件的文件格式为目标格式;所述第一基础对象是具有分类的;获取第一基础对象的位置信息,并基于所述位置信息和所述第一基础对象的类型,生成基础对象分类模型;其中,所述位置信息表征所述第一基础对象与所述基础对象所在的所述样本文件的页面的位置关系;基于所述基础对象分类模型对待处理文件进行解析,得到所述待处理文件的第二基础对象;其中,所述第二基础对象是具有分类的;将所述待处理文件的每一类第二基础对象划分为多组;基于所述第二基础对象的类型,对所述多组第二基础对象进行处理得到所述待处理文件的内容。2.根据权利要求1所述的方法,其特征在于,所述基于所述位置信息和所述第一基础对象的类型,生成基础对象分类模型,包括:基于所述位置信息和所述第一基础对象的类型生成第一矩阵和第二矩阵;基于所述第一矩阵和所述第二矩阵生成所述基础对象分类模型。3.根据权利要求2所述的方法,其特征在于,所述获取第一基础对象的位置信息,包括:获取所述每一第一基础对象的边界信息和所述每一第一基础对象的区域信息;其中,所述边界信息表征所述第一基础对象所在的位置与所述样本文件所对应的页面的边之间的距离;相应的,所述基于所述位置信息和所述第一基础对象的类型生成第一矩阵和第二矩阵,包括:针对所述样本文件的每一页面,基于所述每一第一基础对象的类型、所述边界信息和所述区域信息,生成第一矩阵;针对所述样本文件的每一页面,基于所述第一基础对象的区域信息生成所述第二矩阵。4.根据权利要求3所述的方法,其特征在于,所述针对所述样本文件的每一页面,基于所述每一第一基础对象的类型、所述边界信息和所述区域信息,生成第一矩阵,包括:针对样本文件的每一页面的第一基础对象,基于每一所述第一基础对象的类型、所述边界信息和所述区域信息,生成每一所述第一基础对象对应的属性向量;针对所述样本文件的每一页面的第一基础对象,基于所述样本文件的每一页面的所述第一基础对象的属性向量,生成所述第一矩阵。5.根据权利要求4所述的方法,其特征在于,所述针对样本文件的每一页面的基础对象,基于每一所述第一基础对象的类型、所述边界信息和所述区域信息,生成每一所述第一基础对象对应的属性向量,包括:针对样本文件的每一页面的第一基础对象,在所述第一基础对象的类型为第一类型的情况下,确定第一类型的所述第一基础对象的文本信息和文本的属性信息;基于每一所述第一基础对象的类型、所述边界信息、所述区域信息、所述文本信息和所述文本的属性信息,生成所述属性向量。6.根据权利要求3所述的方法,其特征在于,所述针对所述样本文件的每一页面,基于
所述第一基础对象的区域信息生成所述第二矩阵,包括:生成初始矩阵;针对所述样本文件的每一页面的第一基础对象,确定所述初始矩阵中行数和列数不相同的目标元素,并将所述目标元素的行数和列数对应的第一基础对象,所在区域的各个边延伸目标数值,得到扩展后的区域;确...
【专利技术属性】
技术研发人员:高源,刘阳,张晶,边增亚,张雪艳,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。