【技术实现步骤摘要】
用于挖掘PDF文件的方法、设备和介质
[0001]本公开的实施例总体涉及数据处理领域,并且更具体地涉及一种用于挖掘PDF文件的方法、计算设备和计算机可读存储介质。
技术介绍
[0002]PDF(Portable Document Format,便携文件格式)是一种由Adobe公司开发的一种电子文档格式,其具有与操作系统平台无关性的特点。PDF属于版式文档,页面之间相对独立,从而可以精确描述文档布局并展现文档版面。然而PDF不记录文件的框架结构,换言之,PDF文件不包括其中的组织的公式关系。
[0003]在包括多样化内容的专业PDF文件(例如,商业、金融、法律PDF文件)中,一页PDF文件中常常会混杂有主题、正文、表格、装饰元素、特定机构标识等内容,并且这些内容往往包括数字、字符、特殊符号等不同编码。
[0004]传统的用于挖掘PDF文件的方案是通过直接识别PDF文件中的文本块来完成。所识别的文本块被直接提取成可编辑字符。尽管本领域一些常用方案或工具可以简单地根据行/列格式提取所识别的文本块并保留部分PDF文件 ...
【技术保护点】
【技术特征摘要】
1.一种用于挖掘PDF文件的方法,包括:解析所述PDF文件的文本块,以便获取所述PDF文件的文本块的坐标信息;基于所解析的所述PDF文件的文本块,利用机构确定算法确定与所述PDF文件相关联的目标关联机构;利用匹配算法将所述目标关联机构的一个或多个报告模板与所述文本块的坐标信息进行匹配,从而确定一个或多个报告模板与所述PDF文件的匹配度数据;基于所获取的匹配度数据,确定与所述PDF文件对应的目标关联机构的报告模板;以及基于所确定的报告模板,挖掘所述PDF文件中与所确定的报告模板对应的数据。2.根据权利要求1所述的方法,其中利用机构确定算法确定与所述PDF文件相关联的目标关联机构包括:构建关于与PDF文件相关联的多个机构的机构关键特征数组,机构关键特征数组包括:与机构相关联的关键特征的数量、关键特征和关键特征所对应的权重;基于机构关键特征数组,针对基于PDF文件所解析的文本块进行检索,以便确定与机构相关联的关键特征出现的次数;以及基于所确定的与机构相关联的关键特征出现的次数,计算目标关联机构的权重序列,以用于确定PDF文件的目标关联机构。3.根据权利要求2所述的方法,其中确定PDF文件的目标关联机构还包括:确定与权重序列中的最大值所对应的机构;确定与最大值所对应的机构的数量是否为1;响应于确定与最大值所对应的机构的数量为1,确定与最大值所对应的机构为PDF文件的目标关联机构;以及响应于确定与最大值所对应的机构的数量大于1,确定未识别目标关联机构。4.根据权利要求1所述的方法,其中利用匹配算法将所述目标关联机构的一个或多个报告模板与所述文本块的坐标信息进行匹配包括:针对所述一个或多个报告模板中的每个报告模板,分别定义识别特征块;获取所述识别特征块的坐标信息;针对所述一个或多个报告模板中的每个报告模板,基于文本块的坐标信息以及所述报告模板的识别特征块的坐标信息,根据匹配函数计算所述报告模板与文本块的匹配值;以及对所计算的所有匹配值进行运算,从而确定一个或多个报告模板与所述PDF文件的匹配度数据。5.根据权利要求4所述的方法,其中根据匹配函数计算所述报告模板与文本块的匹配值包括:在确定满足以下各项条件中的至少一项条件的情况下,所述匹配函数的匹配值为第一预定值:文本块的左上坐标的横坐标值落入在识别特征块的左上坐标和右下坐标的横坐标值区间并且文本块的左上坐标的纵坐标值落入在识别特征块的左上坐标和右下坐标的纵坐标值区间,文本块的右下坐标的横坐标值落入在识别特征块的左上坐标和右下坐标的横坐标值
区间并且文本块的右下坐标的纵坐标值落入在识别特征块的左上坐标和右下坐标的纵坐标值区间,识别特征块的左上坐标的横坐标值落入在文本块的左上坐标和右下坐标的横坐标值区间并且识别...
【专利技术属性】
技术研发人员:郭鹏华,尹扬,
申请(专利权)人:上海朝阳永续信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。