一种基于PDF的信息处理方法、系统和存储介质技术方案

技术编号:38746293 阅读:9 留言:0更新日期:2023-09-08 23:28
本发明专利技术公开了一种基于PDF的信息处理方法、系统和存储介质,该方法包括以下步骤:获取PDF文件;响应于针对PDF文件的转换请求,对PDF文件的每一页进行页处理转换,以得到与PDF文件对应的第一目标素材信息和第二目标素材信息;响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合。本发明专利技术通过确定第一文段联系信息以识别第一块区,通过确定第二文段联系信息以识别第二块区,进而实现以一种更简单的方式完成对PDF文件的反解效果,提高了基于PDF文件的文章反解的效率,为需要对PDF文件文章反解的用户而言,便于后续继续完成编辑发布的工作。便于后续继续完成编辑发布的工作。便于后续继续完成编辑发布的工作。

【技术实现步骤摘要】
一种基于PDF的信息处理方法、系统和存储介质


[0001]本专利技术涉及网络媒体新闻管理发布
,特别是涉及一种基于PDF的信息处理方法、系统和存储介质。

技术介绍

[0002]目前传统的报业机构需要通过新型网络媒体平台上传电子报刊,由于新闻行业的严肃性,就要求对外发布的新闻必须经过编辑和审核之后才能正式对外发布。
[0003]现有技术中传统的反解处理方案为需要借助自然语言处理、机器学习等技术,并涉及到文本分类、信息抽取、关系分析等多个方面,例如,新闻文本反解技术将文本中的信息进行结构化、归纳、分类等处理,从而实现对文本内容的理解和分析,其主要步骤如下:文本预处理:对原始文本进行清洗、分段、分句等操作,以去除无用信息和干扰因素;实体识别:对文本中出现的人名、地名、组织机构名等实体进行识别和提取,以帮助理解文本中的主要内容;事件抽取:通过分析文本中的关键词、实体等信息,抽取文本所描述的事件或者主题,并将其分类归纳;语法分析:通过自然语言处理等技术,对文本中的语法结构进行分析,把握文本的语义、逻辑、情感等要素;建立知识库:根据分析结果,将相关的实体、事件等信息存储到知识库中,建立起词汇、语义、逻辑等方面的关系。
[0004]但现有技术中的新闻文本反解技术比较复杂。

技术实现思路

[0005]为了克服现有技术存在的缺陷与不足,本专利技术提出了一种基于PDF的信息处理方法、系统和存储介质。
[0006]为了达到上述第一目的,本专利技术采用以下技术方案:
[0007]一种基于PDF的信息处理方法,所述方法包括以下步骤:
[0008]获取PDF文件;
[0009]响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;
[0010]响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,即通过对所述目标空间识别成块、成行、成段以形成反解文本内容,其中所述目标空间为通过所述操作焦点的触发条件确定。
[0011]作为优选的技术方案,在页处理转换中,具体包括:
[0012]提取PDF文件的二进制编码信息,所述二进制编码信息包含对应所有素材信息;
[0013]对所述二进制编码信息进行分类得到第一目标素材信息和第二目标素材信息;
[0014]当素材信息的类型为第一素材类型时,确定该素材信息的字体、大小、颜色以及位置分类为所述第一目标素材信息;
[0015]当素材信息的类型为第二素材类型或第三素材类型时,确定该素材信息的颜色、大小、位置分类为所述第二目标素材信息。
[0016]作为优选的技术方案,所述触发条件包括点击行为;
[0017]在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:
[0018]响应于操作焦点的所述点击行为,确定第一文段联系信息以识别第一块区;
[0019]对所述第一块区对应的第一目标素材信息、第二目标素材信息进行内容整合。
[0020]作为优选的技术方案,所述触发条件包括移动行为;
[0021]在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:
[0022]响应于操作焦点的所述移动行为,确定第二文段联系信息以识别第二块区,其中所述第二文段联系信息包括字符字体和文字大小,所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到;
[0023]对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合。
[0024]作为优选的技术方案,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:
[0025]当通过操作焦点的多次所述点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
[0026]当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;
[0027]确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;
[0028]根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
[0029]其中所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到,所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。
[0030]作为优选的技术方案,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:
[0031]在内容整合时,采用预设语义预测模型进行新闻语义识别,其中所述预设语义预测模型具体根据识别维度进行处理,所述识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合。
[0032]为了达到上述第二目的,本专利技术采用以下技术方案:
[0033]一种基于PDF的信息处理系统,所述系统包括:
[0034]数据资源模块,用于获取PDF文件,其中所述PDF文件;
[0035]页处理转换模块,用于响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;
[0036]内容整合模块:响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对所述目标空间识别成块、成行、成段以形成反解文本内容,其中所述目标空间为通过所述操作焦点的触发条件确定。
[0037]作为优选的技术方案,所述内容整合模块包括第一识别子模块、第一内容整合子模块、第二识别子模块、第二内容整合子模块、第三识别子模块、跨块标记子模块、内容关联子模块、第三内容整合子模块以及新闻语义识别子模块;
[0038]第一识别子模块,用于响应于操作焦点的点击行为,确定第一文段联系信息以识别第一块区;
[0039]第一内容整合子模块,用于对所述第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
[0040]第二识别子模块,用于响应于操作焦点的移动行为,确定第二文段联系信息以识别第二块区;
[0041]第二内容整合子模块,用于对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
[0042]第三识别子模块,用于当通过操作焦点的多次点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;
[0043]跨块标记子模块,用于当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PDF的信息处理方法,其特征在于,所述方法包括以下步骤:获取PDF文件;响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对所述目标空间识别成块、成行、成段以形成反解文本内容。2.根据权利要求1所述的基于PDF的信息处理方法,其特征在于,其中所述目标空间为通过所述操作焦点的触发条件确定;在页处理转换中,具体包括:提取PDF文件的二进制编码信息,所述二进制编码信息包含对应所有素材信息;对所述二进制编码信息进行分类得到第一目标素材信息和第二目标素材信息;当素材信息的类型为第一素材类型时,确定该素材信息的字体、大小、颜色以及位置分类为所述第一目标素材信息;当素材信息的类型为第二素材类型或第三素材类型时,确定该素材信息的颜色、大小、位置分类为所述第二目标素材信息。3.根据权利要求1所述的基于PDF的信息处理方法,其特征在于,所述触发条件包括点击行为;在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:响应于操作焦点的所述点击行为,确定第一文段联系信息以识别第一块区;对所述第一块区对应的第一目标素材信息、第二目标素材信息进行内容整合。4.根据权利要求3所述的基于PDF的信息处理方法,其特征在于,所述触发条件还包括移动行为;在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:响应于操作焦点的所述移动行为,确定第二文段联系信息以识别第二块区,其中所述第二文段联系信息包括字符字体和文字大小,所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到;对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合。5.根据权利要求3所述的基于PDF的信息处理方法,其特征在于,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:当通过操作焦点的多次所述点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;
其中所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到,所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。6.根据权利要求1所述的基于PDF的信息处理方法,其特征在于,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:在内容整合时,采用预设语义预测模型进行新闻语义识别,其中所述预...

【专利技术属性】
技术研发人员:黄先财
申请(专利权)人:广州万彩信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1