信息的提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37139120 阅读:12 留言:0更新日期:2023-04-06 21:42
本申请提供的一种信息的提取方法、装置、电子设备及存储介质,在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;基于目标信息的关键字确定在所述目标文档中的目标文字段落;基于目标信息的要素从目标文字段落确定目标信息,实现对目标信息(如参考文献)的自动并快速地提取,节约用户时间。约用户时间。约用户时间。

【技术实现步骤摘要】
信息的提取方法、装置、电子设备及存储介质


[0001]本申请涉及文档处理
,特别地涉及一种信息的提取方法、装置、电子设备及存储介质。

技术介绍

[0002]在论文写作过程中,论文作者需要参考大量文献著作,也经常需要提取文献末尾所引用文献的文字信息。本地存储的文档资料,其类型主要包括:可解析版PDF、扫描版PDF、Word和PNG/JPG图片等。对于能够提取文字的文档类型,如:word文档类型和可解析版PDF类型,直接人工手动提取出参考文献段落,而对于不能直接提取文字的文档类型,如:对于扫描版文件PDF和PNG/JPG图片等,需要人工借助图片识别工具,先将其转换为文本文档,然后再人工手动提取出所需参考文献信息,需要耗费大量的人工成本。

技术实现思路

[0003]针对上述相关技术中的问题,本申请提供一种信息的提取方法、装置、电子设备及存储介质。
[0004]本申请提供了一种信息的提取方法,所述方法包括:
[0005]获取具有目标信息的文档;
[0006]在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;
[0007]基于目标信息的关键字确定在所述目标文档中的目标文字段落;
[0008]基于目标信息的要素从目标文字段落确定目标信息。
[0009]在一些实施例中,所述方法还包括:
[0010]确定所述文档的类型;
[0011]基于所述类型确定是否能够提取所述文档的文字,其中,在确定能够提取所述文档的文字的情况下,基于目标信息的关键字确定在所述文档中的目标文字段落,并基于目标信息的要素从目标文字段落确定目标信息。
[0012]在一些实施例中,所述将所述文档转换为能够提取文字的目标文档,包括:
[0013]对所述文档进行扫描,获取图像文件;
[0014]对所述图像文件进行解析,获得所述图像文件对应的文字及版面信息;
[0015]基于所述文字和所述版面信息确定所述目标文档。
[0016]在一些实施例中,所述目标信息包括:参考文献,所述目标信息对应的要素包括以下至少之一:作者姓名、文献标题名称、文献类型、文献出处、年号、期刊号、起始页数、终止页数,所述基于目标信息的要素从目标文字段落确定目标信息,包括:
[0017]基于目标信息的要素从目标文字段落提取各个要素对应的文字;
[0018]基于各个要素对应的文字的预设的排序规则确定参考文献。
[0019]在一些实施例中,所述方法还包括:
[0020]将所述参考文献进行可视化展示。
[0021]在一些实施例中,所述方法还包括:
[0022]获取所述文档的标识信息;
[0023]建立所述标识信息与所述参考文献之间的对应关系;
[0024]并保存所述对应关系。
[0025]在一些实施例中,所述方法还包括:
[0026]获取针对可视化展示的参考文献中目标参考文献的选择操作;
[0027]基于所述选择操作搜索所述目标参考文献对应的信息。
[0028]本申请实施例再提供一种信息的提取装置,包括:
[0029]第一获取模块,用于获取具有目标信息的文档;
[0030]转换模块,用于在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;
[0031]第一确定模块,用于基于目标信息的关键字确定在所述目标文档中的目标文字段落;
[0032]提取模块,用于基于目标信息的要素从目标文字段落确定目标信息。
[0033]本申请实施例提供一种电子设备,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述任意一项所述信息的提取方法。
[0034]本申请实施例提供一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述任一项所述的信息的提取方法。
[0035]本申请实施例提供一种信息的提取方法、装置、电子设备及存储介质,在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;基于目标信息的关键字确定在所述目标文档中的目标文字段落;基于目标信息的要素从目标文字段落确定目标信息,实现对目标信息(如参考文献)的自动并快速地提取,节约用户时间。
附图说明
[0036]在下文中将基于实施例并参考附图来对本申请进行更详细的描述。
[0037]图1为本申请实施例提供的一种信息的提取方法的实现流程示意图;
[0038]图2为本申请实施例提供的另一种信息的提取方法的实现流程示意图;
[0039]图3为本申请实施例提供的一种信息的提取装置的结构示意图;
[0040]图4为本申请实施例提供的电子设备的组成结构示意图。
[0041]在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
[0042]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0043]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突
的情况下相互结合。
[0044]如果申请文件中出现“第一\第二\第三”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0045]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0046]在介绍本申请实施例之前,对相关技术中的问题进行简要介绍。
[0047]在论文写作过程中,论文作者需要参考大量文献著作,也经常需要提取文献末尾所引用文献的文字信息。本地存储的文档资料,其类型主要涉及为可解析版PDF、扫描版PDF、Word和PNG/JPG图片等。对于可解析版PDF,直接从中提取文字信息时,经常会出现字符丢失的情况;而对于扫描版文件PDF,或是PNG/JPG图片等,更是难以直接提取出文字信息,需要做特殊处理才可以。因此,本专利技术提供了一种文字提取的方法,实现快速、批量提取本地文档中的参考文献信息。
[0048]相关技术中有两种方式:第一种方式为人工提取或转换的方式;第二种方式为:对于可提取文字的文档类型,如:word文档和可解析版PDF,直接人工手动提取出参考文献段落;对于不能直接提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息的提取方法,其特征在于,包括:获取具有目标信息的文档;在确定不能够提取所述文档中的文字的情况下,将所述文档转换为能够提取文字的目标文档;基于目标信息的关键字确定在所述目标文档中的目标文字段落;基于目标信息的要素从所述目标文字段落确定目标信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述文档的类型;基于所述类型确定是否能够提取所述文档的文字,其中,在确定能够提取所述文档的文字的情况下,基于目标信息的关键字确定在所述文档中的目标文字段落,并基于目标信息的要素从目标文字段落确定目标信息。3.根据权利要求1所述的方法,其特征在于,所述将所述文档转换为能够提取文字的目标文档,包括:对所述文档进行扫描,获取图像文件;对所述图像文件进行解析,获得所述图像文件对应的文字及版面信息;基于所述文字和所述版面信息确定所述目标文档。4.根据权利要求1所述的方法,其特征在于,所述目标信息包括:参考文献,所述目标信息对应的要素包括以下至少之一:作者姓名、文献标题名称、文献类型、文献出处、年号、期刊号、起始页数、终止页数,所述基于目标信息的要素从目标文字段落确定目标信息,包括:基于目标信息的要素从目标文字段落提取各个要素对应的文字;基于各个要素对应的文字的预设的排序规...

【专利技术属性】
技术研发人员:贾敬伍赵国庆周长安
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1