信息提取方法、装置、计算机设备、存储介质制造方法及图纸

技术编号:37181959 阅读:7 留言:0更新日期:2023-04-20 22:47
本公开涉及一种信息提取方法、装置、计算机设备、存储介质。所述方法包括:接收待解析文档;对所述待解析文档进行解析,获取所述待解析文档中文本数据信息;对所述文本数据信息进行分词处理,得到分词文本信息;利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出所述待解析文档的关键词信息,将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。采用本方法能够能够快速的在大量文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果。档或者需求文档中的关键结果。档或者需求文档中的关键结果。

【技术实现步骤摘要】
信息提取方法、装置、计算机设备、存储介质


[0001]本公开涉及数据处理
,特别是涉及一种信息提取方法、装置、计算设备、存储介质。

技术介绍

[0002]随着信息技术的发展,人们越来越注重信息的交互。通常使用计算机或者各种终端设备来对文本信息进行存储以及阅读。当用户需要在某类文档或者文件中查询关键信息时,需要依靠人工对该类文档进行阅读,进而提取中其中需要获取的关键信息。
[0003]然而,该种方式在需要阅读大量的文档时,通过人工阅读的方式不仅费时费力、效率低下、同时,还会由于时间紧迫性可能会遗漏文档中的关键信息或者提取错误的关键信息。因此,通过这种方法很难在有限的时间内以及大量的文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果,会对后续业务结果产生不利的影响。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够快速的在大量文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果的信息提取方法、装置、计算设备、存储介质。
[0005]第一方面,本公开提供了一种信息提取方法。所述方法包括:
[0006]接收至少一个待解析文档;
[0007]对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
[0008]对所述文本数据信息进行分词处理,得到分词文本信息;
[0009]利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息。
[0010]在其中一个实施例中,所述对所述文本数据信息进行分词处理,得到分词文本信息,包括:
[0011]利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
[0012]利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
[0013]在其中一个实施例中,所述待解析文档的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式,所述对所述带解析文档进行解析,包括:将所述待解析文档的格式转换为可携带文档格式,对所述可携带文档格式进行解析。
[0014]在其中一个实施例中,所述对所述可携带文档格式进行解析,包括:
[0015]对转换为可携带文档格式的待解析文档进行解析,获取所述待解析文档中文本数据信息,所述文本数据信息至少包括:字符信息、矩阵信息和行列信息。
[0016]在其中一个实施例中,所述方法还包括:对所述字符信息、矩阵信息和行列信息进
行预处理,所述预处理包括:分句、大小写转换和统一字符和符号。
[0017]在其中一个实施例中,所述方法还包括:将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
[0018]第二方面,本公开还提供了一种信息提取装置。所述装置包括:
[0019]信息接收模块,用于接收至少一个待解析文档并存储;
[0020]信息解析模块,用于获取所述待解析文档,对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
[0021]信息抽取模块,用于获取所述文本数据信息,对所述文本数据信息进行分词处理,得到分词文本信息,并利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息至所述信息接收模块;
[0022]验证筛选模块,用于将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
[0023]在其中一个实施例中,所述信息抽取模块,包括:
[0024]文本分类模块,用于利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
[0025]自然语言处理模块,用于利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
[0026]第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法实施例的步骤。
[0027]第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例的步骤。
[0028]第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例的步骤。
[0029]上述各实施例中,通过对待解析文档进行解析,能够获取待解析文档中的文本数据信息。而待解析文档可以有多种格式,因此能够支持多种类型的文档。在对文本信息进行分词处理后,可以得到待解析文档中的分词文本信息,进而得到每个不同的分词。然后根据预先设置的关键字段和关键词逻辑表达式进行组合,得到不同的组合提取表达式,根据不同的提取表达式能够全方面的从分词文本信息中获取关键信息。并且逻辑表达式和关键字段可以根据不同的情况进行调整,能够快速的找到匹配度较高的关键结果。并且通过逻辑表达式和关键字段进行组合的方式能够在有限的时间内,并且在大量的数据中快速的得到待解析文档的关键词信息,并且通过预先设置的匹配度阈值能够在大量的文档中快速将不符合的待解析文档进行过滤,得到符合要求的待解析文档,提升后续利用待解析文档处理业务的效率。
附图说明
[0030]为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1为一个实施例中信息提取方法的应用环境示意图;
[0032]图2为一个实施例中信息提取方法的流程示意图;
[0033]图3为一个实施例中S206步骤的流程示意图;
[0034]图4为一个实施例中信息提取装置的结构示意框图;
[0035]图5为一个实施例中计算机设备的内部结构图;
[0036]图6为一个实施例中信息提取系统的结构示意图;
[0037]图7为一个实施例中信息提取系统的逻辑结构示意图;
[0038]图8为另一个实施例中信息提取系统的结构示意图;
[0039]图9为一个实施例中信息提取方法的时序示意图。
具体实施方式
[0040]为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,所述方法包括:接收至少一个待解析文档;对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;对所述文本数据信息进行分词处理,得到分词文本信息;利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息;将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据信息进行分词处理,得到分词文本信息,包括:利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。3.根据权利要求1所述的方法,其特征在于,所述待解析文档的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式,所述对每个所述待解析文档进行解析,包括:将每个所述待解析文档的格式转换为可携带文档格式,对所述可携带文档格式进行解析。4.根据权利要求3所述的方法,其特征在于,所述对所述可携带文档格式进行解析,包括:对转换为可携带文档格式的待解析文档进行解析,获取所述待解析文档中文本数据信息,所述文本数据信息至少包括:字符信息、矩阵信息和行列信息。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对所述字符信息、矩阵信息和行列信息进行预处理,所述预处理包括:分句、大小写转换、统一字符和符号。6.一种信息提取装置,其特征在于,所述装...

【专利技术属性】
技术研发人员:杨小峰张佳博
申请(专利权)人:上海工物高技术产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1