信息提取方法、装置、计算机设备、存储介质制造方法及图纸

技术编号：37181959 阅读：7 留言：0更新日期：2023-04-20 22:47

本公开涉及一种信息提取方法、装置、计算机设备、存储介质。所述方法包括：接收待解析文档；对所述待解析文档进行解析，获取所述待解析文档中文本数据信息；对所述文本数据信息进行分词处理，得到分词文本信息；利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取，输出所述待解析文档的关键词信息，将每个所述待解析文档的关键信息与预设的关键信息进行比较，确定每个所述待解析文档的关键信息匹配度，响应于所述关键信息匹配度小于预设的匹配度阈值，将对应的所述待解析文档进行过滤。采用本方法能够能够快速的在大量文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果。档或者需求文档中的关键结果。档或者需求文档中的关键结果。

全部详细技术资料下载

【技术实现步骤摘要】
信息提取方法、装置、计算机设备、存储介质

[0001]本公开涉及数据处理
，特别是涉及一种信息提取方法、装置、计算设备、存储介质。

技术介绍

[0002]随着信息技术的发展，人们越来越注重信息的交互。通常使用计算机或者各种终端设备来对文本信息进行存储以及阅读。当用户需要在某类文档或者文件中查询关键信息时，需要依靠人工对该类文档进行阅读，进而提取中其中需要获取的关键信息。
[0003]然而，该种方式在需要阅读大量的文档时，通过人工阅读的方式不仅费时费力、效率低下、同时，还会由于时间紧迫性可能会遗漏文档中的关键信息或者提取错误的关键信息。因此，通过这种方法很难在有限的时间内以及大量的文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果，会对后续业务结果产生不利的影响。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够快速的在大量文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果的信息提取方法、装置、计算设备、存储介质。
[0005]第一方面，本公开提供了一种信息提取方法。所述方法包括：
[0006]接收至少一个待解析文档；
[0007]对每个所述待解析文档进行解析，获取每个所述待解析文档中文本数据信息；
[0008]对所述文本数据信息进行分词处理，得到分词文本信息；
[0009]利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取，输出每个所述待解析文档的关键词信息。
[0010]在其...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法，其特征在于，所述方法包括：接收至少一个待解析文档；对每个所述待解析文档进行解析，获取每个所述待解析文档中文本数据信息；对所述文本数据信息进行分词处理，得到分词文本信息；利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取，输出每个所述待解析文档的关键词信息；将每个所述待解析文档的关键信息与预设的关键信息进行比较，确定每个所述待解析文档的关键信息匹配度，响应于所述关键信息匹配度小于预设的匹配度阈值，将对应的所述待解析文档进行过滤。2.根据权利要求1所述的方法，其特征在于，所述对所述文本数据信息进行分词处理，得到分词文本信息，包括：利用文本分类算法对所述文本数据信息进行文本分类，确定所述文本数据信息的分类结果，所述文本分类算法包括：Fast Text模型；利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别，得到分词文本信息。3.根据权利要求1所述的方法，其特征在于，所述待解析文档的格式至少包括：PPTX格式、DOCX格式、DOC格式和XLXS格式，所述对每个所述待解析文档进行解析，包括：将每个所述待解析文档的格式转换为可携带文档格式，对所述可携带文档格式进行解析。4.根据权利要求3所述的方法，其特征在于，所述对所述可携带文档格式进行解析，包括：对转换为可携带文档格式的待解析文档进行解析，获取所述待解析文档中文本数据信息，所述文本数据信息至少包括：字符信息、矩阵信息和行列信息。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：对所述字符信息、矩阵信息和行列信息进行预处理，所述预处理包括：分句、大小写转换、统一字符和符号。6.一种信息提取装置，其特征在于，所述装...

【专利技术属性】
技术研发人员：杨小峰，张佳博，
申请(专利权)人：上海工物高技术产业发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人