信息抽取方法及装置制造方法及图纸

技术编号：32013378 阅读：13 留言：0更新日期：2022-01-22 18:30

本申请提供信息抽取方法及装置，其中信息抽取方法包括：获取待处理文档；识别待处理文档中的文本和表格；基于关键词识别算法对文本进行关键信息识别，确定文档文本关键信息；对表格中单元格的字符进行解析，得到文档表格关键信息；将文档文本关键信息和文档表格关键信息进行融合，确定待处理文档的信息抽取结果。即该方案不仅可以抽取文档文本关键信息，也可以抽取文档表格关键信息。由于同一个待处理文档中，文档文本关键信息和文档表格关键信息可能存在关联，且单独的文档文本关键信息或文档表格关键信息可能不完整，因此，可以融合文档文本关键信息和文档表格关键信息，得到待处理文档的信息抽取结果，能够提高信息抽取的完整性和准确性。性和准确性。性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
信息抽取方法及装置

[0001]本申请涉及人工智能
的数据处理技术，特别涉及一种信息抽取方法。本申请同时涉及一种信息抽取装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。自然语言处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流，是人工智能、计算机科学和语言学所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说，自然语言处理就是要计算机理解自然语言，自然语言处理机制涉及两个流程，包括自然语言理解和自然语言生成。自然语言理解(natural
‑
language understanding)是指通过对功能单元从已传入的功能单元中的自然语言形式的文本或语音中的提取信息，并产生对给定文本或语音及其表示的描述。信息抽取技术通过对结构化、半结构化或非结构化数据进行分析处理，提取结构化的关键信息，是自然语言处理领域中的一项基础且重要的任务环节。现有的信息抽取方法更多是基于纯文本的信息抽取，但对于pdf等文档而言，文档中往往存在分栏、分块、嵌套表格等复杂多样的格式，如果仅仅依赖基于纯文本的信息抽取，会导致抽取的关键信息结果不完整、不准确。因此，探索一种基于文档级别的...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法，其特征在于，包括：获取待处理文档；识别所述待处理文档中的文本和表格；基于关键词识别算法对所述文本进行关键信息识别，确定文档文本关键信息；对所述表格中单元格的字符进行解析，得到文档表格关键信息；将所述文档文本关键信息和所述文档表格关键信息进行融合，确定所述待处理文档的信息抽取结果。2.如权利要求1所述的信息抽取方法，其特征在于，识别所述待处理文档中的文本和表格，包括：对所述待处理文档进行表格识别，确定所述待处理文档中的表格，以及所述表格的位置信息和所述表格中每个单元格的位置信息；将所述待处理文档中除所述表格之外的部分确定为文本。3.如权利要求1所述的信息抽取方法，其特征在于，基于关键词识别算法对所述文本进行关键信息识别，确定文档文本关键信息，包括：对所述文本进行字符识别，确定所述文本的字符内容；将所述文本的字符内容输入预先训练的关键词识别模型，得到文档文本关键信息；和/或，按照预设规则模板对所述文本的字符内容进行关键信息识别，得到文档文本关键信息。4.如权利要求3所述的信息抽取方法，其特征在于，将所述文本的字符内容输入预先训练的关键词识别模型，得到文档文本关键信息之前，还包括：按照预设分块规则对所述文本的字符内容进行分块，得到多个文本块；相应地，将所述文本的字符内容输入预先训练的关键词识别模型，得到文档文本关键信息，包括：对所述多个文本块进行筛选，确定所述多个文本块中符合预设筛选条件的待处理文本块；将所述待处理文本块输入预先训练的关键词识别模型，得到所述待处理文本块对应的文档文本关键信息。5.如权利要求2所述的信息抽取方法，其特征在于，对所述表格中单元格的字符进行解析，得到文档表格关键信息，包括：对所述表格中的字符进行解析，确定每个字符的位置信息；基于每个字符的位置信息和所述表格中每个单元格的位置信息，确定每个字符所处的单元格；基于所述表格中每个单元格内的字符，确定文档表格关键信息。6.如权利要求5所述的信息抽取方法，其特征在于，基于所述表格中每个单元格内的字符，确定文档表格关键信息，包括：确定所述表格的版式信息，并基于所述版式信息提取所述表格的主题信息；将所述主题信息与预设的关键信息词表进行匹配；若匹配成功，则基于所述表格中每个单元格内的字符，确定文档表格关键信息。7.如权利要求6所述的信息抽取方法，其特征在于，基于所述表格中每个单元格内的字符，确定文档表格关键信息之前，还包括：
根据所述版式信息，确定各关键信息条目，所述关键信息条目为所述表格的一行或者一列；从所述表格中，删除各单元格内的字符符合预设过滤条件的关键信息条目；基于所述表格中每个单元格内的字符，确定文档表格关键信息，包括：将剩余的任一关键信息条目中每个单元格内的字符组成文档表格关键信息。8.如权利要求5
‑
7任一项所述的信息抽取方法，其特征在于，基于所述表格中每个单元格内的字符，确定文档表格关键信息之前，还包括：若基于所述表格的位置信息确定所述表格是跨页表格，则将当前页中的第一表格与下一页中的第二表格进行合并，...

【专利技术属性】
技术研发人员：弓源，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人