一种智能文档识别与特征提取方法、装置平台和存储介质制造方法及图纸

技术编号:33530493 阅读:13 留言:0更新日期:2022-05-19 02:00
一种智能文档识别与特征提取方法,包括,对包括业务数据的文档进行OCR解析处理,识别出其中的文本与表格;对被识别出的文本与表格,通过NLP算法进行文本和表格提取;从提取的文本中获得所需的业务指标数据。所述文档的格式包括pdf、word、excel、JPG文件格式。若在所述文档中识别到表格,则对所述文档中的表格进行检测与结构识别,定位到表格内容对应的文档中位置,把表格结构还原,即重构表格的行和列,确定单元格数据之间的逻辑关系,抽取表格内容,将数据提取到包括EXCEL的电子表格中。将数据提取到包括EXCEL的电子表格中。

【技术实现步骤摘要】
一种智能文档识别与特征提取方法、装置平台和存储介质


[0001]本专利技术属于数字报表分析
,特别涉及一种智能文档识别与特征提取方法、装置平台和存储介质。

技术介绍

[0002]目前各上市公司自主披露的年报、ESG报告、社会责任报告,以及若干舆情信息源等业务数据是行业重要的分析基础,也是数字化转型的核心。由于便携式文档格式(PDF)由于其跨平台的通用性和文档原稿完全再现的独特优势,广泛应用于各行各业的电子文件交互中,成为了不可替代的电子文档标准格式之一。因此,上述的业务数据中,有80%可能需要嵌入在业务文档、电子邮件、图像和PDF文档等非结构化格式中。
[0003]以当前的财务报表为例,部门需要通过报表中的企业经营情况,来衡量整体企业实力,并为企业商务情况打分。年度财务报表关键指标提取如果通过人工查找关键内容,极易出现审核错误或缺漏,严重影响指标的公正性。在竞争日益激烈的市场环境下,企业对工作效率、准确性、投入成本等关注度日益高涨,如何有效地从原数据批量提取结构化信息,实现大部分业务流程自动化、数据系统管理与重复有效综合利用,减少人工输入与干预并提升处理业务的正确率与效率,节省大量人工劳动以达到减少从事繁琐机械录入工作的心理负担等成为目前的热门研究话题。

技术实现思路

[0004]本专利技术实施例之一,一种基于OCR与NLP算法的智能文档识别与指标提取的模型。基于OCR与NLP算法的智能文档识别与指标提取的模型,对文件首先进行OCR解析处理,识别出其中的文本与表格。再对其中的表格与文本数据进行通过NLP算法进行表格提取和指标提取。最终的结果会涵盖该文件文本与表格中的所有指标,由于该算法是对全文进行指标提取,并不会因为文件的属性不同而效果显著变差,所以该模型是一种通用性智能文档模型。
具体实施方式
[0005]由于EXCEL文件形式与PDF文件或图片相比操作简单,并且容易与其他分析软件结合使用。本专利技术针对现有技术中问题,提出首先将各种类型的原数据识别后转化为写入EXCEL文件,以方便接下来的数据处理工作。由于相关业务的文档具有一定的相似性,其指标也具有通用性,往往需要对数据结果进行分类处理与精准匹配,为之后进行更深入的数据透视、挖掘、分析及行业趋势与规律总结打下基础。
[0006]为实现信息结构化与整体化的商业需求,本专利技术涉及的文档识别和提取模型,选取OCR技术将非结构化和半结构化信息转化为可用数据,再使用NLP算法进行文档特征指标提取。譬如基于Python语言,采用本专利技术的一种智能文档识别与特征提取的模型,高效地解决非自动化业务处理的痛点,实现不同实际业务场景中的需求,在一定程度上提高日常应
用业务场景的智能化处理能力。
[0007]根据一个或者多个实施例,一种智能文档识别与特征提取方法,包括以下步骤:
[0008]首先批量保存文件链接,支持PDF和JPG等格式文件。根据数据源文件的特性,即报告中存在着很多表格形式,避免表格相邻文字出现粘连的情况。需要判断是否为通用型表格,对表格进行检测与结构识别,定位到表格内容对应的文档中位置,如果存在表格,再把表格结构还原,即重构表格的行和列,确定单元格数据之间的逻辑关系,抽取表格内容,将数据提取到EXCEL表格中。
[0009]所述的表格抽取,是基于光学字符识别(Optical Character Recognition,OCR)技术,该技术能够自动识别图像中的文字内容,属于人工智能机器视觉领域的一个重要分支。文字区域目标检测、文字识别是OCR识别的核心任务,在各行业转型过程中发挥重要作用。如果不存在表格,则将文本内容按照章节进行划分,划分后的章节,根据句号等分割符合进行划分段落,利用关键词判断每个小段落是否符合要求,对符合要求的段落抽取数据。
[0010]完成文字、表格识别后,通过自然语言处理NLP技术对识别后的数据结果进行分类处理,提取出其中的关键信息与指标,以满足各类文字信息的正确识别。其后,通过找到表格数据指标和值的分界线,对值value逐个进行指标赋值,其中分界线的查找是自右自下逐一判断直到找到唯一令每个值的指标唯一的点为止,其中每个值value的行分界线以上,列分界线以右的指标就是该值的指标集合。依次遍历每一份EXCEL文件,拿出其中每一个sheet,针对指标所在原文档的位置进行定位,标识出页码、表格所在位置,把最终提取的指标合并在一整张大表中。
[0011]通过对本专利技术实施例的实验结果表明,本文通过基于深度学习的技术所设计的OCR的检测和识别与NLP特征提取方案,能较好地识别PDF、WORD中的文字与表格,实现不同实际业务场景中的需求,便于用户进行分析与预测,在一定程度上提高日常应用业务场景的智能化处理能力。每一页文件、每一个表格的处理平均速度都达到了短至1秒的效率。
[0012]因此通过本专利技术实施例,不仅从文本中获取还可以从表格获取指标数据,只要是pdf文件,都可以使用该模型提取指标数据,数据量更大,更全面,通用性更强。通过本专利技术实施例,可以快捷的获取表格的指标信息并进而进行数据分析,可以用于对财报、研报、社会责任报告的表格指标提取结果进行分析,具有更好的通用性和提取效率。
[0013]同时,因为本专利技术涉及的是一种通用性智能文档识别与指标提取模型,所以对全文所有的指标进行提取,同时会有许多冗余指标,因此需要下一步进行数据清洗,进而获得各个文件的关键指标。目前模型虽然具有财报的关键财务指标数据清洗功能,但是在运行中,算法识别精度还不可能达到100%,需要不断优化算法,追求数据完美是终极目标。
[0014]根据一个或者多个实施例,一种智能文档识别与特征提取模型,用于提取数据和结构化信息,实现大部分业务流程自动化。该模型基于OCR与NLP算法的智能文档识别与指标提取,可以对上市公司自主披露的年报、ESG报告、社会责任报告,以及若干舆情信息源,进行识别与关键指标提取,不会因为文件的差异导致结果提取率有明显区别。用户可基于已有模型进行定制,命名实体等,提升自定义规则泛化能力。因此,通过该模型,可以快捷的获取文章的指标信息并进而进行数据分析。
[0015]该模型将非结构化和半结构化信息转化为可用数据。由于业务数据是数字化转型的核心,80%的业务数据都嵌入在业务文档、电子邮件、图像和PDF文档等非结构化格式中。
该模型从各种文档格式中捕捉、提取和处理数据,利用自然语言处理(NLP)、计算机视觉、深度学习和机器学习(ML)等人工智能技术,对相关信息进行分类、归类和提取,并对提取数据进行验证。
[0016]该模型可以提取的类型包括pdf、word、excel等文件的表格和文本指标数据,便于用户进行分析与预测。也可以基于本模型进行自主定制,提升自定义规则泛化能力。
[0017]应理解,在本专利技术实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能文档识别与特征提取方法,其特征在于,包括以下步骤,对包括业务数据的文档进行OCR解析处理,识别出其中的文本与表格;对被识别出的文本与表格,通过NLP算法进行文本和表格提取;从提取的文本中获得所需的业务指标数据。2.根据权利要求1所述的智能文档识别与特征提取方法,其特征在于,所述文档的格式包括pdf、word、excel、JPG文件格式。3.根据权利要求2所述的智能文档识别与特征提取方法,其特征在于,若在所述文档中识别到表格,则对所述文档中的表格进行检测与结构识别,定位到表格内容对应的文档中位置,把表格结构还原,即重构表格的行和列,确定单元格数据之间的逻辑关系,抽取表格内容,将数据提取到包括EXCEL的电子表格中。4.根据权利要求2所述的智能文档识别与特征提取方法,其特征在于,若所述文档中不存在表格,则将文档文本内容按照章节进行划分,划分后的章节,根据句号等分割符合进行划分段落,利用关键词判断每个小段落是否符合要求,对符合要求的段落抽取指标数据。5.根据权利要求3或4所述的智能文档识别与特征提取方法,其特征在于,对所述文档完成文本、表格识别后,通过自然语言处理NLP算法对识别后的数据结果进行分类处理,提取出其中的关键信息与指标,以满足各类文字信息的正确识别。6.根据权利要求3所述的智能文档识别与特征提取方法,其特征在于,通过找到表格数据指标和值的分界线,对表格值value逐个...

【专利技术属性】
技术研发人员:陆培丽
申请(专利权)人:瑞格人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1