一种智能文档识别与特征提取方法、装置平台和存储介质制造方法及图纸

技术编号：33530493 阅读：13 留言：0更新日期：2022-05-19 02:00

一种智能文档识别与特征提取方法，包括，对包括业务数据的文档进行OCR解析处理，识别出其中的文本与表格；对被识别出的文本与表格，通过NLP算法进行文本和表格提取；从提取的文本中获得所需的业务指标数据。所述文档的格式包括pdf、word、excel、JPG文件格式。若在所述文档中识别到表格，则对所述文档中的表格进行检测与结构识别，定位到表格内容对应的文档中位置，把表格结构还原，即重构表格的行和列，确定单元格数据之间的逻辑关系，抽取表格内容，将数据提取到包括EXCEL的电子表格中。将数据提取到包括EXCEL的电子表格中。

全部详细技术资料下载

【技术实现步骤摘要】
一种智能文档识别与特征提取方法、装置平台和存储介质

[0001]本专利技术属于数字报表分析
，特别涉及一种智能文档识别与特征提取方法、装置平台和存储介质。

技术介绍

[0002]目前各上市公司自主披露的年报、ESG报告、社会责任报告，以及若干舆情信息源等业务数据是行业重要的分析基础，也是数字化转型的核心。由于便携式文档格式(PDF)由于其跨平台的通用性和文档原稿完全再现的独特优势，广泛应用于各行各业的电子文件交互中，成为了不可替代的电子文档标准格式之一。因此，上述的业务数据中，有80％可能需要嵌入在业务文档、电子邮件、图像和PDF文档等非结构化格式中。
[0003]以当前的财务报表为例，部门需要通过报表中的企业经营情况，来衡量整体企业实力，并为企业商务情况打分。年度财务报表关键指标提取如果通过人工查找关键内容，极易出现审核错误或缺漏，严重影响指标的公正性。在竞争日益激烈的市场环境下，企业对工作效率、准确性、投入成本等关注度日益高涨，如何有效地从原数据批量提取结构化信息，实现大部分业务流程自动化、数据系统管理与重复有效综合利用，减少人工输入与干预并提升处理业务的正确率与效率，节省大量人工劳动以达到减少从事繁琐机械录入工作的心理负担等成为目前的热门研究话题。

技术实现思路

[0004]本专利技术实施例之一，一种基于OCR与NLP算法的智能文档识别与指标提取的模型。基于OCR与NLP算法的智能文档识别与指标提取的模型，对文件首先进行OCR解析处理，识别出其中的文本与表格。再对其中的表格与文本数...

【技术保护点】

【技术特征摘要】
1.一种智能文档识别与特征提取方法，其特征在于，包括以下步骤，对包括业务数据的文档进行OCR解析处理，识别出其中的文本与表格；对被识别出的文本与表格，通过NLP算法进行文本和表格提取；从提取的文本中获得所需的业务指标数据。2.根据权利要求1所述的智能文档识别与特征提取方法，其特征在于，所述文档的格式包括pdf、word、excel、JPG文件格式。3.根据权利要求2所述的智能文档识别与特征提取方法，其特征在于，若在所述文档中识别到表格，则对所述文档中的表格进行检测与结构识别，定位到表格内容对应的文档中位置，把表格结构还原，即重构表格的行和列，确定单元格数据之间的逻辑关系，抽取表格内容，将数据提取到包括EXCEL的电子表格中。4.根据权利要求2所述的智能文档识别与特征提取方法，其特征在于，若所述文档中不存在表格，则将文档文本内容按照章节进行划分，划分后的章节，根据句号等分割符合进行划分段落，利用关键词判断每个小段落是否符合要求，对符合要求的段落抽取指标数据。5.根据权利要求3或4所述的智能文档识别与特征提取方法，其特征在于，对所述文档完成文本、表格识别后，通过自然语言处理NLP算法对识别后的数据结果进行分类处理，提取出其中的关键信息与指标，以满足各类文字信息的正确识别。6.根据权利要求3所述的智能文档识别与特征提取方法，其特征在于，通过找到表格数据指标和值的分界线，对表格值value逐个...

【专利技术属性】
技术研发人员：陆培丽，
申请(专利权)人：瑞格人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人