一种表格关键信息抽取方法、系统、装置及可读存储介质制造方法及图纸

技术编号：40297360 阅读：12 留言：0更新日期：2024-02-07 20:45

本发明专利技术提出的一种表格关键信息抽取方法、系统、装置及可读存储介质，属于文档处理技术领域。所述方法包括：使用目标检测算法检测表格图片中的表格位置，根据表格位置的坐标对表格图片进行裁剪，裁剪出表格区域图片；使用OCR算法对表格区域图片进行文字识别及文字位置识别，以确定文本框及文本框中的文字；利用文本框中的文字判断是否需要进行文字纠错，如果需要进行文字纠错，则使用基于MLM任务训练好的语言模型进行文字纠错；使用图像分割算法对表格区域图片进行表格结构识别；基于识别出的表格结构，进行关键信息抽取。本发明专利技术通过加入文本纠错策略和在信息抽取时使用带有容错的策略，有效提升了表格关键信息抽取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文档处理，更具体的说是涉及一种表格关键信息抽取方法、系统、装置及可读存储介质。

技术介绍

1、随着表格在大众工作生活中的广泛运用，对表格进行ocr(光学字符识别,optical character recognition)识别的需求也应运而生。一般对表格图片进行ocr时，除了关注提取表格中的文字信息，也关注表格中的结构化信息。表格中结构化的信息包括很多种，这里主要关注的是表格中以键值对形式存在的关键信息，以一个名叫张三的简历表格为例，姓名是键（key），张三是值（value），对于简历类的表格进行ocr时，识别出该表格中包括姓名、出生年月、性别等键对应的值的过程，就是该表格关键信息抽取的过程。

2、目前对ocr表格进行关键信息提取的方法，一般是先对表格图片中的文字进行ocr识别，再对表格位置结构信息进行识别，然后再将表格位置跟表格文字进行匹配，最后通过模板匹配提取出关键的键值对信息。

3、对已经存储好的表格进行关键信息提取，往往较为简单，但是对于表格图片进行关键信息抽取时，具有其特殊性，因为ocr文字识别的准确性和表格位置结构识别的准确性会极大影响关键信息抽取的准确性。如果使用的是模板匹配类的算法，会导致键值都识别错误，进而导致准确率下降

技术实现思路

1、针对以上问题，本专利技术的目的在于提供一种表格关键信息抽取方法、系统、装置及可读存储介质，通过加入文本纠错策略和在信息抽取时使用带有容错的策略，有效提升了表格关键信息抽取的准确率。

<...

【技术特征摘要】

1.一种表格关键信息抽取方法，其特征在于，包括：

2.根据权利要求1所述的表格关键信息抽取方法，其特征在于，所述使用目标检测算法检测表格图片中的表格位置，根据表格位置的坐标对表格图片进行裁剪，裁剪出表格区域图片，包括：

3.根据权利要求1所述的表格关键信息抽取方法，其特征在于，所述使用ocr算法对表格区域图片进行文字识别及文字位置识别，以确定文本框及文本框中的文字，包括：

4.根据权利要求3所述的表格关键信息抽取方法，其特征在于，所述利用文本框中的文字判断是否需要进行文字纠错，包括：

5.根据权利要求4所述的表格关键信息抽取方法，其特征在于，所述使用基于mlm任务训...

【专利技术属性】
技术研发人员：陈姝，路冰，
申请(专利权)人：南京中孚信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人