本发明专利技术提出的一种表格关键信息抽取方法、系统、装置及可读存储介质,属于文档处理技术领域。所述方法包括:使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片;使用OCR算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字;利用文本框中的文字判断是否需要进行文字纠错,如果需要进行文字纠错,则使用基于MLM任务训练好的语言模型进行文字纠错;使用图像分割算法对表格区域图片进行表格结构识别;基于识别出的表格结构,进行关键信息抽取。本发明专利技术通过加入文本纠错策略和在信息抽取时使用带有容错的策略,有效提升了表格关键信息抽取的准确率。
【技术实现步骤摘要】
本专利技术涉及文档处理,更具体的说是涉及一种表格关键信息抽取方法、系统、装置及可读存储介质。
技术介绍
1、随着表格在大众工作生活中的广泛运用,对表格进行ocr(光学字符识别,optical character recognition)识别的需求也应运而生。一般对表格图片进行ocr时,除了关注提取表格中的文字信息,也关注表格中的结构化信息。表格中结构化的信息包括很多种,这里主要关注的是表格中以键值对形式存在的关键信息,以一个名叫张三的简历表格为例,姓名是键(key),张三是值(value),对于简历类的表格进行ocr时,识别出该表格中包括姓名、出生年月、性别等键对应的值的过程,就是该表格关键信息抽取的过程。
2、目前对ocr表格进行关键信息提取的方法,一般是先对表格图片中的文字进行ocr识别,再对表格位置结构信息进行识别,然后再将表格位置跟表格文字进行匹配,最后通过模板匹配提取出关键的键值对信息。
3、对已经存储好的表格进行关键信息提取,往往较为简单,但是对于表格图片进行关键信息抽取时,具有其特殊性,因为ocr文字识别的准确性和表格位置结构识别的准确性会极大影响关键信息抽取的准确性。如果使用的是模板匹配类的算法,会导致键值都识别错误,进而导致准确率下降
技术实现思路
1、针对以上问题,本专利技术的目的在于提供一种表格关键信息抽取方法、系统、装置及可读存储介质,通过加入文本纠错策略和在信息抽取时使用带有容错的策略,有效提升了表格关键信息抽取的准确率。
<
p>2、本专利技术为实现上述目的,通过以下技术方案实现:一种表格关键信息抽取方法,包括:3、使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片;
4、使用ocr算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字;
5、利用文本框中的文字判断是否需要进行文字纠错,如果需要进行文字纠错,则使用基于mlm任务训练好的语言模型进行文字纠错;
6、使用图像分割算法对表格区域图片进行表格结构识别;
7、基于识别出的表格结构,进行关键信息抽取。
8、进一步,所述使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片,包括:
9、使用目标检测算法检测表格图片中是否存在表格;如果不存在,则直接结束;否则,根据检测出的表格位置的坐标对表格图片进行裁剪,裁剪出表格区域对应的图片作为表格区域图片。
10、进一步,所述使用ocr算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字,包括:
11、通过ocr算法对表格区域图片进行文字识别及文字位置识别,得到多个六元组[x1,y1,x2,y2,text,[score1,score2,…]]的文字框;其中,text为文字框对应文字,x1和y1为文字框的左上角坐标,x2和y2为文字框的右上角坐标,[score1,score2,…]为text的置信度列表,score1,score2,…为text中每一个文字的置信度;
12、对所述文字框的六元组使用中心点的值,按照从左到右,从上到下的顺序进行排序。
13、进一步,所述利用文本框中的文字判断是否需要进行文字纠错,包括:
14、获取文字框的六元组中的置信度列表[score1,score2,…];
15、如果置信度列表[score1,score2,…]中的所有置信度值都大于置信阈值,则相应的text不需要纠错;
16、如果置信度列表[score1,score2,…]中任一置信度小于置信阈值的,则对应位置的文字需要纠错。
17、进一步,所述使用基于mlm任务训练好的语言模型进行文字纠错,包括如下步骤:
18、步骤1:将表格区域图片中的所有已知的键key组成关键词表:
19、步骤2:在所有已知键key中,找到长度最大的键key,并确定键key的最大长度;
20、步骤3:判断文字框的六元组中的text长度是否大于key的最大长度;若否,则执行步骤4;若是,则执行步骤7;
21、步骤4:计算text与关键词表中所有key的编辑距离作为相似度,识别出相似度的最大值;
22、步骤5:判断相似度的最大值是否大于第一相似度阈值;若是,则执行步骤6;否则执行步骤7;
23、步骤6:说明text是关键词,赋值text=key,完成纠错;
24、步骤7:根据置信度小于置信阈值的文字位置,每次用特殊符号替代相应text中的字,称之为masked;将masked后的text输入到语言模型中,输出masked位置可能字的k个候选结果;
25、步骤8:分别计算原始文字和k个候选值的字形相似度;如果字形相似度大于第二相似度阈值,则将相应的候选值替代原始文字作为纠错结果;如果所有字形相似度都小于第二相似度阈值,则不进行纠错。
26、进一步,所述使用图像分割算法对表格区域图片进行表格结构识别,包括:
27、使用图像分割算法对表格区域图片中每一个点进行分割,以判断表格区域图片的每一个点是属于横线还是竖线;
28、根据判断结果构成表格区域图片横线和竖线,以确定表格结构。
29、进一步,所述基于识别出的表格结构,进行关键信息抽取,包括:
30、根据表格结构,将每一行属于同种关系的key组成对应的列表;
31、针对每个列表,将其与临近行同种关系的列表进行列表组合,直到无法进行列表组合后停止;
32、在组合后的列表中,通过将关键词表中的关键词分别与所述组合后的列表中的文本框中文字进行相似度计算,以确定关键词的位置;
33、确定关键词位置之后,根据表格结构,将关键词位置下方或后方的一个或多个单元格的值作为相应的value值。
34、相应的,本专利技术还公开了一种表格关键信息抽取系统,包括:
35、表格位置检测模块,配置用于使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片;
36、文字识别模块,配置用于使用ocr算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字;
37、文件纠错模块,配置用于利用文本框中的文字判断是否需要进行文字纠错,如果需要进行文字纠错,则使用基于mlm任务训练好的语言模型进行文字纠错;
38、表格重构模块,配置使用图像分割算法对表格区域图片进行表格结构识别;
39、信息抽取模块,配置用于基于识别出的表格结构,进行关键信息抽取。
40、相应的,本专利技术公开了一种表格关键信息抽取装置,包括:
41、存储器,用于存储表格关键信息抽取程序;
42、本文档来自技高网
...
【技术保护点】
1.一种表格关键信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的表格关键信息抽取方法,其特征在于,所述使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片,包括:
3.根据权利要求1所述的表格关键信息抽取方法,其特征在于,所述使用OCR算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字,包括:
4.根据权利要求3所述的表格关键信息抽取方法,其特征在于,所述利用文本框中的文字判断是否需要进行文字纠错,包括:
5.根据权利要求4所述的表格关键信息抽取方法,其特征在于,所述使用基于MLM任务训练好的语言模型进行文字纠错,包括如下步骤:
6.根据权利要求5所述的表格关键信息抽取方法,其特征在于,所述使用图像分割算法对表格区域图片进行表格结构识别,包括:
7.根据权利要求6所述的表格关键信息抽取方法,其特征在于,所述基于识别出的表格结构,进行关键信息抽取,包括:
8.一种表格关键信息抽取系统,其特征在于,包括:
9.一种表格关键信息抽取装置,其特征在于,包括:
10.一种可读存储介质,其特征在于:所述可读存储介质上存储有表格关键信息抽取程序,所述表格关键信息抽取程序被处理器执行时实现如权利要求1至7任一项权利要求所述的表格关键信息抽取方法的步骤。
...
【技术特征摘要】
1.一种表格关键信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的表格关键信息抽取方法,其特征在于,所述使用目标检测算法检测表格图片中的表格位置,根据表格位置的坐标对表格图片进行裁剪,裁剪出表格区域图片,包括:
3.根据权利要求1所述的表格关键信息抽取方法,其特征在于,所述使用ocr算法对表格区域图片进行文字识别及文字位置识别,以确定文本框及文本框中的文字,包括:
4.根据权利要求3所述的表格关键信息抽取方法,其特征在于,所述利用文本框中的文字判断是否需要进行文字纠错,包括:
5.根据权利要求4所述的表格关键信息抽取方法,其特征在于,所述使用基于mlm任务训...
【专利技术属性】
技术研发人员:陈姝,路冰,
申请(专利权)人:南京中孚信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。