一种基于深度学习的密集文本图片的信息提取方法技术

技术编号:23605460 阅读:38 留言:0更新日期:2020-03-28 06:21
本发明专利技术公开了一种基于深度学习的密集文本图片的信息提取方法,通过人工智能的方法将密集文本图片上的很多数据自动采集、摘取、整理并结构化,利用通过大量学习拥有中文语言理解能力的深度学习模型,通过自动机器学习,使用户在不需要人工智能知识的情况下根据自己的需求训练信息提取模型,帮助用户自动定制不同的信息提取模型以提取不同的信息,实现为不同应用场景/用户提供定制化服务。并且,信息提取模型通过预训练的方式,可以最大程度地减少训练集。本发明专利技术主要解决密集文本图片的信息提取,能够节省大量人工,为办公自动化、信息查询、大数据以及基于大数据的人工智能技术等各种应用提供数据支持。

An information extraction method of dense text image based on deep learning

【技术实现步骤摘要】
一种基于深度学习的密集文本图片的信息提取方法
本专利技术涉及人工智能、光学字符识别和机器阅读
,尤其涉及一种基于深度学习的密集文本图片的信息提取方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)是指对扫描文本图片进行文字识别,变成可编辑的文档的过程。这个过程一般只返回图片上所有的文字,并不包含特定信息的提取。然而,很多应用场景却不仅需要识别文本文字,还需要提取上面的信息,例如,银行贷款审查在职证明时需要提取申请者的单位,收入,职位、入职时间等信息,这通常需要人工介入直接阅读扫描文档并将所需信息输入到系统中,费时费力。目前,通过OCR技术可以轻松地将一张扫描文本图片转换为可编辑的word文档或者纯文本文件,但从这些文本文件中有效地提取相关信息还是一件比较困难的事情。信息提取实际上是从一段文字表述中找出信息对的过程,这个过程与自然语言处理中著名的命名实体识别很相似。命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词、时间、数量、货币、比例数值等文字。目前最广泛有效的命名实体识别算法是条件随机场算法。条件随机场算法利用大规模语料学习出标注模型,从而对句子的各个位置进行标注。它的目标函数不仅考虑输入的状态特征函数,还包含标签转移特征函数。在训练时可以使用SGD学习模型参数。在模型已知的情况下,给出输入序列,可以预测输出序列,也就是求取使目标函数最大化的最优序列,这是一个动态规划问题,可以使用Viterbi算法解码得到最优标签序列。在深度学习特别是基于注意力机制的NLP之前,条件随机场算法的显著优点是在为一个位置进行标注的过程中可以利用内部及上下文特征信息。随着深度学习在自然语言处理方面的应用越来越广泛,结合两种算法成为一种新的技术趋势,因此,双向长短记忆-条件随机场模型应运而生。应用于命名实体识别中的双向长短记忆-条件随机场模型主要由嵌入层(Embedding)(主要包括词向量、字向量以及一些额外特征)、双向长短记忆模型层以及最后的条件随机场模型层构成,结构如图1所示。实验结果表明,双向长短记忆-条件随机场模型已经达到甚至超过基于丰富特征的条件随机场模型,成为目前基于深度学习的命名实体识别方法中最主流的模型。在特征方面,该模型继承了深度学习方法的优势,无需特征工程,使用词向量和字符向量就可以达到很好的效果,如果有高质量的词典特征,还能进一步获得提高。条件随机场模型考虑的是整个句子局部特征的线性加权组合,长短记忆模型能够考虑长远的上下文信息,因此,长短记忆模型与条件随机场模型的结合可以扩展模型对上下文语义的了解。然而,长短记忆模型毕竟是一个序列模型,序列末端的输出只能得到序列前端输入的一小部分信息,也就是说,词与词之间的信息会随着词之间距离的增加而减少,即所谓的长距离依赖。对于命名实体识别而言,输入句子中的每个字都有可能对当前位置的标注产生影响,因此,为了克服上面的缺点,IDCNN-条件随机场模型应运而生。IDCNN-条件随机场模型是通过使用不同步长的卷积层来实现从更广阔的范围内获得语义的,如图2所示。IDCNN对输入句子中的每一个字生成一个logits,这里就和双向长短记忆模型输出logits完全一样,加入条件随机场模型层,用Viterbi算法解码出标注结果。虽然IDCNN在一定程度上能够克服长距离依赖的问题,但池化过程还是会丢失一些信息。并且,相比于拥有自注意力机制的Transformer,IDCNN模型不能通过训练来自动学习前后语义对当前词的影响,因此,也不能作为一个通用的特征提取模型应用于各种场景。
技术实现思路
有鉴于此,本专利技术提供了一种基于深度学习的密集文本图片的信息提取方法,用以解决现有的OCR技术只能识别图片中的文字并转换成文本、无法提取信息的问题。因此,本专利技术提供了一种基于深度学习的密集文本图片的信息提取方法,包括如下步骤:S1:对具有完整语义结构的密集文本图片进行预处理;S2:利用OCR软件将预处理后的密集文本图片转换成文本文件;S3:将转换成的文本文件输入训练好的信息提取模型,提取目标信息;所述信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型;S4:对提取的目标信息进行标准化处理和纠错处理,得到所需信息。在一种可能的实现方式中,在本专利技术提供的上述信息提取方法中,步骤S3中的信息提取模型的训练过程,包括如下步骤:S31:收集同一类型的密集文本图片;S32:利用OCR软件将收集的密集文本图片转换成文本文件;S33:对转换成的文本文件进行人工标识;S34:将标识好的文本文件保存为训练集;S35:将训练好的Transformer编码器分别与条件随机场层和全连接层连接,得到基于Transformer的条件随机场模型和基于Transformer的全连接模型;S36:将所述训练集分别输入所述基于Transformer的条件随机场模型和所述基于Transformer的全连接模型,进行训练,训练过程中,使用贝叶斯优化算法调试训练参数,迭代训练后得到基于Transformer的条件随机场最优模型和基于Transformer的全连接最优模型,从所述Transformer的条件随机场最优模型和所述基于Transformer的全连接最优模型中挑选最好的一个作为信息提取模型。在一种可能的实现方式中,在本专利技术提供的上述信息提取方法中,步骤S33,对转换成的文本文件进行人工标识,具体包括如下步骤:S331:使用文本标识软件打开转换成的文本文件;S332:创建标识类型,生成与所述标识类型对应的图标或按钮;S333:选中需要标识的目标;S334:点击与选中目标所属的标识类型对应的图标或按钮,对所述选中目标进行标识。在一种可能的实现方式中,在本专利技术提供的上述信息提取方法中,步骤S35中的Transformer编码器的训练过程,包括如下步骤:S351:将维基百科中文作为训练集,对所述训练集进行如下预处理,对于每一句话,随机挑选15%的字,对于选出的每个字,80%的概率被替换成[Mask],10%的概率替换成其他字,10%的概率不被替换;S352:将预处理后的训练集输入Transformer编码器进行训练,预测被[Mask]替换后的字;S353:训练至所述Transformer编码器收敛后,将所述Transformer编码器冻结。本专利技术提供的上述信息提取方法,通过人工智能的方法将密集文本图片上的很多数据自动采集、摘取、整理并结构化,利用通过大量学习拥有中文语言理解能力的深度学习模型(条件随机场模型或全连接模型),通过自动机器学习,使用户在不需要任何人工智能专业知识的情况下根据自己的需求训练信息提取模型,帮助用户自动定制不同的信息提取模型以提取不同的信息,从而实现为不同应用场景/用户提供定制化服务本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的密集文本图片的信息提取方法,其特征在于,包括如下步骤:/nS1:对具有完整语义结构的密集文本图片进行预处理;/nS2:利用OCR软件将预处理后的密集文本图片转换成文本文件;/nS3:将转换成的文本文件输入训练好的信息提取模型,提取目标信息;所述信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型;/nS4:对提取的目标信息进行标准化处理和纠错处理,得到所需信息。/n

【技术特征摘要】
1.一种基于深度学习的密集文本图片的信息提取方法,其特征在于,包括如下步骤:
S1:对具有完整语义结构的密集文本图片进行预处理;
S2:利用OCR软件将预处理后的密集文本图片转换成文本文件;
S3:将转换成的文本文件输入训练好的信息提取模型,提取目标信息;所述信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型;
S4:对提取的目标信息进行标准化处理和纠错处理,得到所需信息。


2.如权利要求1所述的信息提取方法,其特征在于,步骤S3中的信息提取模型的训练过程,包括如下步骤:
S31:收集同一类型的密集文本图片;
S32:利用OCR软件将收集的密集文本图片转换成文本文件;
S33:对转换成的文本文件进行人工标识;
S34:将标识好的文本文件保存为训练集;
S35:将训练好的Transformer编码器分别与条件随机场层和全连接层连接,得到基于Transformer的条件随机场模型和基于Transformer的全连接模型;
S36:将所述训练集分别输入所述基于Transformer的条件随机场模型和所述基于Transformer的全连接模型,进行训练,训练过程中,使用贝叶斯优化算法调试训练参数,迭代训练后得...

【专利技术属性】
技术研发人员:屈晓磊万波朱跃飞
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1