一种基于深度学习的密集文本图片的信息提取方法技术

技术编号：23605460 阅读：38 留言：0更新日期：2020-03-28 06:21

本发明专利技术公开了一种基于深度学习的密集文本图片的信息提取方法，通过人工智能的方法将密集文本图片上的很多数据自动采集、摘取、整理并结构化，利用通过大量学习拥有中文语言理解能力的深度学习模型，通过自动机器学习，使用户在不需要人工智能知识的情况下根据自己的需求训练信息提取模型，帮助用户自动定制不同的信息提取模型以提取不同的信息，实现为不同应用场景/用户提供定制化服务。并且，信息提取模型通过预训练的方式，可以最大程度地减少训练集。本发明专利技术主要解决密集文本图片的信息提取，能够节省大量人工，为办公自动化、信息查询、大数据以及基于大数据的人工智能技术等各种应用提供数据支持。

An information extraction method of dense text image based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的密集文本图片的信息提取方法
本专利技术涉及人工智能、光学字符识别和机器阅读
，尤其涉及一种基于深度学习的密集文本图片的信息提取方法。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)是指对扫描文本图片进行文字识别，变成可编辑的文档的过程。这个过程一般只返回图片上所有的文字，并不包含特定信息的提取。然而，很多应用场景却不仅需要识别文本文字，还需要提取上面的信息，例如，银行贷款审查在职证明时需要提取申请者的单位，收入，职位、入职时间等信息，这通常需要人工介入直接阅读扫描文档并将所需信息输入到系统中，费时费力。目前，通过OCR技术可以轻松地将一张扫描文本图片转换为可编辑的word文档或者纯文本文件，但从这些文本文件中有效地提取相关信息还是一件比较困难的事情。信息提取实际上是从一段文字表述中找出信息对的过程，这个过程与自然语言处理中著名的命名实体识别很相似。命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词、时间、数量、货币、比例数值等文字。目前最广泛有效的命名实体识别算法是条件随机场算法。条件随机场算法利用大规模语料学习出标注模型，从而对句子的各个位置进行标注。它的目标函数不仅考虑输入的状态特征函数，还包含标签转移特征函数。在训练时可以使用SGD学习模型参数。在模型已知的情况下，给出输入序列，可以预测输出序列，也就是求取使目标函数最大化的最优序列，这是一个动态规划问题，可以使用Viterbi算法解码得到最优标签序...

【技术保护点】
1.一种基于深度学习的密集文本图片的信息提取方法，其特征在于，包括如下步骤：/nS1：对具有完整语义结构的密集文本图片进行预处理；/nS2：利用OCR软件将预处理后的密集文本图片转换成文本文件；/nS3：将转换成的文本文件输入训练好的信息提取模型，提取目标信息；所述信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型；/nS4：对提取的目标信息进行标准化处理和纠错处理，得到所需信息。/n

【技术特征摘要】
1.一种基于深度学习的密集文本图片的信息提取方法，其特征在于，包括如下步骤：
S1：对具有完整语义结构的密集文本图片进行预处理；
S2：利用OCR软件将预处理后的密集文本图片转换成文本文件；
S3：将转换成的文本文件输入训练好的信息提取模型，提取目标信息；所述信息提取模型为通过自动学习完成的基于Transformer的条件随机场最优模型或基于Transformer的全连接最优模型；
S4：对提取的目标信息进行标准化处理和纠错处理，得到所需信息。

2.如权利要求1所述的信息提取方法，其特征在于，步骤S3中的信息提取模型的训练过程，包括如下步骤：
S31：收集同一类型的密集文本图片；
S32：利用OCR软件将收集的密集文本图片转换成文本文件；
S33：对转换成的文本文件进行人工标识；
S34：将标识好的文本文件保存为训练集；
S35：将训练好的Transformer编码器分别与条件随机场层和全连接层连接，得到基于Transformer的条件随机场模型和基于Transformer的全连接模型；
S36：将所述训练集分别输入所述基于Transformer的条件随机场模型和所述基于Transformer的全连接模型，进行训练，训练过程中，使用贝叶斯优化算法调试训练参数，迭代训练后得...

【专利技术属性】
技术研发人员：屈晓磊，万波，朱跃飞，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人