一种文本识别方法、文本识别装置及可读存储介质制造方法及图纸

技术编号：26599199 阅读：42 留言：0更新日期：2020-12-04 21:21

本申请提供了一种文本识别方法、文本识别装置及可读存储介质，应用于涉密文件，文本识别方法包括：获取非涉密文本样本和已过保密期的涉密文本样本；构建深度学习网络模型，并使用非涉密文本样本对构建好的深度学习网络模型进行预训练；使用已过保密期的涉密文本样本对预训练完毕的深度学习网络模型进行调优训练，得到训练好的文本识别模型；将待识别的涉密文本输入至文本识别模型中进行文本识别，得到所述涉密文本的文本信息。本发明专利技术采用已过保密期限的小样本的涉密文本样本对用于识别文本的深度学习网络模型进行调优训练，从而提高了对涉密文件的文字识别的准确度，并通过文本提取模型进一步实现了文本信息的提取，提高了提取的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本识别方法、文本识别装置及可读存储介质
本申请涉及图像识别
，尤其是涉及一种文本识别方法、文本识别装置及可读存储介质。
技术介绍
在企业全面数字化转型的大背景下，各行各业都在数字技术方面加大投入，驱动新增长，引领新动能。面对大型企业类型多样且数量庞大的公文文本，关键信息提取成为企业日常办公的重要技术需求。近年来，自然语言处理处于快速发展阶段，各种词表、语义语法词典、语料库等数据资源的日益丰富，词语切分、词性标注、句法分析等技术的快速进步，各种新理论、新方法、新模型的出现推动了自然语言处理研究的繁荣。但是还没有适用于涉密类文档的信息抽取方案，目前这种类型的文档大部分处于电子化水平，依靠人力读写，无法形成知识信息，传统的识别模型准确率低，很难满足目前企业全面数字化转型的需求。
技术实现思路
有鉴于此，本申请的目的在于提供一种文本识别方法、文本识别装置及可读存储介质，对于包括公文文档在内涉密类的文档能够准确的完成文字识别和信息提取，满足目前企业全面数字化转型的需求。本申请实施例的第一方面提供了一种文本识别方法，应用于涉密文件，所述文本识别方法包括：获取非涉密文本样本和已过保密期的涉密文本样本；构建深度学习网络模型，并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练；使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，得到训练好的文本识别模型；将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息。>结合本申请的第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，所述深度学习网络模型包括：用于进行版面分割处理的分割处理模型，以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型；所述使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练，包括：获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息；将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练，得到版面分割预训练模型；获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息；将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练，得到文字识别预训练模型。结合本申请的第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，所述使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，包括：获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息；将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练，得到针对涉密文本版面分割的版面分割优化模型；获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息；将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练，得到针对涉密文本文字识别的文字识别优化模型。结合本申请的第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，所述获取非涉密文本样本，包括：获取原始语料；基于所述原始语料生成所述非涉密文本样本。结合本申请的第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，所述文本识别模型包括：字典，所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。结合本申请的第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息，包括：将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割，得到所述涉密文本的版面分割信息；将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别，得到所述涉密文本的文本信息。结合本申请的第一方面的第五种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息之后，还包括：获取提取指令，以及用于提取文本信息的文本信息提取模型；根据所述提取指令中所指示的关键字信息，通过所述文本信息提取模型对所述文本信息进行文本信息提取。本申请实施例的第二方面提供了一种文本识别装置，应用于涉密文件，所述文本识别装置包括：样本获取模块，用于获取非涉密文本样本和已过保密期的涉密文本样本；预训练模块，用于构建深度学习网络模型，并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练；调优训练模块，用于使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，得到训练好的文本识别模型；文本识别模块，用于将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息。结合本申请的第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，所述深度学习网络模型包括：用于进行版面分割处理的分割处理模型，以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型；所述预训练模块在用于构建深度学习网络模型，并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练时，所述预训练模块用于：获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息；将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练，得到版面分割预训练模型；获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息；将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练，得到文字识别预训练模型。结合本申请的第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，所述调优训练模块在使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，得到训练好的文本识别模型时，所述调优训练模块用于：获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息；将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练，得到针对涉密文本版面分割的版面分割优化模型；获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息；将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练，得到针对涉密文本文字识别的文字识别优化模型。结合本申请的第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第三种可能的实施方式，所述样本获取模块在用于获取非涉密文本样本时，所述样本获取模块用于：获本文档来自技高网...

【技术保护点】
1.一种文本识别方法，应用于涉密文件，其特征在于，所述文本识别方法包括：/n获取非涉密文本样本和已过保密期的涉密文本样本；/n构建深度学习网络模型，并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练；/n使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，得到训练好的文本识别模型；/n将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息。/n

【技术特征摘要】
1.一种文本识别方法，应用于涉密文件，其特征在于，所述文本识别方法包括：
获取非涉密文本样本和已过保密期的涉密文本样本；
构建深度学习网络模型，并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练；
使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，得到训练好的文本识别模型；
将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息。

2.根据权利要求1所述的文本识别方法，其特征在于，所述深度学习网络模型包括：用于进行版面分割处理的分割处理模型，以及用于对分割处理模型输出的版面分割结果进行文本识别处理的文本处理模型；
所述使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练，包括：
获取对非涉密文本样本的版面属性进行标注得到的版面分割标注信息；
将所述非涉密文本样本和所述版面分割标注信息输入至所述分割处理模型中进行预训练，得到版面分割预训练模型；
获取对非涉密文本样本的文字属性进行标注得到的文字识别标注信息；
将所述非涉密文本样本和所述文字识别标注信息输入至文本处理模型中进行预训练，得到文字识别预训练模型。

3.根据权利要求2所述的文本识别方法，其特征在于，所述使用所述已过保密期的涉密文本样本对预训练完毕的所述深度学习网络模型进行调优训练，包括：
获取对所述已过保密期的涉密文本样本的版面属性进行标注得到的版面属性调优标注信息；
将所述已过保密期的涉密文本样本和所述版面属性调优标注信息输入至所述版面分割预训练模型中进行调优训练，得到针对涉密文本版面分割的版面分割优化模型；
获取对所述已过保密期的涉密文本样本的文字属性进行标注得到的文字属性调优标注信息；
将所述已过保密期的涉密文本样本和所述文字属性调优标注信息输入至所述文字识别预训练模型中进行调优训练，得到针对涉密文本文字识别的文字识别优化模型。

4.根据权利要求2所述的文本识别方法，其特征在于，所述获取非涉密文本样本，包括：
获取原始语料；
基于所述原始语料生成所述非涉密文本样本。

5.根据权利要求4所述的文本识别方法，其特征在于，所述文本识别模型包括：
字典，所述字典包括在所述原始语料和所述涉密文本样本中出现的字段。

6.根据权利要求3所述的文本识别方法，其特征在于，所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息，包括：
将所述待识别的涉密文本输入至所述版面分割优化模型中进行版面分割，得到所述涉密文本的版面分割信息；
将所述待识别的涉密文本和所述版面分割信息输入至所述文字识别优化模型中进行文本识别，得到所述涉密文本的文本信息。

7.根据权利要求6所述的文本识别方法，其特征在于，所述将待识别的涉密文本输入至所述文本识别模型中进行文本识别，得到所述涉密文本的文本信息之后，还包括：
获取提取指令，以及用于提取文本信息的文本信息提取模型；
根据所述提取指令中所指示的关键字信息，通过所述文本信息提取模型对所述文本信息进行文本信息提取。

8.一种文本识别装置，应用于涉密文件，其特征在于，所述文本识别装置包括：
样本获取模块，用于获取非涉密文本样本和已过保密期的涉密文本样本；
预训练模块，用于构建深度学习网络模型，并使用所述非涉密文本样本对构建好的深度学习网络模型进行预训练；
调优训练模块，用于使用所述已过保密期的涉密文本样本对预训练完毕的所述深...

【专利技术属性】
技术研发人员：梁仲夏，李新宅，顾世嘉，曾昳梅，胡静，
申请(专利权)人：北京中油瑞飞信息技术有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人