应用于OCR的文本识别方法及AI系统技术方案

技术编号:36933142 阅读:41 留言:0更新日期:2023-03-22 18:55
本发明专利技术涉及文本识别技术领域,涉及一种应用于OCR的文本识别方法及AI系统。本发明专利技术通过将拟优化业务文本大数据整理成多组目标业务文本集,通过多组目标业务文本集尽可能准确、完整地输出拟优化业务文本大数据的文本内容,然后利用OCR算法对拟优化业务文本大数据的文本内容进行识别处理;本发明专利技术能够快速的区分是否是文档,过滤非文档,从而避免了对所有的图片都进行文本检测和文本识别,提升通用文档OCR的识别速度;针对性进行文本检测和文本识别的训练,提升识别准确率,从而使得应用于OCR的文本识别速度快,识别准确率高,支持多平台多终端的使用。多终端的使用。多终端的使用。

【技术实现步骤摘要】
应用于OCR的文本识别方法及AI系统


[0001]本专利技术涉及文本识别
,特别涉及一种应用于OCR的文本识别方法及AI系统。

技术介绍

[0002]OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。随着互联网的发展,图像以及视频的产生、传递速度大大加快。图像文字中包含的丰富的语义信息,也在人机交互中扮演着重要角色。在很多公司业务中,有很多需要对图片进行识别的需求。在一些业务办理流程中,为了保证客户办理业务准确无误,往往需要对客户上传的一些文档进行审核。人工的方式需要花费大量的时间以及人力成本,且准确率不高。通用文档识别系统可以减少工作人员参与且极大的降低处理时长。现目前,基于OCR技术的文本识别应用越来越广泛,能够将各类纸质文件转换为电子文件以供使用。但是在实际应用时,如果涉及到一些较为敏感的信息或者较为私密的信息,传统技术难以有效实现对这些信息的保护。

技术实现思路

[0003]为改善相关技术中存在的技术问题,本专利技术提供了一种应用于OCR的文本识别方法及AI系统。
[0004]第一方面,本专利技术实施例提供了一种应用于OCR的文本识别方法,应用于文本识别AI系统,所述方法包括:对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集;通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘,得到所述拟优化业务文本大数据的业务文本词向量;基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量;基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量;基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。
[0005]在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;
将所述第一阶段化文本数据库中每阶的文本集作为所述目标业务文本集。
[0006]在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;分别将所述第一阶段化文本数据库中各阶的文本集与所述第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集;将所述至少两个文本匹配集作为所述目标业务文本集。
[0007]在一些可能的实施例中,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;分别对所述第一阶段化文本数据库中各阶的文本集进行语句提炼操作,得到对应的目标文本集;分别将所述第一阶段化文本数据库中各阶的文本集、所述第二阶段化文本数据库中对应阶的文本集、以及与所述第二阶段化文本数据库中对应阶的文本集的规模相同的目标文本集进行匹配,得到至少两个文本匹配集;将所述至少两个文本匹配集作为所述目标业务文本集。
[0008]在一些可能的实施例中,所述第二词向量挖掘网络包括X个局部词向量挖掘网络,所述目标业务文本集的数目为X,所述X为大于等于2的正整数;所述基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量,包括:将每个所述目标业务文本集加载到一个所述局部词向量挖掘网络,基于所述局部词向量挖掘网络对所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。
[0009]在一些可能的实施例中,所述敏感文本词向量包括规模向量和关注向量,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:分别对各所述目标业务文本集的敏感文本词向量进行规模调整,得到对应各所述敏感文本词向量的目标敏感文本词向量;其中,各所述目标敏感文本词向量的规模向量相同;对各所述目标敏感文本词向量的关注向量进行加权操作,得到联动关注向量;将所述目标敏感文本词向量的规模向量与所述联动关注向量进行向量整合,得到所述联动敏感文本词向量。
[0010]在一些可能的实施例中,当所述目标业务文本集的数目为u时,所述敏感文本词向量的数目为u,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:
将u个所述敏感文本词向量中第v个敏感文本词向量与第v+1个敏感文本词向量进行拼接,得到第v联动敏感文本词向量;其中,u为大于等于3的正整数,v为正整数,且v大于等于1且小于等于u

1;将所述第v联动敏感文本词向量与第v+2个敏感文本词向量进行拼接,得到第v+1联动敏感文本词向量;以v=1为起始条件,启动对v的遍历处理,并当所述v+2的值与所述u的值一致时,将所述第v+1联动敏感文本词向量作为所述联动敏感文本词向量。
[0011]在一些可能的实施例中,所述基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据,包括:基于所述OCR敏感文本优化算法的敏感文本脱敏网络,确定所述业务文本词向量与所述联动敏感文本词向量之间的文本比较词向量;基于所述OCR敏感文本优化算法的敏感文本脱敏网络,对所述文本比较词向量进行文本翻译,得到所述已脱敏业务文本大数据。
[0012]在一些可能的实施例中,所述通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘之前,还包括:对包含敏感资源文本的敏感文本大数据示例进行文本集整理,得到至少两组目标业务文本集示例;其中,所述敏感文本大数据示例为对原始业务文本大数据示例注入敏感资源文本得到;基于所述OCR敏感文本优化算法的第一词向量挖掘网络,对所述敏感文本大数据示例进行词向量挖掘,得到所述敏感文本大数据示例的业务文本词向量示例;基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集示例进行敏感词向量挖掘,得到对应的敏感文本词向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于OCR的文本识别方法,其特征在于,应用于文本识别AI系统,所述方法包括:对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集;通过OCR敏感文本优化算法的第一词向量挖掘网络,对所述拟优化业务文本大数据进行词向量挖掘,得到所述拟优化业务文本大数据的业务文本词向量;基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量;基于所述OCR敏感文本优化算法的词向量处理网络,对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量;基于所述OCR敏感文本优化算法的敏感文本脱敏网络,基于所述联动敏感文本词向量及所述业务文本词向量,对所述拟优化业务文本大数据进行敏感文本脱敏,得到对应的已脱敏业务文本大数据。2.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;将所述第一阶段化文本数据库中每阶的文本集作为所述目标业务文本集。3.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;分别将所述第一阶段化文本数据库中各阶的文本集与所述第二阶段化文本数据库中对应阶的文本集进行匹配,得到至少两个文本匹配集;将所述至少两个文本匹配集作为所述目标业务文本集。4.根据权利要求1所述的方法,其特征在于,所述对包含敏感资源文本的拟优化业务文本大数据进行文本集整理,得到至少两组目标业务文本集,包括:对包含敏感资源文本的拟优化业务文本大数据进行阶段化文本集整理,以生成对应所述拟优化业务文本大数据的第一阶段化文本数据库;结合所述对应所述拟优化业务文本大数据的第一阶段化文本数据库,生成对应所述拟优化业务文本大数据的第二阶段化文本数据库;分别对所述第一阶段化文本数据库中各阶的文本集进行语句提炼操作,得到对应的目标文本集;分别将所述第一阶段化文本数据库中各阶的文本集、所述第二阶段化文本数据库中对应阶的文本集、以及与所述第二阶段化文本数据库中对应阶的文本集的规模相同的目标文本集进行匹配,得到至少两个文本匹配集;将所述至少两个文本匹配集作为所述目标业务文本集。
5.根据权利要求1所述的方法,其特征在于,所述第二词向量挖掘网络包括X个局部词向量挖掘网络,所述目标业务文本集的数目为X,所述X为大于等于2的正整数;所述基于所述OCR敏感文本优化算法的第二词向量挖掘网络,分别对各所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量,包括:将每个所述目标业务文本集加载到一个所述局部词向量挖掘网络,基于所述局部词向量挖掘网络对所述目标业务文本集进行敏感词向量挖掘,得到对应的敏感文本词向量。6.根据权利要求1所述的方法,其特征在于,所述敏感文本词向量包括规模向量和关注向量,所述对各所述目标业务文本集的敏感文本词向量进行加权操作,得到联动敏感文本词向量,包括:分别对各所述目标业务文本集的敏感文本词向量进行规模调整,得到对应各所述敏感文本词向量的目标敏感文本词向量;其中,各所述目标敏感文本词向量的规模向量相同;对各所述目标敏感文本词向量的关注向量进行加权操作,得到联动关注向量;将所述目标敏感文本词向量的规模向量与所述联动关注向量进行向量整合,得到所述联动敏感文本词向量。7.根据权利要求1所述的方法,其特征在于,当所述目标业务文本集的数目为u时,所述敏感文本词向量的数目为u,所述对各所述目标业务文本集的敏感文本词向量进行加...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:广州佰锐网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1