一种行业场景化的OCR模型实现系统、方法及设备技术方案

技术编号:33147725 阅读:24 留言:0更新日期:2022-04-22 14:00
本发明专利技术公开了一种行业场景化的OCR模型实现系统、方法及设备,本发明专利技术通过设置行业场景化知识库、行业场景化OCR模型、行业场景化OCR理解模块以及第三方行业资源检索接口,对待识别图片进行OCR识别,根据OCR识别结果以及所述行业场景化知识库进行场景化理解处理,确定行业拟合置信度,当所述行业拟合置信度小于置信度阈值,获取行业补充资源,结合行业场景化知识库、行业场景化OCR模型、行业场景化OCR理解模块,提高不同行业场景下的识别适应性,提高识别准确性;通过第三方行业资源检索接口获取的行业补充资源有利于进一步提高识别准确性,本发明专利技术可广泛应用于文字识别领域。本发明专利技术可广泛应用于文字识别领域。本发明专利技术可广泛应用于文字识别领域。

【技术实现步骤摘要】
一种行业场景化的OCR模型实现系统、方法及设备


[0001]本专利技术涉及文字识别领域,尤其是一种行业场景化的OCR模型实现系统、方法及设备。

技术介绍

[0002]OCR(Optical Character Recognition,光学字符识别)是待识别对象通过字符识别方法将形状翻译成计算机文字的过程,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。目前印刷体数字和字母符号识别、卡证识别等通用OCR技术已经相对成熟,但在深入到多行业、多场景下多形态文本检测与识别、手写体文本检测与识别等复杂场景下OCR技术仍存在缺陷,例如不同行业场景下多形态文本和手写体文本识别率低。

技术实现思路

[0003]有鉴于此,为了解决上述技术问题,本专利技术的目的是提供一种提高识别准确率的行业场景化的OCR模型实现系统、方法及设备。
[0004]本专利技术实施例采用的技术方案是:
[0005]一种行业场景化的OCR模型实现系统,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种行业场景化的OCR模型实现系统,其特征在于,包括:行业场景化知识库;行业场景化OCR模型,用于对待识别图片进行OCR识别;行业场景化OCR理解模块,用于根据OCR识别结果以及所述行业场景化知识库进行场景化理解处理,确定行业拟合置信度;第三方行业资源检索接口,用于当所述行业拟合置信度小于置信度阈值,获取行业补充资源。2.根据权利要求1所述行业场景化的OCR模型实现系统,其特征在于:所述行业场景化OCR理解模块,具体地用于对所述OCR识别结果以及所述行业场景化知识库进行行业特征匹配拟合处理,对行业特征匹配拟合处理结果进行场景化理解,确定行业拟合置信度。3.根据权利要求1所述行业场景化的OCR模型实现系统,其特征在于:所述第三方行业资源检索接口,具体地用于当所述行业拟合置信度小于置信度阈值,进行相关行业知识库检索、互联网搜索引擎以及社交网络搜索中的至少一种以确定多个检索文本,计算所述检索文本的文本置信度,将所述文本置信度由高至低进行排列,将排名靠前的预设数量个检索文本作为行业补充资源。4.根据权利要求1所述行业场景化的OCR模型实现系统,其特征在于:所述行业场景化的OCR模型实现系统还包括通用OCR模型,所述通用OCR模型包括通用文字识别模块、通用卡证识别模块、票据单据识别模块、车牌/标牌识别模块以及通用文档识别模块中的至少一种。5.根据权利要求1所述行业场景化的OCR模型实现系统,其特征在于:所述行业场景化的OCR模型实现系统还包括OCR/推理框架,所述OCR/推理框架用于根据所述行业补充资源对所述行业场景化OCR模型进行训练更新。6.一种行业场景化的OCR模型实现方法,其特征在于,应用于行业场景化的OCR模型实现...

【专利技术属性】
技术研发人员:张建雄杨震龚晟李洁彭晓春
申请(专利权)人:天翼物联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1