【技术实现步骤摘要】
本申请涉及图像处理,尤其是涉及一种单据文本信息的识别方法、装置、电子设备及介质。
技术介绍
1、现有的ocr(光学字符识别)技术在对单据进行结构化时,通常采用训练目标检测模型或基于规则配置模板的方式。因此,现有的识别方式所采用的技术手段单一,导致单据文本信息的识别准确率低。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种单据文本信息的识别方法、装置、电子设备及介质,能够通过多种识别引擎的二次识别流程,以及使用针对单据中不同类别区域设置的校正策略进行文本校正,达到提高单据文本信息的识别准确率的目的。
2、本申请实施例提供了一种单据文本信息的识别方法,所述识别方法包括:
3、对目标单据图片进行预识别,得到所述目标单据图片中每条单据文本信息所在的目标区域以及该目标区域的类别标签;
4、针对每个目标区域,使用多种识别引擎分别对该目标区域中的单据文本信息进行二次识别;
5、对每种识别引擎识别出的单据文本信息进行聚合,得到该目标区域中的初始单据文本
本文档来自技高网...
【技术保护点】
1.一种单据文本信息的识别方法,其特征在于,所述识别方法包括:
2.根据权利要求1所述的识别方法,其特征在于,根据该目标区域对应的类别标签确定校正策略,并按照所述校正策略对初始单据文本信息进行校正,得到该目标区域的单据文本信息,包括:
3.根据权利要求2所述的识别方法,其特征在于,根据所述校正方法将所述第一校正单据文本信息与所述校正命名实体范围内的模板字符串进行相似度匹配,并使用匹配到的模板字符串对所述第一校正单据文本信息进行替换处理,得到该目标区域的单据文本信息,包括:
4.根据权利要求2或3所述的识别方法,其特征在于,在读取针对
...【技术特征摘要】
1.一种单据文本信息的识别方法,其特征在于,所述识别方法包括:
2.根据权利要求1所述的识别方法,其特征在于,根据该目标区域对应的类别标签确定校正策略,并按照所述校正策略对初始单据文本信息进行校正,得到该目标区域的单据文本信息,包括:
3.根据权利要求2所述的识别方法,其特征在于,根据所述校正方法将所述第一校正单据文本信息与所述校正命名实体范围内的模板字符串进行相似度匹配,并使用匹配到的模板字符串对所述第一校正单据文本信息进行替换处理,得到该目标区域的单据文本信息,包括:
4.根据权利要求2或3所述的识别方法,其特征在于,在读取针对该目标区域的类别标签预先配置的校正白名单之前,所述识别方法还包括:
5.根据权利要求1所述的识别方法,其特征在于,所述对目标单据图片进行预识别,得到所述目标单据图片中每条单据文本信息所在的目标区域以及该目标区域的类别标签,包括:
6.根据权利要求1所述...
【专利技术属性】
技术研发人员:孙佩豪,刘洋,刘峰,刘渊,杨明,
申请(专利权)人:中电金信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。