一种视觉特征增强的字符识别方法、装置和设备制造方法及图纸

技术编号:29934404 阅读:42 留言:0更新日期:2021-09-04 19:08
根据本公开的实施例,提供了一种视觉特征增强的字符识别方法、装置和设备。涉及人工智能技术领域,具体涉及计算机视觉和深度学习技术领域,可应用于智慧城市和智慧金融场景。具体方案为:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字符文本特征,字符文本特征对应于区域中的一个字符;针对每个区域,基于区域的视觉特征和多个字符文本特征,确定区域的中的字符的字符视觉语义特征;以及基于字符视觉语义特征,对字符进行识别。由此,能够提升文本识别的准确率。率。率。

【技术实现步骤摘要】
一种视觉特征增强的字符识别方法、装置和设备


[0001]本公开涉及人工智能领域,具体涉及计算机视觉和深度学习
,可应用于智慧城市和智慧金融场景;并且更具体地,涉及用于视觉特征增强的字符识别方法、装置、设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着信息技术的发展,神经网络被广泛用于诸如计算机视觉、语音识别和信息检索等的各种机器学习任务。文档的特定信息提取,是从文档(例如请示、通知函、报告、会议纪要,以及合同、招标书、巡检报告、检修工单)中自动抽取特定信息,包括用户感兴趣的信息实体和关系等。利用神经网络对文档的图像进行处理,以对文档中的信息提取被认为是一种有效的方法。然而,文本识别的准确率还有待提高。

技术实现思路

[0003]根据本公开的示例实施例,提供了一种视觉特征增强的字符识别方法、装置、设备、计算机可读存储介质和计算机程序产品。
[0004]在本公开的第一方面中,提供了一种视觉特征增强的字符识别方法。该方法包括:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和区域的多个字本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉特征增强的字符识别方法,包括:针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和所述区域的多个字符文本特征,所述字符文本特征对应于所述区域中的一个字符;针对每个区域,基于所述区域的视觉特征和所述多个字符文本特征,确定所述区域的中的字符的字符视觉语义特征;以及基于所述字符视觉语义特征,对所述字符进行识别。2.根据权利要求1所述的方法,其中针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和所述区域的多个字符文本特征包括:确定所述包括字符的图像的图像特征;基于所述图像特征和所述图像中的多个区域的每个区域在所述图像中的区域位置信息,确定所述区域的视觉特征;以及基于所述区域位置信息和所述区域中包括的字符,确定所述多个字符文本特征。3.根据权利要求2所述的方法,其中基于所述图像特征和所述图像中的多个区域的每个区域在所述图像中的区域位置信息,确定所述区域的视觉特征包括:确定所述图像中的多个区域的每个区域在所述图像中的区域位置信息;基于所述图像特征和所述区域位置信息,确定所述区域的区域特征;以及将所述区域位置信息和所述区域特征进行组合,以确定所述区域的视觉特征。4.根据权利要求1所述的方法,其中针对每个区域,基于所述区域的视觉特征和所述多个字符文本特征,确定所述区域中的字符的字符视觉语义特征包括:将所述多个区域的所述视觉特征和所述多个字符文本特征进行融合,以获取图像视觉语义特征;对所述图像视觉语义特征进行增强,以获取增强图像视觉语义特征;以及基于增强图像视觉语义特征中的所述多个字符文本特征和相应的视觉特征,确定所述字符视觉语义特征。5.根据权利要求1所述的方法,其中基于所述字符视觉语义特征,对所述字符进行识别包括:将字符的所述字符视觉语义特征按照所述字符在所述图像中的位置进行排序,以获取所述字符视觉语义特征的特征序列;以及基于所述特征序列,确定所述字符的字符类别。6.根据权利要求5所述的方法,还包括:获取待确定的实体的实体类别;以及基于所述实体类别和所述字符类别,确定与所述实体相对应的字符。7.一种视觉特征增强的字符识别装置,包括:第一特征确定模块,被配置为针对包括字符的图像中的多个区域中的每个区域,确定区域的视觉特征和所述区域的多个字符文本特征,所述字符文本特征对应于所述区域中的一个字符;第二特征确定模块,被配置为针对每个区域,基于所述区域的视觉特征和所述多个字符文本特征,确定所述区域的中的字符的字符视觉语义特征;以及字符识别模块,被配置为基于所述字符视觉语义特征,对所述字...

【专利技术属性】
技术研发人员:李煜林庾悦晨钦夏孟章成全姚锟韩钧宇刘经拓丁二锐吴甜王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1