识别文字的方法和装置制造方法及图纸

技术编号:26172757 阅读:27 留言:0更新日期:2020-10-31 13:52
本申请公开了一种识别文字的方法和装置,涉及人工智能技术领域、计算机视觉技术领域、知识图谱技术领域和自然语言处理技术领域。方法包括:获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;从文字中心线图中提取字符中心的特征点的坐标;基于文字方向偏移图,排序字符中心的特征点的坐标,得到字符中心的特征点的坐标序列;根据字符中心的特征点的坐标序列和文字边界偏移图,确定文字区域的多边形包围框;根据字符中心的特征点的坐标序列和文字字符分类图,确定字符中心的特征点的分类结果。该方法可以对输入图像中任意方向的文字进行识别,提高了文字的识别效率和准确率。

【技术实现步骤摘要】
识别文字的方法和装置
本公开涉及计算机
,具体涉及人工智能
、计算机视觉
、知识图谱
和自然语言处理
,尤其涉及识别文字的方法和装置。
技术介绍
自然场景下的端到端文字检测识别技术可以被广泛应用于社会的各行各业,如教育、医疗、金融等领域。由文字检测识别技术派生的常见卡证票据的识别、文档的自动化录入、拍照搜题、AR实时翻译等技术极大地提升了传统行业的智能化程度和生产效率,方便了人们的日常学习与生活。近年来,自然场景下的端到端文字检测识别技术得到了快速发展,很多公司及研究者采用检测+识别的两阶段解决方案或者基于字符的方法来实现端到端检测识别。在将检测和识别问题当作子问题分别进行处理的两阶段解决方案中,文字检测旨在确定图像中文字的位置,常见的方法有高效和准确的场景文本检测(East);文字识别是一个多分类任务,旨在确定图像中文字的内容,常用的方法有联结主义时间分类(ConnectionistTemporalClassification,缩写为CTC)和注意力机制(Attention)。两阶段的端到端方案通本文档来自技高网...

【技术保护点】
1.一种识别文字的方法,方法包括:/n获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;/n从文字中心线图中提取字符中心的特征点的坐标;/n基于文字方向偏移图,排序所述字符中心的特征点的坐标,得到所述字符中心的特征点的坐标序列;/n根据所述字符中心的特征点的坐标序列和所述文字边界偏移图,确定所述文字区域的多边形包围框;/n根据所述字符中心的特征点的坐标序列和所述文字字符分类图,确定所述字符中心的特征点的分类结果。/n

【技术特征摘要】
1.一种识别文字的方法,方法包括:
获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;
从文字中心线图中提取字符中心的特征点的坐标;
基于文字方向偏移图,排序所述字符中心的特征点的坐标,得到所述字符中心的特征点的坐标序列;
根据所述字符中心的特征点的坐标序列和所述文字边界偏移图,确定所述文字区域的多边形包围框;
根据所述字符中心的特征点的坐标序列和所述文字字符分类图,确定所述字符中心的特征点的分类结果。


2.根据权利要求1所述的方法,其中,所述基于文字方向偏移图,排序所述字符中心的特征点的坐标,得到所述字符中心的特征点的坐标序列,包括:
基于文字方向偏移图,计算文字阅读方向;
根据文字阅读方向,排序所述字符中心的特征点的坐标,得到所述字符中心的特征点的坐标序列。


3.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述多边形包围框和所述字符中心的特征点的分类结果,解码得到文字区域的识别结果。


4.根据权利要求1所述的方法,其中,所述获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图,包括:
采用主干卷积网络,获取输入图像的卷积特征图;
采用多分支卷积网络,从所述卷积特征图中分别提取文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图。


5.根据权利要求4所述的方法,其中,所述多分支卷积网络包括以下至少一项:
以所述卷积特征图为输入,以文字中心线图为输出,采用Dice系数损失函数监督学习的第一分支卷积网络;
以所述卷积特征图为输入,以文字边界偏移图为输出,采用smoothL1损失函数监督学习的第二分支卷积网络;
以所述卷积特征图为输入,以文字方向偏移图为输出,采用smoothL1损失函数监督学习的第三分支卷积网络;
以所述卷积特征图为输入,以文字字符分类图为输出,采用点采集-联结主义时间分类损失函数监督学习的第四分支卷积网络。


6.根据权利要求1或4所述的方法,其中,所述方法还包括以下至少一项:
所述从文字中心线图中提取字符中心的特征点的坐标,包括:采用预先训练的提取模块从文字中心线图中提取字符中心的特征点的坐标;
所述基于文字方向偏移图,排序所述字符中心的特征点的坐标,得到所述字符中心的特征点的坐标序列,包括:采用预先训练的排序模块,基于文字方向偏移图,排序所述字符中心的特征点的坐标,得到所述字符中心的特征点的坐标序列;
所述根据所述字符中心的特征点的坐标序列和所述文字边界偏移图,确定所述文字区域的多边形包围框,包括:采用包围框拾取模块,基于所述字符中心的特征点的坐标序列,从所述文字边界偏移中,确定文字区域的多边形包围框;以及
所述根据所述字符中心的特征点的坐标序列和所述文字字符分类图,确定所述字符中心的特征点的分类结果,包括:采用字符分类模块,基于所述字符中心的特征点的坐标序列,从文字字符分类图中,确定所述字符中心的特征点的分类结果。


7.根据权利要求3所述的方法,其中,所述方法还包括:
推理所述文字区域的识别结果中的语义信息;
基于所述语义信息,对所述识别结果进行调整,得到调整后的识别结果。


8.根据权利要求7所述的方法,其中,所述推理所述文字区域的识别结果中的语义信息,包括:
基于所述字符中心的特征点的坐标序列,从文字字符分类图中进行点采集,得到所述字符中心的特征点的语义特征点;
将所述语义特征点作为语义节点,将基于所述语义特征点之间的距离所确定的所述语义特征点之间的语义邻接关系作为边连接,构建语义图。


9.根据权利要求8所述的方法,其中,所述基于所述语义信息,对所述识别结果进行调整,得到调整后的识别结果,包括:
基于所述字符中心的特征点的坐标序列,从所述卷积特征图中进行点采集,得到所述字符中心的特征点的视觉特征点;
将所述视觉特征点作为视觉节点,将基于所述视觉特征点之间的距离所确定的所述视觉特征点之间的视觉邻接关系作为边连接,构建视觉图;
采用语义图网络对所述语义图进行推理,得到语义图特征;
采用视觉图网络对所述视觉图进行推理,得到视觉图特征;
融合所述语义图特征和所述数据图特征,得到融合后的特征;
对所述融合后的特征进行分类,得到调整后的识别结果。


10.根据权利要求9所述的方法,其中,所述语义图网络和所述视觉图网络在训练阶段分别采用联结主义时间分类损失函数进行训练样本的监督学习。


11.一种识别文字的装置,装置包括:
图像获取模块,被配置成获取输入图像的文字区域的以下图像:文字中心线图、文字方向偏移图、文字边界偏移图、文字字符分类图;
坐标获取模块,被配置成从文字中心线图中提取字符中心的特征点的坐标;
坐标...

【专利技术属性】
技术研发人员:张晓强吕鹏原刘珊珊章成全
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1