文本信息的识别方法、装置、设备及存储介质制造方法及图纸

技术编号:23162051 阅读:28 留言:0更新日期:2020-01-21 22:02
本发明专利技术公开了一种文本信息的识别方法、装置、设备及存储介质,属于图像处理领域。本发明专利技术中,当定位到文本信息所处的整体区域后,基于深度学习,直接确定每个字符以及每个字符的位置的,从而高效、准确地识别出目标物上的文本信息,而无需从图片中分割出各个字符,从而避免了由于印刷或成像质量,而导致字符分割困难的问题,提高了文本信息的识别率。同时,也无需对各个字符分别进行图像识别,提高了识别文本信息的速度和效率。本发明专利技术提供的方法,可以应用在识别集装箱号的场景中,在港口作业的过程中,当抓拍到集装箱图片后,可以自动识别出集装箱图片包含的集装箱号,实现集装箱的自动化管理,避免人工抄录错误,减少人工成本。

Text information identification method, device, equipment and storage medium

【技术实现步骤摘要】
文本信息的识别方法、装置、设备及存储介质
本专利技术涉及图像处理领域,特别涉及一种文本信息的识别方法、装置、设备及存储介质。
技术介绍
随着图像处理以及计算机视觉技术的发展,可以通过电子设备,识别出图片中目标物上的文本信息,例如从集装箱图片中识别出集装箱上的集装箱号、从快递单图片中识别出快递单上的运单号码、从图书图片中识别出图书上的标题等,以便记录文本信息,从而极大地提高了管理目标物的效率,便于跟踪目标物在运输过程中的状态。以文本信息为集装箱上的集装箱号为例,在识别集装箱号的过程中,会根据集装箱图片,定位包含集装箱号的区域,对该区域进行字符分割,即将区域分割为多个图像块,每个图像块包含单个字符,例如,将包含“CAI”的区域,分割为包含“C”的图像块、包含“A”的图像块以及包含“I”的图像块。之后,对于多个图像块中的每个图像块,会将该图像块输入至分类器,分类器会将图像块包含的字符作为图像块的类别,输出图像块包含的字符,例如,将包含“A”的图像块输入至分类器后,分类器会输出字符“A”。之后,会将分类器输出的每个字符,按照对应的图像块的顺序进本文档来自技高网...

【技术保护点】
1.一种文本信息的识别方法,其特征在于,所述方法包括:/n获取目标物图片中的目标区域,所述目标区域包含目标物上的文本信息;/n将所述目标区域输入至卷积神经网络中,得到所述文本信息中的至少一个字符以及第一位置信息,所述第一位置信息用于指示每个字符在所述目标区域中的位置;/n根据所述第一位置信息,对所述至少一个字符进行排序,得到所述文本信息;/n其中,所述卷积神经网络用于识别图片中的字符以及字符在图片中的位置。/n

【技术特征摘要】
1.一种文本信息的识别方法,其特征在于,所述方法包括:
获取目标物图片中的目标区域,所述目标区域包含目标物上的文本信息;
将所述目标区域输入至卷积神经网络中,得到所述文本信息中的至少一个字符以及第一位置信息,所述第一位置信息用于指示每个字符在所述目标区域中的位置;
根据所述第一位置信息,对所述至少一个字符进行排序,得到所述文本信息;
其中,所述卷积神经网络用于识别图片中的字符以及字符在图片中的位置。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一位置信息,对所述至少一个字符进行排序,包括:
确定所述目标物上文本信息的排版方向;
根据所述第一位置信息,确定每个字符的位置;
根据所述排版方向,对所述至少一个字符按照位置进行排序。


3.根据权利要求2所述的方法,其特征在于,所述根据所述排版方向,对所述至少一个字符按照位置进行排序,包括:
当所述排版方向为竖向排版时,对所述至少一个字符,按照位置从上至下的顺序进行排序;或,
当所述排版方向为竖向排版时,对所述至少一个字符,按照位置从下至上的顺序进行排序;或,
当所述排版方向为横向排版时,对所述至少一个字符,按照位置从左至右的顺序进行排序;或,
当所述排版方向为横向排版时,对所述至少一个字符,按照位置从右至左的顺序进行排序。


4.根据权利要求2所述的方法,其特征在于,所述确定所述目标物上文本信息的排版方向,包括:
根据所述卷积神经网络输出的姿态信息,确定所述目标物图片中目标物的姿态;
根据所述目标物的姿态,确定所述姿态对应的排版方向;
其中,所述卷积神经网络还用于识别图片中目标物的姿态。


5.根据权利要求1所述的方法,其特征在于,所述得到所述文本信息之前,所述方法还包括:
当所述至少一个字符中包含混淆字符时,确定所述混淆字符对应的正确字符,所述混淆字符是指被所述卷积神经网络误识别的字符;
将所述混淆字符调整为正确字符。


6.根据权利要求5所述的方法,其特征在于,所述确定所述混淆字符对应的正确字符,包括:
查询字符与字符之间的预设对应关系,得到所述混淆字符对应的正确字符,所述预设对应关系中包括至少一对图像相似而语义不同的字符。


7.根据权利要求5所述的方法,其特征在于,所述确定所述混淆字符对应的正确字符之前,所述方法还包括:
对于所述至少一个字符中的任一字符,当所述字符的排位以及属性不符合文本信息的排列标准时,确定所述字符为混淆字符;
其中,所述排列标准用于指示文本信息中每个排位上字符的属性。


8.根据权利要求1所述的方法,其特征在于,所述将所述目标区域输入至卷积神经网络中,得到所述文本信息中的至少一个字符以及第一位置信息,包括:
当所述卷积神经网络的输出层接收到特征图时,将所述特征图划分为多个栅格;
针对所述多个栅格中的任一栅格,确定中心落入所述栅格的字符以及第二位置信息,所述第二位置信息用于指示中心落入所述栅格的字符在所述目标区域中的位置;
将所述多个栅格对应的字符,作为所述文本信息中的至少一个字符;
对所述多个栅格对应的第二位置信息进行组合,得到所述第一位置信息。


9.根据权利要求8所述的方法,其特征在于,所述确定中心落入所述栅格的字符以及第二位置信息,包括:
确定至少一个边界框的中心点坐标、宽度以及高度,得到所述第二位置信息;
其中,所述至少一个边界框用于标注所述字符的边界。


10.根据权利要求1至9任一项所述的方法,其特征在于,所述卷积神经网络通过以下过程训练得到:
根据多个第一样本目标物图片,对第一初始卷积神经网络进行预训练,得到至少一个训练后的卷积层;
根据所述至少一个训练后的卷积层以及多个第二样本目标物图片,对第二初始卷积神经网络进行训练,得到所述卷积神经网络;
其中,每个第一样本目标物图片中标注了字符,每个第二目标物图片中标注了字符以及字符在第二目标物图片中的位置,所述第二初始卷积神经网络包含所述至少一个训练后的卷积层以及初始化的输出层。


11.根据权利要求1所述的方法,其特征在于,所述获取目标物图片中的目标区域,包括:
确定所述目标物图片中的多个候选边界框;
对每个候选边界框进行特征提取,得到每个候选边界框的特征数据;
根据每个候选边界框的特征数据,确定每个候选边界框的类别,候选边界框的类别包括候选边界框中包含字符以及候选边界框中不包含字符;
根据每个候选边界框的类别,从所述多个候选边界框中选取包含字符的候选边界框,作为目标区域。


12.根据权利要求1所述的方法,其特征在于,所述获取目标物图片中的目标区域,包括:
对所述目标物图片进行特征提取,得到所述目标物图片的特征图,所述特征图包括多个特征点;
确定每个特征点的类别,特征点的类别包括候选点属于字符以及候选点不属于字符;
根据每个特征点的类别,对所述目标物图片进行图像分割,得到所述目标区域,所述目标区域中每个像素映射的特征点属于字符。


13.一种文本信息的识别装置,其特征在于,所述装置包括:
获取模块,用于获取目标物图片中的目标区域,所述目标区域包含目标物上的文本信息;
识别模块,用于将所述目标区域输入至卷积神经网络中,得到所...

【专利技术属性】
技术研发人员:朱丽
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1