当前位置: 首页 > 专利查询>清华大学专利>正文

基于物体检测网络的英文字符切分方法及装置制造方法及图纸

技术编号:19635623 阅读:30 留言:0更新日期:2018-12-01 16:16
本发明专利技术实施例公开一种基于物体检测网络的英文字符切分方法及装置,能提高图片中英文字符切分的准确度。方法包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

English Character Segmentation Method and Device Based on Object Detection Network

The embodiment of the invention discloses an English character segmentation method and device based on an object detection network, which can improve the accuracy of Chinese and English character segmentation in pictures. The method includes: S1, acquiring the image to be segmented, extracting the line area of English text from the image to be segmented; S2, inputting the line area of English text into the pre-trained object detection network, obtaining the segmentation result of the English character of the image to be segmented, in which the object detection network is training. The training samples used include indented adhesion samples, spread adhesion samples, visual angle adhesion samples and special effect adhesion samples.

【技术实现步骤摘要】
基于物体检测网络的英文字符切分方法及装置
本专利技术实施例涉及文字识别领域,具体涉及一种基于物体检测网络的英文字符切分方法及装置。
技术介绍
近些年来,与文字识别相关的领域受益于卷积神经网络得到更多的关注。一般而言,文字识别过程是由高层次的文字行到低层次的字符展开的。对于文字行的定位以及单个字符的识别过程均取得了令人瞩目的效果,从文字行区域得到单个字符区域不可或缺的需要字符切分工作,然而与文字切分相关的工作仍发展缓慢,成为目前限制文字识别效果的一项主要因素。提高字符切分的精度可以解决目前文字识别过程中存在的短板,大幅度提高文字识别效率,以应用于智能的文字信息获取,助力于实现更便捷的图文信息的相互转化。文字行中字符的切分工作面临的主要难题是字符的粘连现象,尤其针对英文字符而言,粘连现象更是普遍存在。粘连现象描述的是文字行中字符的笔画重叠或是字符的区域重叠的这个问题。相互粘连的字符给切分工作带来了很大困难,传统方法在字符切分的效果上并不能令人满意。除了粘连现象以外,文字行中字符大小变化范围大、场景图片的倾斜与畸变、文字复杂的字体与艺术格式等状况也加大了字符切分的难度,寻找一种新的字符切分方法便显得尤为迫切且充满了挑战性。
技术实现思路
针对现有技术存在的不足和缺陷,本专利技术实施例提供一种基于物体检测网络的英文字符切分方法及装置。一方面,本专利技术实施例提出一种基于物体检测网络的英文字符切分方法,包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。另一方面,本专利技术实施例提出一种基于物体检测网络的英文字符切分装置,包括:提取单元,用于获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;输入单元,用于将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。本专利技术实施例提供的基于物体检测网络的英文字符切分方法及装置,通过获取待切分的图片,从所述待切分的图片中提取出英文文本行区域,并将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,整个方案中所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本,因而相较于现有技术,本专利技术实施例能够解决存在粘连情况下的字符切分问题,提高图片中英文字符切分的准确度。附图说明图1为本专利技术基于物体检测网络的英文字符切分方法一实施例的流程示意图;图2为本专利技术基于物体检测网络的英文字符切分装置一实施例的结构示意图;图3为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术实施例保护的范围。参看图1,本实施例公开一种基于物体检测网络的英文字符切分方法,包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。本实施例中,处理对象为文字行图片或是包含文字的图片,将图片中可能存在粘连的字符切分开来。而在目前所知的公开数据集中还没有以字符级别标注的粘连文字图片。但是一般而言,对一种卷积神经网络模型的训练,首先要具备充足的经过标注的数据,才能够训练出有效的模型。对文字而言,样本集过小一方面不能得到收敛的训练模型,另一方面不能反映与代表真实环境中复杂的文字字体、颜色、大小等情况。真实图片中的文字,不仅种类繁多,自身变化差异较大,而且由于拍摄的角度、光照等因素产生很多干扰项,给切分工作带来了很多的困难。因而本实施例使用自动生成的人工训练样本,模拟真实的自然场景中的图像。合成数据与人工标记的图片相比,虽然真实性较差,但仍在一定程度上模拟了文字行区域所处的复杂背景,而且生成速度快,位置与字符类别标注更加精准,可以用来代替真实标注的数据集。通过观察常见的字符粘连样例,可以发现文字行中的字符的粘连特性一般体现在四个方面。第一种是相邻字符中的缩进,因为排版过程中的缩进导致字符区域合并到了一起,笔画重叠使得切分工作十分困难,因而这种情况可以形象的称为“缩进粘连”。第二种情况是由于字符的延展而产生的,在很多字体格式当中,每个字符的区域并不是完全独立的,为了字体的美观性,许多种类的字符具有一定的延展空间,使得其部分区域已经蔓延到相邻字符区域中,可以形象的将这种状况描述为“蔓延粘连”,虽然在像素层面字符没有粘连,但是字符所在的区域框却有重叠,此时不能用一条边界将二者区分开,而需要一对边界进行切分。第三种情况是由于透视或者倾斜所产生的,在这种情况下,实际字符本身并没有粘连,但由于拍摄角度倾斜产生的透视,或者是由于字符是被刻画在弯曲的物体上时,拍摄得到的图片当中会使字符有粘连,因而这种情况可以称之为“视角粘连”。除了这三种的情况以外,字体的艺术效果如阴影,倾斜也会有影响。字符的阴影效果会在字符旁边产生一个虚化的字符轮廓,虽然相对于原始字符而言颜色较淡,但仍会对切分工作产生干扰。而字符使用倾斜特效时,其边界区域为一平行四边形,但是检测网络使用的边界框通常为矩形框,用矩形去标定平行四边形,难免会在切分字符时得到相邻字符的部分结构。这种由于艺术特效所产生的粘连情况可以称为“特效粘连”。在人工合成样本的过程中,充分考虑了这些可能产生粘连的情况,并在样本当中尽可能真实的还原了字符粘连。为了展示物体检测网络的切分效果,可以生成一批黑白文字行图片作为训练样本。为了排除图片尺寸对结果的影响,限定人工生成图片为固定规格,由于单纯的文字行的宽长比很大,而物体检测网络输入图片尺度接近正方形,所以不适合直接对其投入到后续的网络训练过程,因而需要将将文字行填充到一个更友善的宽长比图片中,而本实施例中可以将人工生成图片的大小设定为800*400。之后选择填充到黑白图片中的文本,从一个英文报刊当中随机截取一个片段,由于测试的是文字行的切分效果,所以从片段当中只选择了一行文字。根据图片的宽与长,在一定的范围内随机选择插入字符的尺寸,特别的图片尺度为800*400时,插入的本文档来自技高网...

【技术保护点】
1.一种基于物体检测网络的英文字符切分方法,其特征在于,包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。

【技术特征摘要】
1.一种基于物体检测网络的英文字符切分方法,其特征在于,包括:S1、获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;S2、将所述英文文本行区域输入预先训练得到的物体检测网络,得到所述待切分的图片的英文字符的切分结果,其中,所述物体检测网络在训练时使用的训练样本包括缩进粘连样本、蔓延粘连样本、视角粘连样本和特效粘连样本。2.根据权利要求1所述的方法,其特征在于,所述训练样本包括真实样本和人工合成样本。3.根据权利要求2所述的方法,其特征在于,所述物体检测网络在训练时将形状相似的字符合并作为一个类别,通过物体检测网络检测出每个类别的准确位置,从而完成字符的切分。4.根据权利要求1所述的方法,其特征在于,所述物体检测网络为FasterR-CNN或YOLOv3。5.一种基于物体检测网络的英文字符切分装置,其特征在于,包括:提取单元,用于获取待切分的图片,从所述待切分的图片中提取出英文文本行区域;输入单元,用于将所述英文文本行区域输入预先训练得到的物体检...

【专利技术属性】
技术研发人员:刘长松左天佑王言伟彭良瑞丁晓青
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1