字符检测方法和装置制造方法及图纸

技术编号:15640468 阅读:83 留言:0更新日期:2017-06-16 06:06
本申请公开了字符检测方法和装置。该方法的一具体实施方式包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符;基于选取出的字符的特征,对机器学习模型进行训练。实现了利用既有的词级别标注的图片即可对机器学习模型进行充分地训练,得到可对图片中的字符进行检测的机器学习模型,降低了训练可对图片中的字符进行检测的机器学习模型的开销。

【技术实现步骤摘要】
字符检测方法和装置
本申请涉及人工智能领域,具体涉及机器学习领域,尤其涉及字符检测方法和装置。
技术介绍
机器学习被广泛应用于大数据、图像识别、语音识别等
然而,对于图片中的字符的检测,目前,由于既有的标注样本通常为词级别的标注样本,无法参与对字符进行检测的机器学习模型的训练,导致对字符进行检测的机器学习模型无法得到充分的训练,进而造成无法对图片中的字符进行较为精确地检测。此外,只有符合严格的标注规范的样本才能参与训练,进一步导致可参与训练的标注样本数量的减少。专利技术信息本申请提供了字符检测方法和装置,用于解决上述
技术介绍
部分存在的技术问题。第一方面,本申请提供了字符检测方法,该方法包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符;基于选取出的字符的特征,对机器学习模型进行训练,以利用训练后的机器学习模型对图片中的字符进行检测。第二方面,本申请提供了字符检测装置,该装置包括:输入单元,配置用于将包含经标注的词语的图片作为机器学习模型的输入;选取单元,配置用于基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符;训练单元,配置用于基于选取出的字符的特征,对机器学习模型进行训练,以利用训练后的机器学习模型对图片中的字符进行检测。本申请提供的字符检测方法和装置,通过将包含经标注的词语的图片作为机器学习模型的输入;基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符;基于选取出的字符的特征,对机器学习模型进行训练。实现了利用既有的词级别标注的图片即可对机器学习模型进行充分地训练,得到可对图片中的字符进行检测的机器学习模型,降低了训练可对图片中的字符进行检测的机器学习模型的开销。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了根据本申请的字符检测方法的一个实施例的流程图;图2示出了根据本申请的字符检测方法的另一个实施例的流程图;图3示出了适用于本申请的字符检测方法的一个示例性架构图;图4示出了根据本申请的字符检测装置的一个实施例的结构示意图;图5示出了适于用来实现本申请实施例的字符检测装置的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。请参考图1,其示出了根据本申请的字符检测方法的一个实施例的流程。该方法包括以下步骤:步骤101,将包含经标注的词语的图片作为机器学习模型的输入。在本实施例中,包含经标注的词语的图片中可以包含用于对词语的位置进行标注的对象。例如,图片中包含用于对图片中的词语的位置进行标注的包围词语的标注框,可以将该图片中的位于该标注框内的词语称之为经标注的词语,将该包含经标注的词语的图片称之为词级别标注的图片,将该标注框称之为经标注的词语的标注信息。在本实施例中,可以将词级别标注的图片作为机器学习模型的输入。当图片中的一个位置存在字符的概率大于阈值时,机器学习模型可以预测该位置可能存在字符,可以将位于该位置的对象称之为被预测出的字符。机器学习模型可以输出被预测出的字符的预测结果。在本实施例的一些可选的实现方式中,机器学习模型为卷积神经网络。在本实施例中,机器学习模型可以为卷积神经网络,卷积神经网络可以包括但不限于:深度卷积网络、SSD(singleshotmultiboxdetector)、R-FCN:(ObjectDetectionviaRegion-basedFullyConvolutionalNetworks)、FasterRCNN等通用物体预测深度卷积网络框架。在本实施例的一些可选的实现方式中,被机器学习模型预测出的字符的预测结果包括:字符对应的置信度、字符对应的包围盒,经标注的词语的标注信息包括:经标注的词语对应的包围盒。应理解,在本实施例中,包围盒并不特指某一对象,可以将机器学习模型对图片中的待检测的对象进行预测时使用的包围待检测的对象的对象称之为包围盒。相应地,包围盒可以对应一个置信度。以机器学习模型为卷积神经网络SSD为例,在将词级别标注的图片作为SSD的输入即将词级别标注的图片输入到SSD之后,SSD可以输出被预测出的字符的预测结果。被预测出的字符的预测结果可以包括:该字符对应的包围盒(boundingbox)和该字符对应的置信度(text/non-textscore),该字符对应的置信度可以用于表示包围盒中的对象为字符的概率。在本实施例的一些可选的实现方式中,还包括:将词级别标注的数据集中的词级别标注的图片作为包含经标注的词语的图片,词级别标注的图片包括:用于对词语的位置进行标注的包围词语的标注框。例如,词级别标注的数据集COCO-Text数据集中包含词级别标注的图片。词级别标注的图片包含用于对词语的位置进行标注的包围词语的标注框和位于该标注框内的经标注的词语。可以将COCO-Text数据集中的词级别标注的图片作为机器学习模型的输入。步骤102,基于标注区域内的字符的预测结果和标注信息,选取出用于训练的字符。在本实施例中,为了利用词级别标注的图片对机器学习模型进行训练,得到用于对图片中的字符进行检测的机器学习模型,可以首先从被机器学习模型预测出的字符中查找出位置位于经标注的词语的标注区域内的字符。然后,可以基于被预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被预测出的位于经标注的词语的标注区域内的字符中选取出适用于参与机器学习模型的训练的字符。以机器学习模型为卷积神经网络SSD,词级别标注的图片中包含标注框为例,经标注的词语的标注信息为该标注框。经标注的词语的标注区域为该标注框占用的区域。该标注框可以为任意形状例如多边形,用于包围图片中的词语对词语的位置进行标注。该标注框也可称之为经标注的词语对应的包围盒。在将包含经标注的词语的图片作为SSD的输入之后,SSD可以输出被预测出的字符的预测结果。被SSD预测出的字符的预测结果可以包括:该字符对应的包围盒和该字符对应的置信度,该字符对应的置信度可以用于表示包围盒中的对象为字符的概率。可以首先从被SSD预测出的字符中查找出位于该标注框内的字符。例如,当被预测出的字符对应的包围盒在经标注的词语对应的包围盒中时,则可以确定该被检测出的字符的位置位于该标注框内。然后,可以根据被SSD预测出的位于标注框内的字符的预测结果和经标注的词语对应的包围盒,从被SS本文档来自技高网...
字符检测方法和装置

【技术保护点】
一种字符检测方法,其特征在于,所述方法包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符;基于选取出的字符的特征,对所述机器学习模型进行训练,以利用训练后的所述机器学习模型对图片中的字符进行检测。

【技术特征摘要】
1.一种字符检测方法,其特征在于,所述方法包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符;基于选取出的字符的特征,对所述机器学习模型进行训练,以利用训练后的所述机器学习模型对图片中的字符进行检测。2.根据权利要求1所述的方法,其特征在于,所述机器学习模型为卷积神经网络。3.根据权利要求2所述的方法,所述预测结果包括:所述字符对应的包围盒、所述字符对应的置信度,所述标注信息包括:所述经标注的词语对应的包围盒。4.根据权利要求3所述的方法,其特征在于,在将包含经标注的词语的图片作为机器学习模型的输入之后,所述方法还包括:机器学习模型进行前向传播,输出所述预测结果。5.根据权利要求4所述的方法,其特征在于,基于选取出的字符的特征,对所述机器学习模型进行训练包括:将选取出的字符对应的包围盒作为机器学习模型的监督学习方式的标签信息;机器学习模型根据预设损失函数进行后向传导,更新机器学习模型的参数。6.根据权利要求5所述的方法,其特征在于,基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符包括:基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系和被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符。7.根据权利要求6所述的方法,其特征在于,基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系和被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符包括:对被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒计算k近邻,得到所述字符之间的连接关系,其中,每一个所述字符连接k个其他的所述字符;采用以下公式计算两个相连接的字符之间的权重值wij:其中,两个相连接的字符构成一个字符连接对,d(i,j)表示两个相连接的字符之间的距离,表示所有字符连接对中的字符之间的距离的平均值,ti和tj表示两个相连接的字符各自对应的置信度;查找出最大生成树,所述最大生成树包括:依次连接的被机器学习模型预测出的字符并且所述字符之间的权重值之和最大;执行以下选取操作:对当前树中的每一个字符连接对分别进行剪枝,得到多个子树,其中,当选取操作为首次执行时当前树为所述最大生成树;采用以下公式计算子树或当前树的得分s:s=w·s1+(1-w)·s2其中,Bchars表示子树或当前树中的字符对应的包围盒,Banno表示经标注的词语对应的包围盒,area(Bchars)表示子树或当前树中的字符对应的包围盒的面积,area(Banno)表示经标注的词语对应的包围盒的面积,λ1和λ2分别表示Bchars的中心坐标协方差矩阵的最大特征值和第二大特征值,当选取操作为首次执行时w为预设权重值,当选取操不是首次执行时w为子树对应的字符连接对中的两个字符之间的权重值;判断得分最高的子树的得分是否大于当前树的得分;若是,将得分最高的子树作为当前树,以及再次执行选取操作;若否,将当前树中的字符作为用于训练机器学习模型的字符。8.根据...

【专利技术属性】
技术研发人员:章成全胡瀚罗宇轩韩钧宇丁二锐
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1