【技术实现步骤摘要】
字符检测方法和装置
本申请涉及人工智能领域,具体涉及机器学习领域,尤其涉及字符检测方法和装置。
技术介绍
机器学习被广泛应用于大数据、图像识别、语音识别等
然而,对于图片中的字符的检测,目前,由于既有的标注样本通常为词级别的标注样本,无法参与对字符进行检测的机器学习模型的训练,导致对字符进行检测的机器学习模型无法得到充分的训练,进而造成无法对图片中的字符进行较为精确地检测。此外,只有符合严格的标注规范的样本才能参与训练,进一步导致可参与训练的标注样本数量的减少。专利技术信息本申请提供了字符检测方法和装置,用于解决上述
技术介绍
部分存在的技术问题。第一方面,本申请提供了字符检测方法,该方法包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符;基于选取出的字符的特征,对机器学习模型进行训练,以利用训练后的机器学习模型对图片中的字符进行检测。第二方面,本申请提供了字符检测装置,该装置包括:输入单元,配置用于将包含经标注的词语的图片作为机器学习模型的输入;选取单元,配置用于基于被机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和经标注的词语的标注信息,从被机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练机器学习模型的字符;训练单元,配置用于基于选取出的字符的特征,对机器学习模型进行训练,以利用训练后的机器学习模型对图片中的字符进行检测 ...
【技术保护点】
一种字符检测方法,其特征在于,所述方法包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符;基于选取出的字符的特征,对所述机器学习模型进行训练,以利用训练后的所述机器学习模型对图片中的字符进行检测。
【技术特征摘要】
1.一种字符检测方法,其特征在于,所述方法包括:将包含经标注的词语的图片作为机器学习模型的输入;基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符;基于选取出的字符的特征,对所述机器学习模型进行训练,以利用训练后的所述机器学习模型对图片中的字符进行检测。2.根据权利要求1所述的方法,其特征在于,所述机器学习模型为卷积神经网络。3.根据权利要求2所述的方法,所述预测结果包括:所述字符对应的包围盒、所述字符对应的置信度,所述标注信息包括:所述经标注的词语对应的包围盒。4.根据权利要求3所述的方法,其特征在于,在将包含经标注的词语的图片作为机器学习模型的输入之后,所述方法还包括:机器学习模型进行前向传播,输出所述预测结果。5.根据权利要求4所述的方法,其特征在于,基于选取出的字符的特征,对所述机器学习模型进行训练包括:将选取出的字符对应的包围盒作为机器学习模型的监督学习方式的标签信息;机器学习模型根据预设损失函数进行后向传导,更新机器学习模型的参数。6.根据权利要求5所述的方法,其特征在于,基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符的预测结果和所述经标注的词语的标注信息,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符包括:基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系和被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符。7.根据权利要求6所述的方法,其特征在于,基于被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒的区域与经标注的词语对应的包围盒的区域之间的比例关系和被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符之间的对齐情况,从被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符中选取出用于训练所述机器学习模型的字符包括:对被所述机器学习模型预测出的位于经标注的词语的标注区域内的字符对应的包围盒计算k近邻,得到所述字符之间的连接关系,其中,每一个所述字符连接k个其他的所述字符;采用以下公式计算两个相连接的字符之间的权重值wij:其中,两个相连接的字符构成一个字符连接对,d(i,j)表示两个相连接的字符之间的距离,表示所有字符连接对中的字符之间的距离的平均值,ti和tj表示两个相连接的字符各自对应的置信度;查找出最大生成树,所述最大生成树包括:依次连接的被机器学习模型预测出的字符并且所述字符之间的权重值之和最大;执行以下选取操作:对当前树中的每一个字符连接对分别进行剪枝,得到多个子树,其中,当选取操作为首次执行时当前树为所述最大生成树;采用以下公式计算子树或当前树的得分s:s=w·s1+(1-w)·s2其中,Bchars表示子树或当前树中的字符对应的包围盒,Banno表示经标注的词语对应的包围盒,area(Bchars)表示子树或当前树中的字符对应的包围盒的面积,area(Banno)表示经标注的词语对应的包围盒的面积,λ1和λ2分别表示Bchars的中心坐标协方差矩阵的最大特征值和第二大特征值,当选取操作为首次执行时w为预设权重值,当选取操不是首次执行时w为子树对应的字符连接对中的两个字符之间的权重值;判断得分最高的子树的得分是否大于当前树的得分;若是,将得分最高的子树作为当前树,以及再次执行选取操作;若否,将当前树中的字符作为用于训练机器学习模型的字符。8.根据...
【专利技术属性】
技术研发人员:章成全,胡瀚,罗宇轩,韩钧宇,丁二锐,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。