【技术实现步骤摘要】
样本标注方法及计算机存储介质
本专利技术涉及计算机
,尤其涉及一种样本标注方法及计算机存储介质。
技术介绍
随着人工智能和机器学习技术的发展,越来越多的领域将机器学习方法嵌入设备,使之具有一定的智能性。随之而来的是对用于机器学习训练的训练样本的需求增长。例如,在训练光学字符检测模型和识别模型时都需要大量的标注样本,标注样本是指在真实样本上标注出用于指示字符位置的字符框和字符类别。现有技术中,在获取真实样本时利用纯手工标注的方法。这种方法因为依赖于人工,所以标注效率低;而且,因为人工标注会有一定的精度损失,例如存在人工失误造成字符位置标注不准确,字符内容标注错误的情况,这使得标注后的样本在进行机器学习训练时的效果不是很好。
技术实现思路
有鉴于此,本专利技术实施例提供一种样本标注方法及计算机存储介质,以解决现有技术中真实样本采用人工标注效率低、标注效果不好的问题。本专利技术实施例提供一种样本标注方法,包括:获取待标注的样本图像;对所述待标注的样本图像进行连通域分析和字符类别识别,并生成第一检测识别结果,其中,所述第一检测识别结果包括用于指示所述待标注的样本图像中的各字符的第一字符位置的信息和第一字符类别的信息;确定是否存在用于检测图像中字符位置的第一神经网络模型和用于对图像中字符进行识别的第二神经网络模型;若存在,则通过所述第一神经网络模型和第二神经网络模型,对所述待标注的样本图像进行字符检测和识别,并生成第二检测识别结果,其中,所述第二检测识别结果包括检测出的所述待标注的样本图像中的各字符的第二字符位置的信息和第二字符类别的信息;分别比对所述第一字符位置 ...
【技术保护点】
1.一种样本标注方法,其特征在于,包括:获取待标注的样本图像;对所述待标注的样本图像进行连通域分析和字符类别识别,并生成第一检测识别结果,其中,所述第一检测识别结果包括用于指示所述待标注的样本图像中的各字符的第一字符位置的信息和第一字符类别的信息;确定是否存在用于检测图像中字符位置的第一神经网络模型和用于对图像中字符进行识别的第二神经网络模型;若存在,则通过所述第一神经网络模型和第二神经网络模型,对所述待标注的样本图像进行字符检测和识别,并生成第二检测识别结果,其中,所述第二检测识别结果包括检测出的所述待标注的样本图像中的各字符的第二字符位置的信息和第二字符类别的信息;分别比对所述第一字符位置和所述第二字符位置,以及,所述第一字符类别和第二字符类别,根据比对结果确定字符位置标注结果和字符类别标注结果;根据所述字符位置标注结果和所述字符类别标注结果,生成所述待标注的样本图像的标注信息。
【技术特征摘要】
1.一种样本标注方法,其特征在于,包括:获取待标注的样本图像;对所述待标注的样本图像进行连通域分析和字符类别识别,并生成第一检测识别结果,其中,所述第一检测识别结果包括用于指示所述待标注的样本图像中的各字符的第一字符位置的信息和第一字符类别的信息;确定是否存在用于检测图像中字符位置的第一神经网络模型和用于对图像中字符进行识别的第二神经网络模型;若存在,则通过所述第一神经网络模型和第二神经网络模型,对所述待标注的样本图像进行字符检测和识别,并生成第二检测识别结果,其中,所述第二检测识别结果包括检测出的所述待标注的样本图像中的各字符的第二字符位置的信息和第二字符类别的信息;分别比对所述第一字符位置和所述第二字符位置,以及,所述第一字符类别和第二字符类别,根据比对结果确定字符位置标注结果和字符类别标注结果;根据所述字符位置标注结果和所述字符类别标注结果,生成所述待标注的样本图像的标注信息。2.根据权利要求1所述的方法,其特征在于,在确定是否存在用于检测图像中字符位置的第一神经网络模型和用于对图像中字符进行识别的第二神经网络模型之后,所述方法还包括:若不存在,则根据所述待标注的样本图像中的各字符的第一字符位置的信息和第一字符类别的信息,生成所述待标注的样本图像的标注信息。3.根据权利要求1所述的方法,其特征在于,分别比对所述第一字符位置和所述第二字符位置,以及,所述第一字符类别和第二字符类别,根据比对结果确定字符位置标注结果和字符类别标注结果,包括:根据所述待标注的样本图像中的各字符的第一字符位置的信息确定各字符的第一字符框,根据各字符的第二字符位置的信息确定各字符的第二字符框;比对各字符的所述第一字符框和所述第二字符框,并根据比对结果确定字符位置标注结果,根据所述字符位置标注结果、各字符的所述第一字符类别和第二字符类别,确定各字符的字符类别标注结果。4.根据权利要求3所述的方法,其特征在于,比对各字符的所述第一字符框和所述第二字符框,并根据比对结果确定字符位置标注结果,根据所述字符位置标注结果、各字符的所述第一字符类别和第二字符类别,确定各字符的字符类别标注结果,包括:针对每个字符,判断是否存在与当前字符的所述第一字符框存在重叠、且重叠面积大于预设重叠值的第二字符框,若存在,则将所述第二字符框对应的第二字符位置的信息确定为当前字符的字符位置标注结果,并确定与所述第二字符位置对应的第二字符类别作为候选字符类别;判断所述候选字符类别是否为设定类别;若为设定类别,则确定所述第一字符类别作为字符类别标注结果;若不为设定类别,则将所述候选字符类别确定为字符类别标注结果。5.根据权利要求3所述的方法,其特征在于,比对各字符的所述第一字符框和所述第二字符框,并根据比对结果确定字符位置标注结果,根据所述字符位置标注结果、各字符的所述第一字符类别和第二字符类别,确定各字符的字符类别标注结果,包括:针...
【专利技术属性】
技术研发人员:兴百桥,
申请(专利权)人:北京世纪好未来教育科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。