样本标注方法及计算机存储介质技术

技术编号:21893108 阅读:25 留言:0更新日期:2019-08-17 14:58
本发明专利技术提供了一种样本标注方法及计算机存储介质。该样本标注方法,包括:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框;针对每个字符框,判断当前字符框是否满足以下条件中的至少两个:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;若是,则将当前字符框对应的字符标注为分式线,并进行分式线处理。该样本标注方法的标注效果更好。

Sample Labeling Method and Computer Storage Media

【技术实现步骤摘要】
样本标注方法及计算机存储介质
本专利技术涉及计算机
,尤其涉及一种样本标注方法及计算机存储介质。
技术介绍
随着人工智能和机器学习技术的发展,越来越多的领域开始采用机器学习方法训练设备,使之具有一定的智能性。随之而来的是对训练样本的需求增长。例如,在训练光学字符检测模型和识别模型时都需要大量的标注样本,标注样本是指在真实样本上通过人工标注出用于指示字符位置的字符框和字符类别。现有的在获取真实样本时利用纯手工标注的方法,存在着效率低的问题,而且因为人工标注会有一定的精度损失,例如存在人工失误造成字符位置标注不准确,字符内容标注错误的情况,这使得标注后的样本在进行机器学习方法训练设备时效果不能发挥最好。现有的字符检测模型可以实现自动化字符检测,并可以通过字符框的方式对字符进行标识,但也存在着一些问题,例如,在包含公式的样本图像中,可能存在一些公式符号,例如分式线、根号、加号和减号等,这些公式符号通过现有的字符检测模型可能被误检测为其他字形类似的字符或者根本不能被检测,使得字符检测的准确度下降,需要人工进行大量修正,增加了人工的劳动强度。在通过人工修正时,又存在着前述的人工标注精度低的问题。总之,现有的通过字符标注方法存在着效率低、精度不好的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种样本标注方法及计算机存储介质,以解决现有技术中真实样本标注准确率低的问题。本专利技术实施例提供一种样本标注方法,其包括:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框;针对每个字符框,判断当前字符框是否满足以下条件中的至少两个:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;若是,则将当前字符框对应的字符标注为分式线,并进行分式线处理。根据本专利技术的另一方面,提供一种计算机存储介质,该计算机存储介质存储有:用于通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的指令;用于针对每个字符框,判断当前字符框是否满足以下条件中的至少两个的指令,其中,以下条件包括:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;用于当满足至少两个条件时,将当前字符框对应的字符标注为分式线,并进行分式线处理的指令。本专利技术实施例提供的一种样本标注方案,通过字符检测模型对待标注的样本图像进行检测,并能够根据检测结果确定用于指示样本图像中各个字符位置的字符框。通过确定并标注分式线对应的字符框,并对确定的字符框进行分式线处理,使得通过该样本标注方法标注的样本图像可以有效避免分式线对应的字符框影响后续机器学习模型训练效果的问题。此外,该样本标注方法可以对分式线对应的字符框进行自动处理,减少了人工校对的工作量,且保证了样本标注的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的一种样本标注方法的流程示意图;图2为本专利技术实施例二提供的一种样本标注方法的流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1示出了根据本专利技术的实施例一提供的一种样本标注方法的流程示意图。如图1所示,该样本标注方法包括:S101:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框。待标注的样本图像用于后续进行机器学习模型的训练,作为训练样本图像。本专利技术实施例中,训练样本图像为包括字符信息的图像,其中,字符包括但不限于:文字、字母、数字、符号。字符检测模型用于检测待标注的样本图像中的字符。字符检测模型可以由本领域技术人员根据实际需求采用适当的模型,本专利技术实施例对此不作限制。例如,字符检测模型可以包括但不限于连通域分析模型、和神经网络模型等。字符框用于指示待标注的样本图像中的各字符的字符位置。字符框的位置和大小可以根据需求采用适当的方式进行表示,例如,字符框为矩形,字符框可以通过定位点坐标、宽度和高度的方式进行表示;或者,通过四个顶点的坐标对字符框进行表示;或者通过两个对角点的坐标对字符框进行表示。S102:针对每个字符框,判断当前字符框是否满足设定条件中的至少两个,若满足设定条件中的至少两个,则确定当前字符框对应的字符为分式线,执行步骤S103;若不满足设定条件中的至少两个,则确定当前字符框对应的字符不为分式线,结束本次流程。其中,设定条件包括:设定条件一:当前字符框的宽度大于第一预设值。设定条件二:当前字符框的宽高比大于第二预设值。设定条件三:当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值。对于包括分式的样本图像,由于分式线与减号、“一”、下划线等字符的结构相似,针对根据检测结果确定的字符框,若不做处理,直接生成标注文件,并使用这一标注文件和样本图像对机器学习模型进行训练,会对训练效果产生不利影响,致使训练效果不好。为此,需要在对样本图像进行标注时,对分式线对应的字符框进行处理。其中一种可行的处理方式例如,判断各个字符框是否为分式线对应的字符框,若是分式线对应的字符框,则执行步骤S103。反之,则结束对当前字符框的判断,对下一个字符框进行判断,直至对所有字符框都判断完成。对于本领域技术人员而言,其可以选择合适的方式判断各个字符框是否为与分式线对应的字符框。例如,判断当前字符框是否满足以下条件(即设定条件)中的至少两个:当前字符框的宽度大于第一预设值(即设定条件一),当前字符框的宽高比大于第二预设值(即设定条件二),当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值(即设定条件三)。S103:将当前字符框对应的字符标注为分式线,并进行分式线处理。各个字符框中,若当前字符框满足上述的条件中的至少两个,则表示该当前字符框对应的字符是分式线,则对当前字符框进行分式线处理。本领域技术人员可以根据需要采取合适的方式对当前字符框进行处理。例如,删除该当前字符框。或者,对该当前字符框进行标示,以指示该当前字符框为对应分式线的字符框。该样本标注方法,通过字符检测模型对待标注的样本图像进行检测,并能够根据检测结果确定用于指示样本图像中各个字符位置的字符框。通过确定分式线对应的字符框,并对确定的字符框进行分式线处理,使得通过该样本标注方法标注的样本图像可以有效避免分式线对应的字符框影响后续机器学习模型训练效果的问题。此外,该样本标注方法可以对分式线对应的字符框进行自动处理,减少了人工校对本文档来自技高网...

【技术保护点】
1.一种样本标注方法,其特征在于,包括:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示所述样本图像中各个字符的字符位置的字符框;针对每个字符框,判断当前字符框是否满足以下条件中的至少两个:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;若是,则将当前字符框对应的字符标注为分式线,并进行分式线处理。

【技术特征摘要】
1.一种样本标注方法,其特征在于,包括:通过字符检测模型对待标注的样本图像进行检测,根据检测结果确定用于指示所述样本图像中各个字符的字符位置的字符框;针对每个字符框,判断当前字符框是否满足以下条件中的至少两个:当前字符框的宽度大于第一预设值,当前字符框的宽高比大于第二预设值,当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值;若是,则将当前字符框对应的字符标注为分式线,并进行分式线处理。2.根据权利要求1所述的方法,其特征在于,所述进行分式线处理,包括:删除所述分式线对应的字符框。3.根据权利要求1或2所述的方法,其特征在于,所述判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值,包括:针对各个字符框,获取当前字符框对应的图像中的第一设定像素的像素数量和第二设定像素的像素数量;确定所述第一设定像素的像素数量与所述第二设定像素的像素数量的比值;判断所述比值是否大于所述第三预设值。4.根据权利要求3所述的方法,其特征在于,在所述判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值之前,所述方法还包括:将所述待标注的样本图像转换为黑白二值图像,其中,将黑色像素作为所述第一设定像素,将白色像素作为所述第二设定像素。5.根据权利要求1或2所述的方法,其特征在于,所述判断当前字符框是否满足当前字符框的宽度大于第一预设值,包括:根据所有字符框的数量和各个字符框的宽度确定字符框平均宽度;根据所述字符框平均宽度,判断当前字符框是否满足所述字符框的宽度大于第一预设值。6.根据权利要求5所述的方法,其特征在于,根据所述字符框平均宽度,判断当前字符框是否满足所述字符框的宽度大于第一预设值,包括:根据所述字符框平均宽度和第一预设比例获取所述第一预设值...

【专利技术属性】
技术研发人员:兴百桥
申请(专利权)人:北京世纪好未来教育科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1