一种数据标注方法、装置及电子设备制造方法及图纸

技术编号:32804703 阅读:19 留言:0更新日期:2022-03-26 19:56
本发明专利技术公开了一种数据标注方法、装置及电子设备,该方法应用于手写输入法,包括:对手写输入日志进行解析,获得输入笔迹的坐标点及用户输入参数;基于所述输入笔迹的坐标点,转换获得输入笔迹图像;基于所述用户输入参数和所述输入笔迹图像,对所述输入笔迹图像进行单字识别;基于单字识别结果对所述输入日志进行样本标注并存储标注数据,以供手写输入识别模型进行模型训练。通过上述方法,实现了手写输入样本的自动标注,提高了标注效率。提高了标注效率。提高了标注效率。

【技术实现步骤摘要】
一种数据标注方法、装置及电子设备


[0001]本专利技术涉及软件
,特别涉及一种数据标注方法、装置及电子设备。

技术介绍

[0002]手写输入法可以用作生僻字、陌生字及中老年人的使用。手写输入法使用非常简单,写好字之后,应用程序会根据写好的字对应提供候选选项,如果该字在候选项中直接点击上屏即可,如果不在,还可以重写或者撤销。
[0003]手写输入法在迭代过程中,往往会基于用户的笔迹对输入笔迹的识别能力进行不断的迭代更新,以提高识别效率和准确率,从而提高手写输入的速度。这个迭代更新的过程往往通过模型来实现,需要获得大量的训练样本。然而,现阶段训练样本的标注通常由人工标注完成,为获得高质量数据,需投入大量的人力物力。

技术实现思路

[0004]本专利技术实施例提供一种数据标注方法、装置及电子设备,用于实现手写输入样本的自动标注,解决现有技术中人工标注导致的模型迭代更新成本过高的技术问题。
[0005]本专利技术实施例提供一种数据标注方法,应用于手写输入法,所述方法包括:
[0006]对手写输入日志进行解析,获得输入笔迹的坐标点及用户输入参数;
[0007]基于所述输入笔迹的坐标点,转换获得输入笔迹图像;
[0008]基于所述用户输入参数和所述输入笔迹图像,对所述输入笔迹图像进行单字识别;
[0009]基于单字识别结果对所述输入日志进行样本标注并存储标注数据,以供手写输入识别模型进行模型训练。
[0010]可选的,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,包括:
[0011]若识别结果表示所述输入笔迹图像不是单字,寻找所述输入笔迹图像的切分点,并基于所述切分点组合获得输入笔迹切分图像;
[0012]基于所述用户输入参数,对所述输入笔迹切分图像进行切分字的单字识别;
[0013]基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据;
[0014]基于所述单字切分图像和所述切分数据对所述输入日志进行样本标注并存储标注数据。
[0015]可选的,基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据,包括:
[0016]若所有切分字的单字识别结果集合与用户的上屏多字不一致,重新寻找切分点并进行切分字的单字识别,直至获得单字切分图像和所述切分数据。
[0017]可选的,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,
包括:
[0018]若所述单字识别结果表明识别对象为单字,获得所述单字识别结果对应的表征识别对象为单字的概率;
[0019]基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据。
[0020]可选的,所述基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据,包括:
[0021]判断所述概率是否大于所述概率阈值;若是,将所述输入笔迹图像标注为单字;若否,判断所述识别结果中的目标单字是否在输入法对应提供的前n个候选项中,n≥1;
[0022]若所述目标单字在所述前n个候选项中,将所述输入笔迹图像标注为单字;若所述目标单字不在所述前n个候选项中,将所述输入日志标注为难样本。
[0023]可选的,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,包括:
[0024]若所述单字识别结果表明识别对象为单字,判断所述识别结果中的目标单字与用户上屏项是否一致,若是,将所述输入笔迹图像标注为单字并存储标注数据。
[0025]可选的,所述方法还包括:
[0026]当已标注样本的数量大于数量阈值时,获得当前设备的计算资源;
[0027]基于所述计算资源和所述已标注样本,触发所述手写输入识别模型进行模型训练。
[0028]本专利技术实施例还提供一种数据标注装置,所述装置包括:
[0029]解析单元,用于对手写输入日志进行解析,获得输入笔迹的坐标点及用户输入参数;
[0030]转换单元,用于基于所述输入笔迹的坐标点,转换获得输入笔迹图像;
[0031]识别单元,用于基于所述用户输入参数和所述输入笔迹图像,对所述输入笔迹图像进行单字识别;
[0032]标注单元,用于基于单字识别结果对所述输入日志进行样本标注并存储标注数据,以供手写输入识别模型进行模型训练。
[0033]可选的,所述标注单元包括:切分单元,用于在识别结果表示所述输入笔迹图像不是单字的情况下,寻找所述输入笔迹图像的切分点,并基于所述切分点组合获得输入笔迹切分图像;
[0034]所述识别单元还用于:基于所述用户输入参数,对所述输入笔迹切分图像进行切分字的单字识别;
[0035]所述切分单元还用于:基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据;
[0036]所述标注单元还包括:样本标注单元,用于基于所述单字切分图像和所述切分数据对所述输入日志进行样本标注并存储标注数据。
[0037]可选的,所述切分单元还用于:
[0038]若所有切分字的单字识别结果集合与用户的上屏多字不一致,重新寻找切分点并进行切分字的单字识别,直至获得单字切分图像和所述切分数据。
[0039]可选的,所述标注单元还用于:
[0040]若所述单字识别结果表明识别对象为单字,获得所述单字识别结果对应的表征识别对象为单字的概率;
[0041]基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据。
[0042]可选的,所述标注单元还用于:
[0043]判断所述概率是否大于所述概率阈值;若是,将所述输入笔迹图像标注为单字;若否,判断所述识别结果中的目标单字是否在输入法对应提供的前n个候选项中,n≥1;
[0044]若所述目标单字在所述前n个候选项中,将所述输入笔迹图像标注为单字;若所述目标单字不在所述前n个候选项中,将所述输入日志标注为难样本。
[0045]可选的,所述标注单元还用于:
[0046]若所述单字识别结果表明识别对象为单字,判断所述识别结果中的目标单字与用户上屏项是否一致,若是,将所述输入笔迹图像标注为单字并存储标注数据。
[0047]可选的,所述装置还包括训练单元,所述训练单元用于:
[0048]当已标注样本的数量大于数量阈值时,获得当前设备的计算资源;
[0049]基于所述计算资源和所述已标注样本,触发所述手写输入识别模型进行模型训练。
[0050]本专利技术实施例中的上述一个或多个技术方案,至少具有如下技术效果:
[0051]本专利技术实施例提供一种数据标注方法,对手写输入日志进行解析,获得输入笔迹的坐标点及用户输入参数;基于输入笔迹的坐标点,转换获得输入笔迹图像;基于用户输入参数和输入笔迹图像,对输入笔迹图像进行单字识别;基于单字识别结果对输入日志进行样本标注并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据标注方法,其特征在于,应用于手写输入法,所述方法包括:对手写输入日志进行解析,获得输入笔迹的坐标点及用户输入参数;基于所述输入笔迹的坐标点,转换获得输入笔迹图像;基于所述用户输入参数和所述输入笔迹图像,对所述输入笔迹图像进行单字识别;基于单字识别结果对所述输入日志进行样本标注并存储标注数据,以供手写输入识别模型进行模型训练。2.如权利要求1所述的方法,其特征在于,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,包括:若识别结果表示所述输入笔迹图像不是单字,寻找所述输入笔迹图像的切分点,并基于所述切分点组合获得输入笔迹切分图像;基于所述用户输入参数,对所述输入笔迹切分图像进行切分字的单字识别;基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据;基于所述单字切分图像和所述切分数据对所述输入日志进行样本标注并存储标注数据。3.如权利要求2所述的方法,其特征在于,基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据,包括:若所有切分字的单字识别结果集合与用户的上屏多字不一致,重新寻找切分点并进行切分字的单字识别,直至获得单字切分图像和所述切分数据。4.如权利要求1所述的方法,其特征在于,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,包括:若所述单字识别结果表明识别对象为单字,获得所述单字识别结果对应的表征识别对象为单字的概率;基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据。5.如权利要求4所述的方法,其特征在于,所述基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据,包括:判断所述概率是否大于所述概率阈...

【专利技术属性】
技术研发人员:秦波辛晓哲陈伟
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1