【技术实现步骤摘要】
一种数据标注方法、装置及电子设备
[0001]本专利技术涉及软件
,特别涉及一种数据标注方法、装置及电子设备。
技术介绍
[0002]手写输入法可以用作生僻字、陌生字及中老年人的使用。手写输入法使用非常简单,写好字之后,应用程序会根据写好的字对应提供候选选项,如果该字在候选项中直接点击上屏即可,如果不在,还可以重写或者撤销。
[0003]手写输入法在迭代过程中,往往会基于用户的笔迹对输入笔迹的识别能力进行不断的迭代更新,以提高识别效率和准确率,从而提高手写输入的速度。这个迭代更新的过程往往通过模型来实现,需要获得大量的训练样本。然而,现阶段训练样本的标注通常由人工标注完成,为获得高质量数据,需投入大量的人力物力。
技术实现思路
[0004]本专利技术实施例提供一种数据标注方法、装置及电子设备,用于实现手写输入样本的自动标注,解决现有技术中人工标注导致的模型迭代更新成本过高的技术问题。
[0005]本专利技术实施例提供一种数据标注方法,应用于手写输入法,所述方法包括:
[0006] ...
【技术保护点】
【技术特征摘要】
1.一种数据标注方法,其特征在于,应用于手写输入法,所述方法包括:对手写输入日志进行解析,获得输入笔迹的坐标点及用户输入参数;基于所述输入笔迹的坐标点,转换获得输入笔迹图像;基于所述用户输入参数和所述输入笔迹图像,对所述输入笔迹图像进行单字识别;基于单字识别结果对所述输入日志进行样本标注并存储标注数据,以供手写输入识别模型进行模型训练。2.如权利要求1所述的方法,其特征在于,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,包括:若识别结果表示所述输入笔迹图像不是单字,寻找所述输入笔迹图像的切分点,并基于所述切分点组合获得输入笔迹切分图像;基于所述用户输入参数,对所述输入笔迹切分图像进行切分字的单字识别;基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据;基于所述单字切分图像和所述切分数据对所述输入日志进行样本标注并存储标注数据。3.如权利要求2所述的方法,其特征在于,基于所有切分字的单字识别结果集合,获得单字切分图像和所述单字切分图像对应的切分数据,包括:若所有切分字的单字识别结果集合与用户的上屏多字不一致,重新寻找切分点并进行切分字的单字识别,直至获得单字切分图像和所述切分数据。4.如权利要求1所述的方法,其特征在于,所述基于单字识别结果对所述输入日志进行样本标注并存储标注数据,包括:若所述单字识别结果表明识别对象为单字,获得所述单字识别结果对应的表征识别对象为单字的概率;基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据。5.如权利要求4所述的方法,其特征在于,所述基于所述概率和预设的概率阈值,对所述输入日志进行样本标注并存储标注数据,包括:判断所述概率是否大于所述概率阈...
【专利技术属性】
技术研发人员:秦波,辛晓哲,陈伟,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。