手写字训练样本获取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19859000 阅读:26 留言:0更新日期:2018-12-22 12:01
本发明专利技术公开了手写字训练样本获取方法、装置、计算机设备及存储介质。该方法包括:获取原始图像,原始图像包括手写字和背景图像;对原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对有效图像进行处理,去除背景图像,获取包括手写字的目标图像;采用垂直投影方法对目标图像进行单字体切割,获取单字体图像;将单字体图像输入到目标手写字识别模型中进行识别,当单字体图像的识别概率大于预设概率时,则获取单字体图像对应的识别结果;基于识别结果查询语义库,获取单字体图像对应的目标汉字;将单字体图像和对应的目标汉字关联,获取手写字训练样本。该方法可以获取手写字训练样本过程简单方便,提高模型训练的效率。

【技术实现步骤摘要】
手写字训练样本获取方法、装置、计算机设备及存储介质
本专利技术涉及手写字识别领域,尤其涉及一种手写字训练样本获取方法、装置、计算机设备及存储介质。
技术介绍
在手写字识别过程中,通常需要采用预先训练好的手写字识别模型进行识别,以获取识别结果。当前手写字识别模型通常需要采用人工手写的训练样本训练该手写字识别模型。这种人工手写的训练样本需人工书写并进行人工标注,每个人的书写习惯不相同,在手写字数量庞大的情况下,采用人工标注训练样本效率低,并且数量有限,影响手写字识别模型的训练效率和准确性。
技术实现思路
基于此,有必要针对上述技术问题,提供一种方便后续模型训练时直接调用手写字训练样本,提高模型训练的效率和准确性的手写字训练样本获取方法、装置、计算机设备及存储介质。一种手写字训练样本获取方法,包括:获取原始图像,所述原始图像包括手写字和背景图像;对所述原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;将所述单字体图像输入到目标手写字识别模型中进行识别,当本文档来自技高网...

【技术保护点】
1.一种手写字训练样本获取方法,其特征在于,包括:获取原始图像,所述原始图像包括手写字和背景图像;对所述原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;将所述单字体图像输入到目标手写字识别模型中进行识别,当所述单字体图像的识别概率大于预设概率时,则获取所述单字体图像对应的识别结果;基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字;将所述单字体图像和对应的目标汉字关联,获取手写字训练样本。

【技术特征摘要】
1.一种手写字训练样本获取方法,其特征在于,包括:获取原始图像,所述原始图像包括手写字和背景图像;对所述原始图像进行预处理,获取有效图像;采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像;采用垂直投影方法对所述目标图像进行单字体切割,获取单字体图像;将所述单字体图像输入到目标手写字识别模型中进行识别,当所述单字体图像的识别概率大于预设概率时,则获取所述单字体图像对应的识别结果;基于所述识别结果查询语义库,获取所述单字体图像对应的目标汉字;将所述单字体图像和对应的目标汉字关联,获取手写字训练样本。2.如权利要求1所述的手写字训练样本获取方法,其特征在于,所述对所述原始图像进行预处理,获取有效图像,包括:对所述原始图像进行放大和灰度化处理,获取灰度图像;对所述灰度图像对应的像素矩阵进行极差标准化处理,获取有效图像,其中,所述极差标准化处理的公式为x是标准化前有效图像的像素,x'是标准化后有效图像的像素,Mmin是所述灰度图像对应的像素矩阵M中最小的像素,Mmax是所述灰度图像对应的像素矩阵M中最大的像素。3.如权利要求1所述的手写字训练样本获取方法,其特征在于,所述采用核密度估计算法和腐蚀方法对所述有效图像进行处理,去除背景图像,获取包括所述手写字的目标图像,包括:对所述有效图像中的像素出现的次数进行统计,获取所述有效图像对应的频率分布直方图;采用高斯核密度估算方法对所述频率分布直方图进行处理,获取所述频率分布直方图对应的频率极大值和频率极小值,并根据所述频率极大值和频率极小值获取对应的像素;基于所述频率极大值和频率极小值对应的像素对有效图像进行分层处理,获取分层图像;对所述分层图像进行腐蚀和叠加处理,去除背景图像,获取包括所述手写字的目标图像。4.如权利要求3所述的手写字训练样本获取方法,其特征在于,所述对所述分层图像进行腐蚀和叠加处理,去除背景图像,获取包括所述手写字的目标图像,包括:对所述分层图像进行二值化处理,获取分层二值化图像;对所述分层二值化图像中的像素进行检测标记,获取所述分层二值化图像对应的连通区域;对所述分层二值化图像对应的连通区域进行腐蚀和叠加处理,去除背景图像,获取包括所述手写字的目标图像。5.如权利要求1所述的手写字训练样本获取方法,其特征在于,所述手写字训练样本获取方法还包括:初始化卷积神经网络模型的权值和偏置;获取字体图像训练样本,采用中文二级字库对所述字体图像训练样本进行标注,并按预设分配规则将所述字体图像训练样本分为训练集图像和测试集图像;基于所述训练集图像,对所述卷积神经网络模型中的权值和偏置进行调整,获取初始手写字识别模型;基于所述测试集图像,获取所述初始手写字识别模型对应的识别准确率,若所述识别准确率大于预设准确率,则获取目标手写字识别模型。6.如权利要求5所述的手写字训练样本获取方...

【专利技术属性】
技术研发人员:吴启周罡
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1