【技术实现步骤摘要】
中文模型训练、中文图像识别方法、装置、设备及介质
本专利技术涉及图像识别领域,尤其涉及一种中文模型训练、中文图像识别方法、装置、设备及介质。
技术介绍
随着信息时代的发展,人工智能技术作为核心技术越来越多的被用来解决人们生活中的具体问题。目前,在对手写汉字图像进行识别时,由于传统的卷积神经网络或者循环神经网络的输出是固定长度的,并不能满足端到端的手写字识别,需要预先对训练图片中的文字进行定位分割,获取单个字体图像,再对单个字体图像进行训练,训练效率低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种解决目前手写字识别模型的训练效率低的中文模型训练方法、装置、设备及介质。一种中文模型训练方法,包括:获取训练手写中文图像;将所述训练手写中文图像按预设比例划分成训练集和测试集;对所述训练集中的训练手写中文图像进行顺序标注,并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练,采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;采用所述测试集中的训练手写中文图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。一种中文模型训练装置,包括:训练手写中文图像获取模块,用于获取训练手写中文图像;训练手写中文图像划分模块,用于将所述训练手写中文图像按预设比例划分成训练集和测试集;原始手写字识别模型获取模块,用于对所述训练集中的训练手写中文图像进行顺序标注,并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练,采用时序分类算法对所述卷积神经 ...
【技术保护点】
1.一种中文模型训练方法,其特征在于,包括:获取训练手写中文图像;将所述训练手写中文图像按预设比例划分成训练集和测试集;对所述训练集中的训练手写中文图像进行顺序标注,并将标注好的训练手写中文图像输入到卷积神经网络‑长短时记忆神经网络中进行训练,采用时序分类算法对所述卷积神经网络‑长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;采用所述测试集中的训练手写中文图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。
【技术特征摘要】
1.一种中文模型训练方法,其特征在于,包括:获取训练手写中文图像;将所述训练手写中文图像按预设比例划分成训练集和测试集;对所述训练集中的训练手写中文图像进行顺序标注,并将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练,采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型;采用所述测试集中的训练手写中文图像对所述原始手写字识别模型进行测试,在测试准确率大于预设准确率时,获取目标手写字识别模型。2.如权利要求1所述的中文模型训练方法,其特征在于,所述将标注好的训练手写中文图像输入到卷积神经网络-长短时记忆神经网络中进行训练,采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新,获取原始手写字识别模型,包括:在卷积神经网络中对所述训练手写中文图像进行特征提取,获取中文图像特征;在长短时记忆神经网络的隐藏层采用第一激活函数对所述中文图像特征进行处理,获取携带激活状态标识的神经元;在所述长短时记忆神经网络的隐藏层采用第二激活函数对所述携带激活状态标识的神经元进行处理,获取长短时记忆神经网络输出层的输出;根据所述长短时记忆神经网络输出层的输出,采用时序分类算法对所述卷积神经网络-长短时记忆神经网络的网络参数进行更新,获取所述目标手写字识别模型。3.如权利要求2所述的中文模型训练方法,其特征在于,所述时序分类算法的公式具体为:Eloss=-ln∏(x,z)∈Sp(z|x),p(z|x)=a(t,u)b(t,u),其中,p(z|x)表示输入所述中文图像特征x,在所述长短时记忆神经网络输出层的输出为z的概率,a(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的前向输出,b(t,u)表示第t时刻第u个顺序标签对应的所述中文图像特征在长短时记忆神经网络隐藏层的后向输出。4.一种中文图像识别方法,其特征在于,包括获取待识别中文图像,所述待识别中文图像包括手写汉字和背景图片;对所述待识别中文图像进行预处理,获取原始图像;采用核密度估计算法对所述原始图像进行处理,去除所述背景图片,获取包括所述手写汉字的目标图像;采用文字定位技术对所述目标图像进行文字定位,获取待识别文字区域;将待识别文字区域输入到目标手写字识别模型中进行识别,获取每一所述待识别文字区域对应的手写汉字;其中,目标手写字识别模型是采用权利要求1-3任意一项所述中文模型训练方法获取的。5.如权利要求4所述的中文图像识别方法,其特征在于,采用核密度估计算法对所述原始图像进行处理,获取保留所述手写汉字的目标图像,包括:对所述原始图像中的像...
【专利技术属性】
技术研发人员:高梁梁,周罡,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。