用于恢复书写轨迹的网络模型的训练方法技术

技术编号:23892021 阅读:31 留言:0更新日期:2020-04-22 06:51
本发明专利技术的目的是提供一种用于恢复书写轨迹的网络模型的训练方法及设备,本发明专利技术编码器和解码器的输入均为静态汉字图像,不依赖于其他额外的辅助信息,直接从静态汉字图像出发,以点坐标位置回归和点状态分类为驱动,学习到静态图像中笔记的位置和时序信息,在保证位置和静态图像之间存在允许的较小偏移前提下,恢复出点序列的时序信息。

Training method of network model for recovering writing trace

【技术实现步骤摘要】
用于恢复书写轨迹的网络模型的训练方法
本专利技术涉及计算机领域,尤其涉及一种用于恢复书写轨迹的网络模型的训练方法。
技术介绍
手写体数据根据其采集方式,可分为在线手写体数据和离线手写体数据。通常,包含字符书写轨迹的在线手写体数据比离线手写体数据在字符识别和分析方面更具优势。然而,由于获得在线手写体数据的资源、成本有限,从离线手写体数据数据中恢复其书写轨迹是一种新颖且具有吸引力的方法。手写体识别和分析在过去二十年中一直是研究的热点,根据采样设备的不同,手写体数据可分为离线数据和在线数据两种类型。其中,离线数据是指由照相机或扫描仪捕获的静态图像;在线数据是由带面板的电子终端设备在用户书写过程中采集的点序列。其中,点序列记录了书写过程中的坐标信息和笔触情况,所述笔触情况是指笔尖离开面板或笔尖在面板上移动。与静态图像相比,在线数据提供了额外的动态运动信息,可以提高手写体识别任务的准确率。但是,由于获取在线数据的采样设备应用有限,在线数据的获取比离线数据的成本高、难度大。因此,如果能从静态图像中恢复出书写轨迹,离线数据的静本文档来自技高网...

【技术保护点】
1.一种用于恢复书写轨迹的网络模型的训练方法,其特征在于,所述用于恢复书写轨迹的网络模型包括CNN-BiLSTM的编码器、CNN-BiLSTM的解码器、点坐标位置回归分支和点状态分类分支,该方法包括:/n由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息;/n基于所述隐层的状态信息,由所述CNN-BiLSTM的解码器得到对应的汉字的点序列的特征;/n基于所述汉字的点序列的特征,由所述点坐标位置回归分支得到所述静态汉字图像的样本对应的预测轨迹坐标;基于所述汉字的点序列的特征,由所述点状态分类分支得到所述静态汉字图像的样本对应的预测轨迹点状态;/n基于所述预测轨迹坐标计算点坐...

【技术特征摘要】
1.一种用于恢复书写轨迹的网络模型的训练方法,其特征在于,所述用于恢复书写轨迹的网络模型包括CNN-BiLSTM的编码器、CNN-BiLSTM的解码器、点坐标位置回归分支和点状态分类分支,该方法包括:
由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息;
基于所述隐层的状态信息,由所述CNN-BiLSTM的解码器得到对应的汉字的点序列的特征;
基于所述汉字的点序列的特征,由所述点坐标位置回归分支得到所述静态汉字图像的样本对应的预测轨迹坐标;基于所述汉字的点序列的特征,由所述点状态分类分支得到所述静态汉字图像的样本对应的预测轨迹点状态;
基于所述预测轨迹坐标计算点坐标位置回归损失,基于所述预测轨迹点状态计算点状态分类损失;
基于所述点坐标位置回归损失和点状态分类损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后,重新循环执行上述步骤,直至得到小于预设阈值的联合损失,以完成对所述用于恢复书写轨迹的网络模型的训练。


2.根据权利要求1所述的方法,其特征在于,由所述CNN-BiLSTM的编码器得到静态汉字图像的样本的隐层的状态信息,包括:
将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器,以获得所述CNN编码器输出的对应的第一静态图像特征序列;将所述第一静态图像特征序列输入所述CNN-BiLSTM的编码器中的BiLSTM编码器,以获得所述CNN-BiLSTM的编码器输出的对应的隐层的状态信息;
基于所述隐层的状态信息,由所述CNN-BiLSTM的解码器得到对应的汉字的点序列的特征,包括:
将所述静态汉字图像的样本输入所述CNN-BiLSTM的解码器中的CNN解码器,以获得所述CNN解码器输出的对应的第二静态图像特征序列;将所述第二静态图像特征序列和隐层的状态信息输入所述CNN-BiLSTM的解码器,以获得所述BiLSTM解码器输出的对应的汉字的点序列的特征;
基于所述汉字的点序列的特征,由所述点坐标位置回归分支得到所述静态汉字图像的样本对应的预测轨迹坐标;基于所述汉字的点序列的特征,由所述点状态分类分支得到所述静态汉字图像的样本对应的预测轨迹点状态,包括:
将所述汉字的点序列的特征点输入所述点坐标位置回归分支,以得到所述点坐标位置回归分支输出的所述静态汉字图像的样本对应的预测轨迹坐标;将所述汉字的点序列的特征点输入所述点状态分类分支,以得到所述点状态分类分支输出的所述静态汉字图像的样本对应的预测轨迹点状态;
基于所述预测轨迹坐标计算点坐标位置回归损失,基于所述预测轨迹点状态计算点状态分类损失,包括:
将所述静态汉字图像的样本对应的预测轨迹坐标及对应的真实轨迹坐标输入点坐标位置回归分支的损失函数,以计算得到对应的点坐标位置回归损失;将所述静态汉字图像的样本对应的预测轨迹点状态及对应的真实预测轨迹点状态输入点状态分类分支的损失函数,以计算得到对应的点状态分类损失;
基于所述点坐标位置回归损失和点状态分类损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后,重新循环执行上述步骤,直至得到小于预设阈值的联合损失,以完成对所述用于恢复书写轨迹的网络模型的训练,包括:
将所述点坐标位置回归损失和点状态分类损失输入目标函数,以得到对应的联合损失,基于所述联合损失对所述CNN-BiLSTM的编码器、CNN-BiLSTM的解码器中的待学习的参数进行调整后,重新循环执行上述步骤,直至得到小于预设阈值的联合损失,以完成对所述用于恢复书写轨迹的网络模型的训练。


3.根据权利要求2所述的方法,其特征在于,所述CNN编码器的网络结构为:
conv1-pool1-conv2-pool2-conv3-BN2-conv4-pool3-conv5-pool4-conv6-BN2-conv7-pool5-conv8-BN3,
其中,conv表示卷积操作,pool表示池化操作,BN(BatchNormalization)表示批归一化操作,所述CNN编码器的网络结构中卷积操作均采用3*3大小的卷积核,conv1、conv2的卷积核个数分别为64和128,conv3~conv8的卷积核个数均为256;池化操作中,除了pool1采用2*2的池化策略,pool2~pool5均采用2*1的池化方式,并且,pool1-poo5的步长为2。


4.根据权利要求3所述的方法,其特征在于,将静态汉字图像的样本输入所述CNN-BiLSTM的编码器中的CNN编码器,以获得所述CNN编码器输出的对应的...

【专利技术属性】
技术研发人员:周康明肖尧
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1