一种融合笔尖轨迹和书写墨迹的实时文字识别方法技术

技术编号：31702560 阅读：16 留言：0更新日期：2022-01-01 11:04

本发明专利技术公开了一种融合笔尖轨迹和书写墨迹的实时文字识别方法，具体过程为：S1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹P；S2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像I并将其缩放至M*N大小；所述书写墨迹裁剪图像I是利用笔尖关键点运动轨迹围成的边界框裁剪得到；S3、将笔尖关键点运动轨迹P作为输入传给神经网络A得到特征F1；S4、将书写墨迹裁剪图像I作为输入传给神经网络B得到特征F2；S5、将特征F1和F2融合成F3作为输入传给神经网络C，输出最终识别结果。利用本发明专利技术可有效提高实时纸上书写的文字识别率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合笔尖轨迹和书写墨迹的实时文字识别方法

[0001]本专利技术涉及文字识别
，具体涉及一种融合笔尖轨迹和书写墨迹的实时文字识别方法。

技术介绍

[0002]目前利用摄像头识别场景书写文字，一种思路是通过跟踪笔尖轨迹，利用神经网络识别的，但是由于实际书写场景下检测笔尖落笔、抬笔存在一定歧义，极易误判，导致笔尖轨迹大部分时间是连接在一起的，笔尖轨迹特征不能很好表征文字特征，影响最终的文字识别率。

技术实现思路

[0003]针对现有技术的不足，本专利技术旨在提供一种融合笔尖轨迹和书写墨迹的实时文字识别方法。
[0004]为了实现上述目的，本专利技术采用如下技术方案：
[0005]一种融合笔尖轨迹和书写墨迹的实时文字识别方法，具体过程为：
[0006]S1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹P；
[0007]S2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像I并将其缩放至M*N大小；所述书写墨迹裁剪图像I是利用笔尖关键点运动轨迹围成的边界框裁剪得到；
[0008]S3、将笔尖关键点运动轨迹P作为输入传给神经网络A得到特征F1；
[0009]S4、将书写墨迹裁剪图像I作为输入传给神经网络B得到特征F2；
[0010]S5、将特征F1和F2融合成F3作为输入传给神经网络C，输出最终识别结果。
[0011]进一步地，步骤S1中，所述笔尖关键点经过规范化处理，规范化处理按下式进行：
[0012][X
>’
,Y
’
]＝[M*(X
‑
Min(X))/(Max(X)
–
Min(X)),N*(Y
‑
Min(Y))/(Max(Y)
–
Min(Y))]；
[0013]其中Min(X)为所有笔尖关键点的横坐标的最小值，Max(X)为所有笔尖关键点的横坐标的最大值，Min(Y)为所有笔尖关键点的纵坐标的最小值，Max(Y)为所有笔尖关键点的纵坐标的最大值；X、Y为未经规范化处理前的关键点横坐标和纵坐标，X
’
、Y
’
分别为经规范化处理后的关键点横坐标和纵坐标；M、N为预设的固定常数。
[0014]进一步地，所述神经网络A是深度学习卷积神经网络，所述神经网络B是深度学习卷积神经网络，所述神经网络C为双向LSTM神经网络。
[0015]进一步地，步骤S5中，所述融合方法为按通道concat方法。
[0016]本专利技术提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述方法。
[0017]本专利技术提供一种电子设备，包括处理器和存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述计算机程序时，实现上述方法。
[0018]本专利技术的有益效果在于：由于笔尖运动轨迹是通过视频中的目标(笔尖)跟踪技术来实现的，在笔尖书写过程中，会存在运动模糊、灯光、遮挡、视频噪点等客观影响，导致运
动轨迹不够准确。另外，书写的墨迹图像不存在时间维度上信息，即无法通过单帧书写墨迹图像判断哪一笔划先写，哪一笔划后写，而笔尖运动轨迹中记录着书写笔划的先后顺序。本专利技术通过笔尖运动轨迹和书写墨迹的结合，可以提高文本的特征信息量，融合更多特征信息，从而提高文字识别率。
附图说明
[0019]图1为本专利技术实施例1的方法流程示意图。
具体实施方式
[0020]以下将结合附图对本专利技术作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本专利技术的保护范围并不限于本实施例。
[0021]本实施例提供一种融合笔尖轨迹和书写墨迹的实时文字识别方法，如图1所示，具体过程为：
[0022]S1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹P。
[0023]需要说明的是，所述笔尖关键点是经过规范化处理的，规范化处理的过程为：[X
’
,Y
’
]＝[M*(X
‑
Min(X))/(Max(X)
–
Min(X)),N*(Y
‑
Min(Y))/(Max(Y)
–
Min(Y))]，其中Min(X)为所有笔尖关键点的横坐标的最小值，Max(X)为所有笔尖关键点的横坐标的最大值，Min(Y)为所有笔尖关键点的纵坐标的最小值，Max(Y)为所有笔尖关键点的纵坐标的最大值；X、Y为未经规范化处理前的关键点横坐标和纵坐标，X
’
、Y
’
分别为经规范化处理后的关键点横坐标和纵坐标；M、N为预设的固定常数。
[0024]S2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像I并将其缩放至M*N大小；所述书写墨迹裁剪图像I是利用笔尖关键点运动轨迹围成的边界框裁剪得到。
[0025]S3、将笔尖关键点运动轨迹P作为输入传给神经网络A得到特征F1；
[0026]进一步地，所述神经网络A是深度学习卷积神经网络，所述特征F1为[1*12*128]维特征。
[0027]S4、将书写墨迹裁剪图像I作为输入传给神经网络B得到特征F2；
[0028]进一步地，所述神经网络B是深度学习卷积神经网络，所述特征F2为[1*12*128]维特征。
[0029]S5、将特征F1和F2融合成F3作为输入传给神经网络C，输出最终识别结果。
[0030]进一步地，所述融合方法为按通道concat方法。
[0031]进一步地，所述F3特征为[1*12*256]维特征。
[0032]进一步地，所述神经网络C为双向LSTM神经网络。
[0033]所述最终识别结果为最大包含12个字符的编码。
[0034]对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本专利技术权利要求的保护范围之内。
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合笔尖轨迹和书写墨迹的实时文字识别方法，其特征在于，具体过程为：S1、从图像或视频中获得所有的笔尖关键点，从而获得笔尖关键点运动轨迹P；S2、获得笔尖关键点运动轨迹下方的书写墨迹裁剪图像I并将其缩放至M*N大小；所述书写墨迹裁剪图像I是利用笔尖关键点运动轨迹围成的边界框裁剪得到；S3、将笔尖关键点运动轨迹P作为输入传给神经网络A得到特征F1；S4、将书写墨迹裁剪图像I作为输入传给神经网络B得到特征F2；S5、将特征F1和F2融合成F3作为输入传给神经网络C，输出最终识别结果。2.根据权利要求1所述的方法，其特征在于，步骤S1中，所述笔尖关键点经过规范化处理，规范化处理按下式进行：[X
’
,Y
’
]＝[M*(X
‑
Min(X))/(Max(X)
–
Min(X)),N*(Y
‑
Min(Y))/(Max(Y)
–
Min(Y))]；其中Min(X)为所有笔尖关键点的横坐标...

【专利技术属性】
技术研发人员：傅元弟，
申请(专利权)人：珠海读书郎软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人