一种在线手写中文文本行识别方法、电子设备及存储介质技术

技术编号:39254296 阅读:14 留言:0更新日期:2023-10-30 12:05
本发明专利技术涉及模式识别技术领域,具体涉及一种在线手写中文文本行识别方法、电子设备及存储介质,其中方法包括以下步骤:获取文本行初始二维轨迹坐标序列并对其进行数据预处理,生成目标文本行二维轨迹坐标序列,通过端到端注意力卷积循环网络模型从目标文本行二维轨迹坐标序列中获取包含不同感受域的多尺度局部上下文特征,基于双层双向长短期记忆网络并引入多头注意力机制,生成特征向量矩阵,基于归一化指数函数与焦点连接时序分类损失函数,对特征向量矩阵进行处理获取最大预测概率,基于最大预测概率,确定目标标签,从而识别出在线手写中文文本行。本发明专利技术提高了识别速度与精度、增强手写中文文本行识别的鲁棒性以及提高文本行各部分识别能力。文本行各部分识别能力。文本行各部分识别能力。

【技术实现步骤摘要】
一种在线手写中文文本行识别方法、电子设备及存储介质


[0001]本专利技术涉及模式识别
,尤其涉及一种在线手写中文文本行识别方法、电子设备及存储介质。

技术介绍

[0002]在线手写中文文字交互系统在人们的日常生活中有着广泛的应用,如编辑手机短信、手写签名等,而可靠、高效的在线手写中文文字交互系统依赖高性能的在线手写中文文本识别方法。
[0003]现有技术的在线手写中文文本识别方法是基于卷积循环网络(Convolutional Recurrent Networks,CRN)构建的,但其还存在一些缺陷,首先,需要将在线手写中文文本行的二维轨迹坐标序列转换为类似图像或者向量表示,再从类似图像或者向量中提取局部上下文特征,这种转换过程会增加计算的时间成本,甚至导致二维轨迹坐标序列信息丢失,使得识别速度缓慢且识别不准确;其次,只能从二维轨迹坐标序列中获取只包含一个感受域的局部上下文特征,单一感受域对在线手写中文文本行的多尺度变化没有鲁棒性;最后,现有技术忽视了在线手写中文文本行的不同部分对识别性能的影响。

技术实现思路

[0004]本专利技术的目的在于提供一种在线手写中文文本行识别方法、电子设备及存储介质,用于解决现有技术的在线手写中文文本行识别方法需要将在线手写中文文本行的二维轨迹坐标序列转换为类似图像或向量表示,再从类似图像或向量中提取局部上下文特征,导致识别速度缓慢甚至识别不准确、只能从二维轨迹坐标中获取只包含一个感受域的局部上下文特征,单一感受域对在线手写中文文本行的多尺度变化没有鲁棒性以及忽视了在线手写中文文本行的不同部分对识别性能的影响的技术问题。
[0005]为实现上述目的,本专利技术采用如下的技术方案:
[0006]专利技术的一个方面在于,提供一种在线手写中文文本行识别方法,所述方法包括以下步骤:
[0007]获取待识别在线手写中文文本行的信息,所述待识别在线手写中文文本行的信息包括文本行初始二维轨迹坐标序列,所述文本行初始二维轨迹坐标序列为手写笔或手指在进行所述待识别在线手写中文文本行的输入操作时,在操作时间内的每一帧所述手写笔或手指在二维坐标系上的位置坐标所组成的坐标序列;
[0008]对所述文本行初始二维轨迹坐标序列进行数据预处理,生成目标文本行二维轨迹坐标序列;
[0009]构建端到端注意力卷积循环网络模型,所述端到端注意力卷积循环网络模型包括多个不同膨胀系数的二维空洞卷积;
[0010]将所述目标文本行二维轨迹坐标序列输入至所述端到端注意力卷积循环网络模型中,基于所述端到端注意力卷积循环网络模型中的多个不同膨胀系数的二维空洞卷积直
接从所述目标文本行二维轨迹坐标序列中获取所述待识别在线手写中文文本行的包含不同感受域的多尺度局部上下文特征;
[0011]基于双层双向长短期记忆网络,以捕获所述多尺度局部上下文特征的长期依赖关系,获取经过一次处理的多尺度局部上下文特征;
[0012]引入多头注意力机制,对所述经过一次处理的多尺度局部上下文特征进行加权,生成待识别在线手写中文文本行的特征向量矩阵;
[0013]基于归一化指数函数对所述待识别在线手写中文文本行的特征向量矩阵进行多轮计算,每一轮计算均将所述待识别在线手写中文文本行的特征向量矩阵中多个不同时刻的特征向量转换为多个不同时刻的概率分布向量,并基于每一轮获取的多个不同时刻的概率分布向量,执行每一轮的删除、合并操作并得到与真实标签相同的文本行概率,基于焦点连接时序分类损失函数,对所述文本行概率进行梯度下降训练,当某一轮基于焦点连接时序分类损失函数对所述文本行概率进行梯度下降训练所得到的损失值不下降时,确定最大预测概率,其中,真实标签为所述待识别在线手写中文文本行所对应的真实文本行在字符集内对应的标签,所述字符集中包括多个字符以及每一字符所对应的分类标签;
[0014]基于所述最大预测概率,确定所述待识别在线手写中文文本行的目标标签,并将所述待识别在线手写中文文本行的目标标签映射至所述字符集中,从而识别出所述待识别在线手写中文文本行。
[0015]进一步的,所述对文本行初始二维轨迹坐标序列进行数据预处理,生成目标文本行二维轨迹坐标序列,包括以下步骤:
[0016]基于给定的欧氏阈值,删除所述文本行初始二维轨迹坐标序列中的冗余点,生成经过第一次处理的文本行初始二维轨迹坐标序列;
[0017]基于所述经过第一次处理的文本行初始二维轨迹坐标序列中的多个位置坐标,对所述经过第一次处理的文本行初始二维轨迹坐标序列进行轨迹平滑处理,生成经过第二次处理的文本行初始二维轨迹坐标序列;
[0018]基于所述经过第二次处理的文本行初始二维轨迹坐标序列中的最大横坐标、最大纵坐标、最小横坐标以及最小纵坐标的数值,对所述经过第二次处理的文本行初始二维轨迹坐标序列进行归一化处理,生成目标文本行二维轨迹坐标序列。
[0019]进一步的,所述端到端注意力卷积循环网络模型包括端到端多尺度卷积网络与注意力卷积网络,所述端到端多尺度卷积网络与所述注意力卷积网络串联,且所述端到端多尺度卷积网络的输出为所述注意力卷积网络的输入;
[0020]所述端到端多尺度卷积网络的梯度为3层,包括第一多尺度卷积网络、第二多尺度卷积网络以及第三多尺度卷积网络,所述第一多尺度卷积网络、第二多尺度卷积网络以及所述第三多尺度卷积网络的特征通道数依次增加;
[0021]所述注意力卷积网络的梯度为6层,包括3层第一注意力卷积网络与3层第二注意力卷积网络,3层所述第一注意力卷积网络与3层所述第二注意力卷积网络交叉堆叠,所述第一注意力卷积网络作为所述注意力卷积网络的第一层,所述第一注意力卷积网络、第二注意力卷积网络以及所述第三多尺度卷积网络的特征通道数相同。
[0022]进一步的,所述第一多尺度卷积网络、第二多尺度卷积网络以及所述第三多尺度卷积网络均包括第一卷积层与第二卷积层,所述第一卷积层与所述第二卷积层串联,所述
第一卷积层包括多个不同膨胀系数的二维空洞卷积,多个不同膨胀系数的二维空洞卷积并联,所述第二卷积层为一个卷积核为1
×
1的二维卷积,所述第一卷积层与所述第二卷积层中的每一卷积操作的输出都经过批归一化层与PReLU激活函数层,所述第一卷积层的多个输出经过特征融合后输入到所述第二卷积层中。
[0023]进一步的,所述第一注意力卷积网络包括第一处理层以及第二处理层,所述第一处理层与所述第二处理层串联,所述第一处理层包括卷积层通道以及下采样注意力通道,所述卷积层通道与所述下采样注意力通道并联,所述卷积层通道内包含一个二维卷积,所述下采样注意力通道包括池化层、第一分组卷积以及第二分组卷积,所述池化层、第一分组卷积以及所述第二分组卷积依次串联,所述第二处理层为一个卷积核为1
×
1的二维卷积,所述卷积层通道内的二维卷积、第二分组卷积以及所述第二处理层内的二维卷积的输出都经过批归一化层以及PReLU激活函数层,所述卷积层通道以及所述下采样注意力通道本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线手写中文文本行识别方法,其特征在于,所述方法包括以下步骤:获取待识别在线手写中文文本行的信息,所述待识别在线手写中文文本行的信息包括文本行初始二维轨迹坐标序列,所述文本行初始二维轨迹坐标序列为手写笔或手指在进行所述待识别在线手写中文文本行的输入操作时,在操作时间内的每一帧所述手写笔或手指在二维坐标系上的位置坐标所组成的坐标序列;对所述文本行初始二维轨迹坐标序列进行数据预处理,生成目标文本行二维轨迹坐标序列;构建端到端注意力卷积循环网络模型,所述端到端注意力卷积循环网络模型包括多个不同膨胀系数的二维空洞卷积;将所述目标文本行二维轨迹坐标序列输入至所述端到端注意力卷积循环网络模型中,基于所述端到端注意力卷积循环网络模型中的多个不同膨胀系数的二维空洞卷积直接从所述目标文本行二维轨迹坐标序列中获取所述待识别在线手写中文文本行的包含不同感受域的多尺度局部上下文特征;基于双层双向长短期记忆网络,以捕获所述多尺度局部上下文特征的长期依赖关系,获取经过一次处理的多尺度局部上下文特征;引入多头注意力机制,对所述经过一次处理的多尺度局部上下文特征进行加权,生成待识别在线手写中文文本行的特征向量矩阵;基于归一化指数函数对所述待识别在线手写中文文本行的特征向量矩阵进行多轮计算,每一轮计算均将所述待识别在线手写中文文本行的特征向量矩阵中多个不同时刻的特征向量转换为多个不同时刻的概率分布向量,并基于每一轮获取的多个不同时刻的概率分布向量,执行每一轮的删除、合并操作并得到与真实标签相同的文本行概率,基于焦点连接时序分类损失函数,对所述文本行概率进行梯度下降训练,当某一轮基于焦点连接时序分类损失函数对所述文本行概率进行梯度下降训练所得到的损失值不下降时,确定最大预测概率,其中,真实标签为所述待识别在线手写中文文本行所对应的真实文本行在字符集内对应的标签,所述字符集中包括多个字符以及每一字符所对应的分类标签;基于所述最大预测概率,确定所述待识别在线手写中文文本行的目标标签,并将所述待识别在线手写中文文本行的目标标签映射至所述字符集中,从而识别出所述待识别在线手写中文文本行。2.如权利要求1所述的一种在线手写中文文本行识别方法,其特征在于,所述对文本行初始二维轨迹坐标序列进行数据预处理,生成目标文本行二维轨迹坐标序列,包括以下步骤:基于给定的欧氏阈值,删除所述文本行初始二维轨迹坐标序列中的冗余点,生成经过第一次处理的文本行初始二维轨迹坐标序列;基于所述经过第一次处理的文本行初始二维轨迹坐标序列中的多个位置坐标,对所述经过第一次处理的文本行初始二维轨迹坐标序列进行轨迹平滑处理,生成经过第二次处理的文本行初始二维轨迹坐标序列;基于所述经过第二次处理的文本行初始二维轨迹坐标序列中的最大横坐标、最大纵坐标、最小横坐标以及最小纵坐标的数值,对所述经过第二次处理的文本行初始二维轨迹坐标序列进行归一化处理,生成目标文本行二维轨迹坐标序列。
3.如权利要求1所述的一种在线手写中文文本行识别方法,其特征在于,所述端到端注意力卷积循环网络模型包括端到端多尺度卷积网络与注意力卷积网络,所述端到端多尺度卷积网络与所述注意力卷积网络串联,且所述端到端多尺度卷积网络的输出为所述注意力卷积网络的输入;所述端到端多尺度卷积网络的梯度为3层,包括第一多尺度卷积网络、第二多尺度卷积网络以及第三多尺度卷积网络,所述第一多尺度卷积网络、第二多尺度卷积网络以及所述第三多尺度卷...

【专利技术属性】
技术研发人员:屈喜文吴志鸿黄俊
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1