手写多行字符分割方法、装置及设备制造方法及图纸

技术编号:38090941 阅读:9 留言:0更新日期:2023-07-06 09:02
本发明专利技术公开一种手写多行字符分割方法、装置及设备,分割方法包括:设置当前文本的预估高度、宽高阈值、偏移量矩阵,预估高度为所有的笔画数量位置的高度的第一比例值,宽高阈值为所有的笔画的平均宽度和高度中的更大值,偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;对文本执行分割操作中的一种或多种,分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。本发明专利技术不改变原本书写的笔迹,对手写多行字符进行精确高效的分割,使得手写文本具有更为规范、整洁的排版。整洁的排版。整洁的排版。

【技术实现步骤摘要】
手写多行字符分割方法、装置及设备


[0001]本专利技术涉及计算机
,尤其涉及一种手写多行字符分割方法、装置及设备。

技术介绍

[0002]随着科技的发展,人们越来越习惯使用手写板或触屏来手写文本。在手写文本时,区别于平常的移动设备的打字聊天,现有技术可以模拟现实中的文本手写,即在同一篇幅中手写,在手写板或触屏上的落笔会直接映射到文本中,类似绘画。
[0003]因此,为了更好的识别文本中的每个字符,现有技术存在手写字符分割技术,主要用于分离手写文本中的字母和数字的技术。它可以帮助计算机识别和解释手写文本,为机器学习和自然语言处理应用提供支持。它的主要原理是使用各种数据处理技术来分析手写字符的形状,大小,拼写,连续性等特征,并根据这些特征识别出每个字符。
[0004]但是,现有技术中,缺少对文本中的分割整理,即缺少不能在保留用户的笔迹的同时,将异常笔画、字符行间距等进行调整的方法。

技术实现思路

[0005]鉴于以上技术问题,本专利技术提供了一种手写多行字符分割方法、装置及设备,该方法可以对文本中的手写多行字符进行分割整理,提升行分割的准确率。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一方面,提出了一种手写多行字符分割方法,应用于对文本进行识别,所述文本中包括多行手写字符,所述字符由一个或多个笔画组成,每一所述笔画可被读取,所述分割方法包括:
[0008]设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;
[0009]基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
[0010]进一步的,所述删除异常笔画包括删除具有以下情况之一的所述笔画:
[0011]宽、高皆大于5倍所述宽高阈值;
[0012]高度大于7倍所述宽高阈值;
[0013]高度大于3.75倍预估高度。
[0014]进一步的,所述预分割包括将具有以下情况之一的所述笔画分割至下一行中:
[0015]当前行所有的所述笔画的X轴最大值减去现有所述笔画的X轴最大值大于所述预估高度;
[0016]现有所述笔画的Y轴最小值减去当前行所有的所述笔画的Y轴最大值大于2倍所述预估高度;
[0017]现有所述笔画的Y轴最小值大于所述偏移量矩阵的Y轴最大值。
[0018]进一步的,所述孤立点、倒笔单独为一行,包括:
[0019]不属于所有的所述笔画包含点Y轴值正太分布置信区间面积为95.449974%中的所述笔画,单独为一行。
[0020]所述过大行再分割包括:
[0021]在已分类的行中,若行高大于2倍所述预估高度,基于密度聚类分析,对其进行按类数分行。
[0022]进一步的,所述重新行排序包括:将行外接矩形中心值更小的行排前面。
[0023]进一步的,所述空间合并包括:对相邻两行所述字符进行对比,在具有以下情况之一时,将相邻的两行合并;
[0024]当前行的Y轴最小值大于对比行的Y轴最小值,且当前行的Y轴最大值小于于对比行的Y轴最大值;
[0025]当前行、对比行中有一个小于0.9倍所述预估高度,且当前行、对比行重叠高度与两行高度对比率大于0.85;
[0026]当前行、对比行的重叠高度都大于0.9倍两行高度,且当前行、对比行的的重叠位置的高度都大于0.9倍两行重叠位置的合并高度。
[0027]进一步的,所述行中间词间距过大分为多行,包括:
[0028]同一行中,若两个所述字符之间的距离大于5倍所述预估高度,则以两个所述字符的中间作为分割线分割为两行。
[0029]进一步的,所述判断整篇是否是单字,包括:
[0030]若整篇所述文本是多行的,且整篇宽度大于其高度的2倍,则不是单字;
[0031]若整篇所述文本的高度大于其宽度的2倍,则是单字。
[0032]根据本公开的第二方面,提供一种手写多行字符分割装置,包括:预设模块,所述预设模块用于设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;执行模块,所述执行模块用于基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
[0033]根据本公开的第三方面,提供一种手写多行字符分割设备,包括:设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前所述字符的最小X轴值减去所述预估高度,及最大X轴值加上所述预估高度所形成的正矩形;基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。
[0034]本公开的技术方案具有以下有益效果:
[0035]根据手写多行字符分割方法,首先删除异常笔画,避免异常笔画影响分割以及之后的识别结果,使用预分割粗略分割笔画为多行。再使用孤立点、倒笔为一行,过大行再分割,重新行排序,空间合并,行中间词间距过大分为多行等提升行分割准确率。最后根据整篇是否为单字判断来确定是否需要添加第二种分割方式。
[0036]本专利技术不改变原本书写的笔迹,对手写多行字符进行精确高效的分割,使得手写文本具有更为规范、整洁的排版。
附图说明
[0037]图1为本说明书实施例中的一种手写多行字符分割方法的流程图;
[0038]图2为说明书实施例中的待操作的文本示意图;
[0039]图3为图2中删除异常笔画后的文本示意图;
[0040]图4为说明书实施例中的又一待操作的文本示意图;
[0041]图5为图4进行分割操作后的文本示意图;
[0042]图6为说明书实施例中的判断整篇是否是单字的一种结果示意图;
[0043]图7为说明书实施例中的判断整篇是否是单字的另一种结果示意图;
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种手写多行字符分割方法,其特征在于,应用于对文本进行识别,所述文本中包括多行手写字符,所述字符由一个或多个笔画组成,每一所述笔画可被读取,所述分割方法包括:设置当前文本的预估高度、宽高阈值、偏移量矩阵,所述预估高度为所有的所述笔画数量位置的高度的第一比例值,所述宽高阈值为所有的所述笔画的平均宽度和高度中的更大值,所述偏移量矩阵为当前对象最小X轴值减去预估高度,以及最大X轴值加上预估高度范围内对比对象所包含笔画的正矩形;基于所述预估高度、所述宽高阈值、所述偏移量矩阵,对所述文本执行分割操作中的一种或多种,所述分割操作包括删除异常笔画;预分割;孤立点、倒笔单独为一行;过大行再分割;重新行排序;空间合并;行中间词间距过大分为多行;判断整篇是否是单字。2.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述删除异常笔画包括删除具有以下情况之一的所述笔画:宽、高皆大于5倍所述宽高阈值;高度大于7倍所述宽高阈值;高度大于3.75倍预估高度。3.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述预分割包括将具有以下情况之一的所述笔画分割至下一行中:当前行所有的所述笔画的X轴最大值减去现有所述笔画的X轴最大值大于所述预估高度;现有所述笔画的Y轴最小值减去当前行所有的所述笔画的Y轴最大值大于2倍所述预估高度;现有所述笔画的Y轴最小值大于所述偏移量矩阵的Y轴最大值。4.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述孤立点、倒笔单独为一行,包括:不属于所有的所述笔画包含点Y轴值正太分布置信区间面积为95.449974%中的所述笔画,单独为一行。所述过大行再分割包括:在已分类的行中,若行高大于2倍所述预估高度,基于密度聚类分析,对其进行按类数分行。5.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述重新行排序包括:将行外接矩形中心值更小的行排前面。6.根据权利要求1所述的手写多行字符分割方法,其特征在于,所述空间合并包括:对相邻两行所述字符进行对比,在具有以下情况之一时,将相邻的两行合并;当前行的Y轴最小值大于对比行的Y轴最小值,且当前行的Y轴最大值小于于对比行的Y轴最大值;当...

【专利技术属性】
技术研发人员:庄建明郑晓敏
申请(专利权)人:泓宇星私人有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1