字符组合方法、设备及介质技术

技术编号:37678705 阅读:10 留言:0更新日期:2023-05-26 04:45
本申请公开了一种字符组合方法、设备及介质,所述方法包括:识别文本数据,得到包括至少两个待组合字符的字符集合;确定所述字符集合中所述待组合字符的像素特征;基于所述像素特征对所述字符集合中的第m待组合字符以及第n待组合字符进行组合,得到字符组合结果;其中,m和n为不同的正整数。m和n为不同的正整数。m和n为不同的正整数。

【技术实现步骤摘要】
字符组合方法、设备及介质


[0001]本申请涉及文本识别
,尤其涉及一种字符组合方法、设备及介质。

技术介绍

[0002]在实际应用中,文本数据中经常会出现汉字被拆分编辑的现象。汉字被拆分后,字符之间的零散组合会导致对文本数据含义的错误理解和识别,从而对网络用户所发布的文本数据的审核带来了更多的挑战,提高了文本数据的错误审核的风险。

技术实现思路

[0003]基于以上问题,本申请实施例提供了一种字符组合方法、设备及介质。
[0004]本申请实施例提供的技术方案是这样的:
[0005]本申请实施例提供了一种字符组合方法,所述方法包括:
[0006]识别文本数据,得到包括至少两个待组合字符的字符集合;
[0007]确定所述字符集合中所述待组合字符的像素特征;
[0008]基于所述像素特征对所述字符集合中的第m待组合字符以及第n待组合字符进行组合,得到字符组合结果;其中,m和n为不同的正整数。
[0009]在一些实施例中,所述像素特征包括像素高度以及像素宽度;所述确定所述字符集合中所述待组合字符的像素特征,包括:
[0010]获取所述待组合字符的轮廓的像素位置;
[0011]基于所述像素位置中与所述轮廓的上下边缘对应的像素点的位置,确定所述像素高度;
[0012]基于所述像素位置中与所述轮廓的左右边缘对应的像素点的位置,确定所述像素宽度。
[0013]在一些实施例中,所述像素特征包括结构特征;所述确定所述字符集合中所述待组合字符的像素特征,包括:
[0014]获取所述待组合字符的轮廓对应的像素位置;
[0015]对所述像素位置中与所述待组合字符笔画的延伸轨迹对应的像素点数量进行统计,得到像素数量;
[0016]基于所述像素数量,确定所述待组合字符的结构特征。
[0017]在一些实施例中,所述像素特征包括像素高度和像素宽度;所述字符组合结果包括水平组合结果以及垂直组合结果;所述基于所述像素特征对所述字符集合中的第m待组合字符以及第n待组合字符进行组合,得到字符组合结果,包括:
[0018]确定水平压缩比例和垂直压缩比例;
[0019]基于所述水平压缩比例分别对所述第m待组合字符以及所述第n待组合字符的像素宽度进行压缩,得到第一压缩字符和第二压缩字符;
[0020]对所述第一压缩字符以及所述第二压缩字符进行水平方向的组合,得到所述水平
组合结果;
[0021]基于所述垂直压缩比例分别对所述第m待组合字符以及所述第n待组合字符的像素高度进行压缩,得到第三压缩字符和第四压缩字符;
[0022]对所述第三压缩字符以及所述第四压缩字符进行垂直方向的组合,得到所述垂直组合结果。
[0023]在一些实施例中,所述确定水平压缩比例和垂直压缩比例,包括:
[0024]基于所述第m待组合字符的像素宽度以及所述第n待组合字符的像素宽度,确定第一参数;
[0025]基于所述第m待组合字符的像素高度以及所述第n待组合字符的像素高度,确定第二参数;
[0026]基于所述第m待组合字符的像素宽度以及所述第m待组合字符的像素高度,确定第三参数;
[0027]基于所述第m待组合字符的像素高度以及所述第n待组合字符的像素宽度,确定第四参数;
[0028]基于所述第一参数、所述第三参数以及所述第四参数,确定所述水平压缩比例;
[0029]基于所述第二参数、所述第三参数以及所述第四参数,确定所述垂直压缩比例。
[0030]在一些实施例中,所述像素特征包括结构特征;所述方法还包括:
[0031]基于所述第m待组合字符的结构特征以及所述第n待组合字符的结构特征,确定所述第m待组合字符与所述第n待组合字符之间的结构对比关系;
[0032]所述基于所述第一参数、所述第三参数以及所述第四参数,确定所述水平压缩比例,包括:
[0033]基于所述结构对比关系,对所述第一参数、所述第三参数以及所述第四参数进行修正处理,确定所述水平压缩比例;
[0034]所述基于所述第二参数、所述第三参数以及所述第四参数,确定所述垂直压缩比例,包括:
[0035]基于所述结构对比关系,对所述第二参数、所述第三参数以及所述第四参数进行修正处理,确定所述垂直压缩比例。
[0036]在一些实施例中,所述方法还包括:
[0037]确定与所述第m待组合字符以及所述第n待组合字符关联的关联文字;
[0038]基于所述关联文字和所述字符组合结果,对所述文本数据进行识别。
[0039]在一些实施例中,所述基于所述关联文字和所述字符组合结果,对所述文本数据进行识别,包括:
[0040]若所述关联文字与所述字符组合结果之间的匹配程度大于或等于匹配阈值,则基于所述关联文字替换所述文本数据中的第m待组合字符以及第n待组合字符,并基于所述关联文字对所述文本数据进行语义识别。
[0041]本申请实施例还提供了一种字符组合装置,所述装置包括:
[0042]识别模块,用于识别文本数据,得到包括至少两个待组合字符的字符集合;
[0043]确定模块,用于确定字符集合中所述待组合字符的像素特征;
[0044]组合模块,用于基于所述像素特征对所述字符集合中的第m待组合字符以及第n待
组合字符进行组合,得到字符组合结果;其中,m和n为不同的正整数。
[0045]本申请实施例还提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器中存储有计算机程序;所述计算机程序被所述处理器执行时,能够实现如前任一所述的字符组合方法。
[0046]本申请实施例还一种计算机可读存储介质,所述存储介质中存储有计算机程序;所述计算机程序被电子设备的处理器执行时,能够实现如前任一所述的字符组合方法。
[0047]本申请实施例提供的字符组合方法中,识别文本数据得到包括至少两个待组合字符的字符集合之后,能够确定字符集合中待组合字符的像素特征,由于像素特征能够全面而精准的表征待组合字符在文本数据中的字形特征,那么,基于像素特征对字符集合中的第m待组合字符以及第n待组合字符进行组合得到的字符组合结果,能够精确的体现第m待组合字符以及第n待组合的字形特征,还能改善字符组合结果中第m待组合字符以及第n待组合字符的字义特性,从而提高字符组合结果的精准度,进而提高对文本数据正确识别和审核的概率。
附图说明
[0048]图1为本申请实施例提供的字符组合方法的流程示意图;
[0049]图2为本申请实施例提供的得到新词汇的流程示意图;
[0050]图3为本申请实施例提供的字符组合装置的结构示意图;
[0051]图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0052]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符组合方法,其特征在于,所述方法包括:识别文本数据,得到包括至少两个待组合字符的字符集合;确定所述字符集合中所述待组合字符的像素特征;基于所述像素特征对所述字符集合中的第m待组合字符以及第n待组合字符进行组合,得到字符组合结果;其中,m和n为不同的正整数。2.根据权利要求1所述的方法,其特征在于,所述像素特征包括像素高度以及像素宽度;所述确定所述字符集合中所述待组合字符的像素特征,包括:获取所述待组合字符的轮廓的像素位置;基于所述像素位置中与所述轮廓的上下边缘对应的像素点的位置,确定所述像素高度;基于所述像素位置中与所述轮廓的左右边缘对应的像素点的位置,确定所述像素宽度。3.根据权利要求1所述的方法,其特征在于,所述像素特征包括结构特征;所述确定所述字符集合中所述待组合字符的像素特征,包括:获取所述待组合字符的轮廓对应的像素位置;对所述像素位置中与所述待组合字符笔画的延伸轨迹对应的像素点数量进行统计,得到像素数量;基于所述像素数量,确定所述待组合字符的结构特征。4.根据权利要求1所述的方法,其特征在于,所述像素特征包括像素高度和像素宽度;所述字符组合结果包括水平组合结果以及垂直组合结果;所述基于所述像素特征对所述字符集合中的第m待组合字符以及第n待组合字符进行组合,得到字符组合结果,包括:确定水平压缩比例和垂直压缩比例;基于所述水平压缩比例分别对所述第m待组合字符以及所述第n待组合字符的像素宽度进行压缩,得到第一压缩字符和第二压缩字符;对所述第一压缩字符以及所述第二压缩字符进行水平方向的组合,得到所述水平组合结果;基于所述垂直压缩比例分别对所述第m待组合字符以及所述第n待组合字符的像素高度进行压缩,得到第三压缩字符和第四压缩字符;对所述第三压缩字符以及所述第四压缩字符进行垂直方向的组合,得到所述垂直组合结果。5.根据权利要求4所述的方法,其特征在于,所述确定水平压缩比例和垂直压缩比例,包括:基于所述第m待组合字符的像素宽度以及所述第n待组合字符的像素宽度,确定第一参数;基于所述第m待组合字符的像素高度以及所述第n...

【专利技术属性】
技术研发人员:张探探庄光庭程小鸥
申请(专利权)人:阿维塔科技重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1