基于笔画信息的汉字拆分方法、装置、设备以及存储介质制造方法及图纸

技术编号:39977964 阅读:37 留言:0更新日期:2024-01-09 01:18
本发明专利技术公开了基于笔画信息的汉字拆分方法、装置、设备以及存储介质,包括:获取由触控装置传输的包含若干汉字的语句;遍历语句中的每一笔画,在每一次遍历时提取当前所遍历的笔画加入预设的笔画集合中;计算当前笔画集合与下一个待遍历的笔画之间的特征向量,以使汉字拆分模型根据特征向量确定当前所遍历的笔画是否为一个汉字的最后一画,若是,则将当前笔画集合中的所有笔画作为一个汉字的笔画;在每一笔画遍历完成后,以语句中的若干汉字的最后一画,作为所述语句的各拆分点。因此,本发明专利技术通过向汉字拆分模型输入预先计算好的笔画特征信息,简化汉字拆分模型,提高了模型的识别效率,解决了当前的汉字拆分模型结构复杂,识别效率低的问题。

【技术实现步骤摘要】

本专利技术涉及计算机文字识别,尤其涉及一种基于笔画信息的汉字拆分方法、装置、设备以及存储介质


技术介绍

1、随着计算机输入法的发展,手写输入也从简单的单字输入发展为短句输入,用户可以在触控屏幕上通过手写的方式写入一句汉字短句,使输入法程序能够一次性地将整段手写文字输入进输入框中。具体的,程序一般是先通过汉字拆分技术,拆分出句子中的每一个汉字,再分别对每一个汉字进行文字识别,最后将识别到的文字进行输入。

2、而目前大部分的手写汉字拆分技术都是通过图像处理技术来实现的,但由于汉字的数量庞大,字体多样,而且书写者的书写习惯或书写场景不同,例如,连笔书写,因屏幕书写空间不够导致书写的汉字出现轻微重叠的情况等原因,导致写入的汉字难以通过基于图像的汉字拆分技术准确进行识别拆分。同时,图像处理技术的特征提取环节多、计算复杂度高,并不能很好的适用于大多数设备。进一步的,基于图像处理技术实现的手写汉字拆分模型,一般是通过特征提取模块以及特征上下文的信息计算模块构建。但是在模型运行的过程中需要保证有足够的硬件算力的支持,且由于模型结构庞大,需要占用搭载设备大量的本文档来自技高网...

【技术保护点】

1.一种基于笔画信息的汉字拆分方法,其特征在于,包括:

2.如权利要求1所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述遍历所述语句中的每一笔画,包括:

3.如权利要求2所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述计算当前笔画集合与下一个待遍历的笔画之间的特征向量,包括:

4.如权利要求3所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述汉字拆分模型确定当前所遍历的笔画是否为一个汉字的最后一画,包括:

5.如权利要求1所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述汉字拆分模型的构建,包括:p>

6.如权利...

【技术特征摘要】

1.一种基于笔画信息的汉字拆分方法,其特征在于,包括:

2.如权利要求1所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述遍历所述语句中的每一笔画,包括:

3.如权利要求2所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述计算当前笔画集合与下一个待遍历的笔画之间的特征向量,包括:

4.如权利要求3所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述汉字拆分模型确定当前所遍历的笔画是否为一个汉字的最后一画,包括:

5.如权利要求1所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述汉字拆分模型的构建,包括:

6.如权利要求5所述的一种基于笔画信息的汉字拆分方法,其特征在于,所述汉字拆分模型结构为,包含...

【专利技术属性】
技术研发人员:谭天
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1