针对形近汉字的图像优化识别系统技术方案

技术编号：29791184 阅读：18 留言：0更新日期：2021-08-24 18:10

一种针对形近汉字的图像优化识别系统，包括：图像识别模块、中文文本笔画拆分模块和中文文本纠错模块，其中：图像识别模块根据文字在图片上笔画的突变为特征信息，利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块，中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块，中文文本纠错模块基于预训练的中文BERT模型，对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果，本发明专利技术针对近形字的笔画而不是局部的形态特征进行改进，使得增加的特征数量减少，通过BERT基线模型联合学习，使得识别过程更加简洁高效的同时明显提高识别正确率。

全部详细技术资料下载

【技术实现步骤摘要】
针对形近汉字的图像优化识别系统
本专利技术涉及的是一种图像处理领域的技术，具体是一种针对形近汉字的图像优化识别系统。
技术介绍
图像识别是目前应用最广泛的算法技术之一，其接受图片作为输入，以识别的字符作为输出。为了提高图像识别的性能，因此需要对于识别错的字符进行纠正，而错误的比例以近形字居多。
技术实现思路
本专利技术针对现有图像识别技术针对近型字的识别过程复杂且容易识别错误的缺陷，提出一种针对形近汉字的图像优化识别系统，针对近形字的笔画而不是局部的形态特征进行改进，使得增加的特征数量减少，通过BERT基线模型联合学习，使得识别过程更加简洁高效的同时明显提高识别正确率。本专利技术是通过以下技术方案实现的：本专利技术涉及一种针对形近汉字的图像优化识别系统，包括：图像识别模块、中文文本笔画拆分模块和中文文本纠错模块，其中：图像识别模块根据文字在图片上笔画的突变为特征信息，利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块，中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块，中文文本纠错模块基于预训练的中文BERT模型，对输入的笔画编号信息和文字信息分别进行针对语义问题的纠错和针对近形字问题的纠错并得到识别正确的结果。所述的文字在图片上笔画的突变是指：因模型在识别图像文字当中需根据一定的文字特征来进行识别，因此不同字符的笔画突变则是一个重要的特征，例如字符“A”的顶上的尖锐，字符“B”...

【技术保护点】
1.一种针对形近汉字的图像优化识别系统，其特征在于，包括：图像识别模块、中文文本笔画拆分模块和中文文本纠错模块，其中：图像识别模块根据文字在图片上笔画的突变为特征信息，利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块，中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块，中文文本纠错模块基于预训练的中文BERT模型，对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果。/n

【技术特征摘要】
1.一种针对形近汉字的图像优化识别系统，其特征在于，包括：图像识别模块、中文文本笔画拆分模块和中文文本纠错模块，其中：图像识别模块根据文字在图片上笔画的突变为特征信息，利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块，中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块，中文文本纠错模块基于预训练的中文BERT模型，对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果。

2.根据权利要求1所述的针对形近汉字的图像优化识别系统，其特征是，所述的图像识别模块包括：图像检测单元和图像识别单元，其中：图像检测单元针对图片文字整体信息进行定位处理并得到图片中图像文字的具体位置结果后输出至图像识别单元，图像识别单元针对所定位好的图像文字信息进行识别处理并得到初步图像识别结果后输出至中文文本笔画拆分模块。

3.根据权利要求1所述的针对形近汉字的图像优化识别系统，其特征是，所述的中文文本笔画拆分模块包括：笔画拆分单元、笔画累计单元、向量映射单元，其中：笔画拆分单元针对初步识别文本信息进行深度优先搜索处理并得到所以包含的细粒度笔画结果，即笔画形成树中的叶子节点后输出至笔画累计单元，笔画累计单元针对笔画拆分单元信息进行对于统计到的叶子节点进行累加处理并得到每个字所包含的每种笔画数量结果后输出至向量映射单元，向量映射单元...

【专利技术属性】
技术研发人员：罗艺康，李国强，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人