【技术实现步骤摘要】
一种文字识别方法、装置及存储介质
[0001]本专利技术属于图像识别
,特别是涉及一种文字识别方法、装置及存储介质。
技术介绍
[0002]图片中的文字信息可能是汉字、标点、字母或数字等等,使用同一类文字识别模型进行文字识别不仅识别效率低,而且还会降低识别的准确率。
[0003]在公开号为CN105528610A的专利中公开了一种文字识别方法和装置,该文字识别方法包括:根据预设的特征算子,获取待识别的图像的特征向量,所述特征算子用于根据当前处理的像素点的不同方向上的相邻的局部像素点进行运算;将所述待识别的图像的特征向量与预先获取的文字样本的特征向量进行比对,获取所述待识别的图像的文字识别结果,其中,所述文字样本的特征向量是根据所述特征算子对所述文字样本进行运算后得到的。上述方案将包含文字信息的图像直接进行特征处理,在不进行预先分类的情况下容易导致识别效率降低。
技术实现思路
[0004]本专利技术的目的在于提供一种文字识别方法、装置及存储介质,通过对待识别的图像单元进行文字类型分类后再进行文字识 ...
【技术保护点】
【技术特征摘要】
1.一种文字识别方法,其特征在于,包括,获取包含目标识别文字的目标图像;将目标图像分解为若干个图像单元,其中,每个图像单元内包含一个字符图像;获取多个不同类型的文字识别模型以及文字类型分类器;将用于识别同一文字类型的图像单元的若干个所述文字识别模型划入同一个文字识别模型组;将所述图像单元输入文字类型分类器,得到所述图像单元属于不同文字类型的概率;按照所述图像单元属于不同文字类型的概率将所述图像单元输入对应的文字识别模型组内得到所述图像单元内包含字符的文字含义;根据所述目标图像内所述图像单元的排列分布以及所述图像单元内包含字符的文字含义得到所述目标图像内包含字符的文字含义。2.根据权利要求1所述的方法,其特征在于,所述将所述图像单元输入文字类型分类器,得到所述图像单元属于不同文字类型的概率的步骤,包括,将同一个所述图像单元输入若干个传递参数不同的所述文字类型分类器,得到所述图像单元属于不同文字类型的若干组概率分布;剔除所述图像单元属于不同文字类型的若干组概率分布中的异常值得到所述图像单元属于不同文字类型的概率分布聚集范围;根据所述图像单元属于不同文字类型的概率分布聚集范围得到所述图像单元属于不同文字类型的概率分布核心;根据所述图像单元属于不同文字类型的概率分布核心得到所述图像单元属于不同文字类型的概率。3.根据权利要求2所述的方法,其特征在于,在将所述图像单元输入文字类型分类器,得到所述图像单元属于不同文字类型的概率的步骤中,将同一个所述图像单元输入两个传递参数不同的所述文字类型分类器,得到所述图像单元属于不同文字类型的第一概率分布和第二概率分布;根据所述图像单元属于不同文字类型的概率分布聚集范围以及概率分布核心得到所述图像单元属于一种或两种文字类型的概率。4.根据权利要求3所述的方法,其特征在于,所述剔除所述图像单元属于不同文字类型的若干组概率分布中的异常值得到所述图像单元属于不同文字类型的概率分布聚集范围的步骤,包括,将所述图像单元属于不同文字类型的第一概率分布作为所述图像单元的第一类型维度进行量化,得到所述图像单元的第一类型维度量化结果;将所述图像单元属于不同文字类型的第二概率分布作为所述图像单元的第二类型维度进行量化,得到所述图像单元的第二类型维度量化结果;根据所述图像单元的第一类型维度量化结果和第二类型维度量化结果对所述图像单元的量化散点标记,得到在第一类型维度和第二类型维度坐标系内的多个类型标记离散点;获取全部所述类型标记离散点之间的平均距离作为标准距离;获取每个类型标记离散点在标准距离内其它类型标记离散点的数量;
将在标准距离内其它类型标记离散点的数量为零的所述类型标记散点作为异常值进行剔除;得到由在标准距离内其它类型标记离散点的数量大于零的所述类型标记散点组成的正常类型标记离散点聚集区;所述正常类型标记离散点聚集区在第一类型维度和第二类型维度上的对应范围即是所述图像单元属于不同文字类型的概率分布聚集范围。5.根据权利要求4所述的方法,其特征在于,所述根据所述图像单元属于不同文字类型的概率分布聚集范围得到所述图像单元属于不同文字类型的概率分布核心的步骤,包括,在第一类型维度和第二类型维度坐标系内,获取正常类型标记离散点聚集区内每个所述类型标记离散点在标准距离范围内其它所述类型标记离散点的数量作为所述类型标记离散点的密度;将所述类型标记离散点的密度作为加权系数...
【专利技术属性】
技术研发人员:伍晓露,马文燕,杨璐,苏琴,
申请(专利权)人:毕节幼儿师范高等专科学校,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。