文字识别方法及装置、存储介质、计算机设备制造方法及图纸

技术编号:27977197 阅读:82 留言:0更新日期:2021-04-06 14:11
本发明专利技术公开了一种文字识别方法及装置、存储介质、计算机设备,涉及文字识别技术领域,主要目的在于能够无需标注数据即可实现文字识别,提高文字的识别效率,同时利用区块链网络节点存储识别结果,提高识别结果的存储安全性。包括:获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据;输出所述文本数据。本发明专利技术适用于文字的识别。

【技术实现步骤摘要】
文字识别方法及装置、存储介质、计算机设备
本专利技术涉及一种文字识别
,特别是涉及一种文字识别方法及装置、存储介质、计算机设备。
技术介绍
随着计算机技术的应用越来越广泛,文字识别也逐渐应用于不同的领域。文字识别是光学字符识别(OpticalCharacterRecognition,OCR)中的关键步骤,在金融领域中的应用包括银行卡识别、身份证识别、票据识别等。近年来,随着东南亚国家金融数字化转型,小语种如泰语的文字识别需求愈发旺盛,针对泰语等小语种的文字识别技术也应运而生。目前,传统的文字识别方法通常是基于深度学习模型,用CTC损失函数衡量预测结果和真实标注的误差。然而,这种方式需要有大量的标注数据,而小语种文字识别面临很大的挑战:现有小语种标注的数据少,且人工标注需要对小语种有较强的理解,标注难度大。
技术实现思路
有鉴于此,本专利技术提供一种文字识别方法及装置、存储介质、计算机设备,主要目的在于解决现有小语种标注的数据少,且人工标注需要对小语种有较强的理解,标注难度大的技术问题。依据本专利技术一个方面,提供了一种文字识别方法,包括:获取文字图像;对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;输出所述文本数据。进一步地,所述对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量,包括:对所述文字图像进行文字区域读取;根据所述文字区域抽取底层颜色特征和底层纹理特征;对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取所述文字区域的标签层全局特征;将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。进一步地,所述根据所述文字区域抽取底层颜色特征和底层纹理特征;对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征,包括:在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;将所述文字区域转换为灰度图像;在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。进一步地,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。进一步地,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。进一步地,所述将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集之前,所述方法还包括:根据获取的未标注图像,确定分割区域的最小尺寸;根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;基于所述分割图像确定图像融合阈值;根据所述图像融合阈值,对所述分割图像进行区域融合,得到融合图像;对所述融合图像的局部区域中仅包括一个目标图像的局部区域进行标注,得到已标注图像。进一步地,所述输出所述文本数据之后,所述方法还包括:将输出的文本数据保存在预先建立的区块链网络的存储节点中。依据本专利技术另一个方面,提供了一种文字识别装置,包括:获取单元,用于获取文字图像;提取单元,用于对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;识别单元,用于通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用配置有多种尺寸卷积核的卷积神经网络模型以及预先构造的第一训练数据集和第二训练数据集进行训练得到的;输出单元,用于输出所述文本数据。进一步地,所述提取单元,包括:读取模块,用于对所述文字图像进行文字区域读取;抽取模块,用于根据所述文字区域抽取底层颜色特征和底层纹理特征;融合模块,用于对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;所述抽取模块具体还用于抽取所述文字区域的标签层全局特征;所述融合模块具体还用于将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。进一步地,所述抽取模块,包括:在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;将所述文字区域转换为灰度图像;在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。进一步地,所述装置还包括:第一训练单元,用于利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;第二训练单元,用于利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。进一步地,所述装置还包括:配置单元,用于利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;第一构造单元,用于将获取的未标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第一训练数据集;所述第一训练单元具体用于利用所述第一训练数据集对所述卷积神经网络模型进行训练,得到预训练模型;第二构造单元,用于将获取的已标注图像划分为多个子块,按照预设概率对所述多个子块进行随机打乱或替换处理,以构造第二训练数据集;所述第二训练单元具体用于利用所述第二训练数据集对所述预训练模型进行训练,得到文字识别模型。进一步地,所述装置还包括:确定单元,用于根据获取的未标注图像,确定分割区域的最小尺寸;分割单元,用于根据所述分割区域的最小尺寸,将所述未标注图像进行超像素分割,得到分割图像;所述确定单元具体用于基于所述分割图像确定图像融合阈值;融合单元本文档来自技高网...

【技术保护点】
1.一种文字识别方法,其特征在于,包括:/n获取文字图像;/n对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;/n通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用未标注文字图像构造的第一训练数据集和已标注文字图像构造的第二训练数据集进行训练得到的;/n输出所述文本数据。/n

【技术特征摘要】
1.一种文字识别方法,其特征在于,包括:
获取文字图像;
对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量;
通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据,其中,所述文字识别模型为利用未标注文字图像构造的第一训练数据集和已标注文字图像构造的第二训练数据集进行训练得到的;
输出所述文本数据。


2.根据权利要求1所述的方法,其特征在于,所述对所述文字图像进行底层特征提取,将得到的底层颜色特征和底层纹理特征进行融合处理,确定所述文字图像中预设文字区域的特征向量,包括:
对所述文字图像进行文字区域读取;
根据所述文字区域抽取底层颜色特征和底层纹理特征;
对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征;
抽取所述文字区域的标签层全局特征;
将所述文字区域的底层局部特征与所述文字区域的标签层全局特征进行融合得到所述文字区域中所有像素的特征向量。


3.根据权利要求2所述的方法,其特征在于,所述根据所述文字区域抽取底层颜色特征和底层纹理特征,包括:
在RGB颜色空间抽取所述文字区域块中每个像素点的底层颜色特征;
所述对所述底层颜色特征和底层纹理特征进行融合得到底层局部特征,包括:
将所述文字区域转换为灰度图像;
在所述灰度图像上抽取Gabor纹理特征,得到每个像素点的底层纹理特征;
将所述底层颜色特征和所述底层纹理特征进行融合,得到底层局部特征。


4.根据权利要求1所述的方法,其特征在于,所述通过预先训练的文字识别模型对所述特征向量进行识别处理,得到文本数据之前,所述方法还包括:
利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型;
利用构造的第二训练数据集对所述预训练模型进行训练,得到文字识别模型。


5.根据权利要求4所述的方法,其特征在于,所述利用构造的第一训练数据集对预设的卷积神经网络模型进行训练,得到预训练模型,包括:
利用预先配置的多种尺寸的卷积核,预设卷积神经网络模型;
将获取的未标注图像划分为多个子块,按照预设...

【专利技术属性】
技术研发人员:李响
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1