模型训练方法及文字识别方法、装置、设备和存储介质制造方法及图纸

技术编号：30403819 阅读：23 留言：0更新日期：2021-10-20 10:57

本发明专利技术实施例提供一种模型训练方法及文字识别方法、装置、设备和存储介质，该文字识别方法包括：获取包含待识别的文字的图像；获取图像的第一图像特征和第二图像特征；根据第一图像特征预测预设的多个偏旁部首在图像中的出现概率；根据第二图像特征和所述出现概率，输出图像中包含的文字。由于形近字是影响文字识别结果准确性的一种重要因素，而形近字的差异往往体现为偏旁或部首上的差异，在本方案中，通过预测图像中包含的偏旁部首，基于该预测结果的辅助，能够获得良好的文字识别结果。能够获得良好的文字识别结果。能够获得良好的文字识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及文字识别方法、装置、设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种模型训练方法及文字识别方法、装置、设备和存储介质。

技术介绍

[0002]在一些应用场景中会存在识别图像中包含的文字的需求。比如，通过对道路上部署的若干摄像头所采集的视频数据进行文字识别，可以识别出街道边存在的商铺的名称，为电子地图中相关数据的更新提供依据。
[0003]但是，在实际进行文字识别的过程中，经常会因为形近字、图像噪声等干扰导致文字识别结果错误。比如如下两个汉字：“妹”、“妺”，这两个汉字的字形及其相似，在基于现有的文字识别模型进行文字识别时，经常会被误识别。

技术实现思路

[0004]本专利技术实施例提供一种模型训练方法及文字识别方法、装置、设备和存储介质，可以提高文字识别的准确性。
[0005]第一方面，本专利技术实施例提供一种文字识别方法，该方法包括：
[0006]获取包含待识别的文字的图像；
[0007]获取所述图像的第一图像特征和第二图像特征；
[0008]根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率；
[0009]根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。
[0010]第二方面，本专利技术实施例提供一种文字识别装置，该装置包括：
[0011]获取模块，用于获取包含待识别的文字的图像；
[0012]提取模块，用于获取所述图像的第一图像特征和第二图像特征；
>[0013]预测模块，用于根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率；
[0014]输出模块，用于根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。
[0015]第三方面，本专利技术实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的文字识别方法。
[0016]第四方面，本专利技术实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的文字识别方法。
[0017]第五方面，本专利技术实施例提供了一种模型训练方法，包括：
[0018]获取样本图像和偏旁部首集，所述样本图像中包含文字；
[0019]确定所述样本图像对应的标注信息，所述标注信息包括所述样本图像中包含的文
字和偏旁部首，所述偏旁部首存在于所述偏旁部首集中；
[0020]在所述标注信息的监督下，对文字识别模型进行训练。
[0021]第六方面，本专利技术实施例提供一种模型训练装置，该装置包括：
[0022]获取模块，用于获取样本图像和偏旁部首集，所述样本图像中包含文字；
[0023]标注模块，用于确定所述样本图像对应的标注信息，所述标注信息包括所述样本图像中包含的文字和偏旁部首，所述偏旁部首存在于所述偏旁部首集中；
[0024]训练模块，用于在所述标注信息的监督下，对文字识别模型进行训练。
[0025]第七方面，本专利技术实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第五方面所述的模型训练方法。
[0026]第八方面，本专利技术实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第五方面所述的模型训练方法。
[0027]第九方面，本专利技术实施例提供了一种文字识别方法，包括：
[0028]接收调用目标服务的请求，所述请求中包含图像，所述目标服务用于识别图像中包含的文字；
[0029]利用所述目标服务对应的资源，以获取所述图像的第一图像特征和第二图像特征，根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率，根据所述第二图像特征和所述出现概率，输出所述图像中包含的文字。
[0030]本专利技术实施例提供的文字识别方案可以用于识别图像中包含的文字，尤其用于对其中包含的汉字进行准确识别。实际应用中，当获取到某图像，需要识别其中包含的文字时，可以使用预先训练好的文字识别模型来完成文字识别任务。该文字识别模块的工作过程简单来说是，首先，对该图像进行特征提取，以获得该图像的第一图像特征和第二图像特征。其中，第一图像特征可以被用于进行该图像中包含的偏旁部首的预测，从而可以知道该图像中包含哪些偏旁部首。图像中包含的偏旁部首的预测结果对于准确识别出图像中包含的文字具有辅助作用，从而，基于第二图像特征以及该预测结果，可以完成图像中所包含文字的准确识别。
[0031]由于形近字是影响文字识别结果准确性的一种重要因素，而形近字的差异往往体现为偏旁或部首上的差异，因此，在本方案中，提供了一种能够区分文字偏旁部首的文字识别模型，以便基于该文字识别模型能够获得良好的文字识别结果。
附图说明
[0032]为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0033]图1为本专利技术实施例提供的一种模型训练方法的流程图；
[0034]图2为本专利技术实施例提供的一种文字识别模型的组成示意图；
[0035]图3为本专利技术实施例提供的另一种文字识别模型的组成示意图；
[0036]图4为本专利技术实施例提供的另一种文字识别模型的组成示意图；
[0037]图5为本专利技术实施例提供的另一种文字识别模型的组成示意图；
[0038]图6为本专利技术实施例提供的一种文字识别方法的流程图；
[0039]图7为本专利技术实施例提供的一种文字识别应用场景的示意图；
[0040]图8为本专利技术实施例提供的一种模型训练装置的结构示意图；
[0041]图9为与图8所示实施例提供的模型训练装置对应的电子设备的结构示意图；
[0042]图10为本专利技术实施例提供的一种文字识别装置的结构示意图；
[0043]图11为与图10所示实施例提供的文字识别装置对应的电子设备的结构示意图。
具体实施方式
[0044]为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0045]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本专利技术。在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文字识别方法，其特征在于，包括：获取包含待识别的文字的图像；获取所述图像的第一图像特征和第二图像特征；根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率；根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。2.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像特征预测预设的多个偏旁部首在所述图像中的出现概率，包括：通过文字识别模型中的偏旁部首分类网络对所述第一图像特征进行分类预测，以确定所述多个偏旁部首在所述图像中的出现概率。3.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字，包括：将所述第二图像特征和所述出现概率输入文字识别模型中的解码网络，以通过所述解码网络输出所述图像中包含的所述文字。4.根据权利要求2所述的方法，其特征在于，所述偏旁部首分类网络中包括第一编码网络；所述获取所述图像的第一图像特征，包括：通过所述第一编码网络对所述图像进行编码处理，以得到所述第一图像特征。5.根据权利要求4所述的方法，其特征在于，所述文字识别模型中包括第二编码网络；所述获取所述图像的第二图像特征，包括：通过所述第二编码网络对所述图像进行编码处理，以得到所述第二图像特征。6.根据权利要求5所述的方法，其特征在于，所述文字识别模型中包括第三编码网络；所述获取所述图像的第二图像特征，包括：将所述第二编码网络输出的图像特征输入到所述第三编码网络，所述第三编码网络中包括多个隐藏层；确定所述第二图像特征是由所述第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列。7.根据权利要求2所述的方法，其特征在于，所述文字识别模型中包括第二编码网络；所述获取所述图像的第一图像特征和第二图像特征，包括：通过所述第二编码网络对所述图像进行编码处理；确定所述第二编码网络输出的图像特征作为所述第一图像特征和所述第二图像特征。8.根据权利要求7所述的方法，其特征在于，所述文字识别模型中包括第三编码网络；所述获取所述图像的第一图像特征和第二图像特征，包括：将所述第二编码网络输出的图像特征输入到所述第三编码网络，所述第三编码网络中包括多个隐藏层；确定所述第二图像特征是由所述第三编码网络输出的多个时刻各自对应的图像特征构成的特征序列；确定所述第三编码网络输出的目标时刻对应的图像特征作为所述第一图像特征，所述目标时刻包括所述多个时刻中的最后一个时刻。9.根据权利要求4所述的方法，其特征在于，所述第一编码网络包括：卷积神经网络。
10.根据权利要求6或8所述的方法，其特征在于，所述第二编码网络包括：卷积神经网络；所述第三编码网络包括：长短时记忆网络，或者，双向长短时记忆网络。11.一种文字识别装置，其特征在于，包括：获取模块，用于获取包含待识别的文字的图像；提取模块，用于获取所述图像的第一图像特征和第二图像特征；预测模块，用于根据所述第一图像特征预测预设的多个偏旁部首在所述图像中的出现概率；输出模块，用于根据所述第二图像特征和所述出现概率，输出所述图像中包含的所述文字。12.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的文字识别方法。13.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至10中任一项所述的文字识别方法。14.一种模型训练方法，其特征在于，包括：获取样本图像和偏旁部首集，所述样本图像中包含文字；确定所述样本图像对应的标注信息，所述标注信息包括所述样本图像中包含的文字和偏旁部首，所述偏旁部首存在于所述偏旁部首集中；在所述标注信息的监督下，对文字识别模型进行训练。15.根据权利要求14所述的方法，其特征在于，所述文字识别模型包括偏旁部首分类网络；所述对文字识别模型进行训练，包括：获取所述样...

【专利技术属性】
技术研发人员：陈新鹏，陈静远，刘袁，夏亮，邓兵，黄建强，华先胜，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人