模型训练、文本识别方法、装置、设备和介质制造方法及图纸

技术编号：29673545 阅读：29 留言：0更新日期：2021-08-13 21:55

本公开涉及一种模型训练、文本识别方法、装置、设备和介质；其中，该方法包括：获取训练样本，训练样本包括文本图像；构建初始分类模型，并根据初始分类模型的输出结果确定出训练样本中每个字符对应的多维二值向量；其中，多维二值向量为包括至少两个概率值的二值向量，概率值用于指示训练样本中字符的类别概率；利用初始识别模型，根据训练样本中每个字符的多维二值向量，获得预测文本；基于预设损失函数，根据预测文本对初始分类模型和初始识别模型进行训练，获得训练后的文本识别模型。本公开实施例能够有效提高文本识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练、文本识别方法、装置、设备和介质
本公开涉及人工智能
，尤其涉及一种模型训练、文本识别方法、装置、设备和介质。
技术介绍
自然场景文字识别是从带文字的图片中识别出字符序列的过程（对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母）；识别过程中，除了图片背景复杂以及光照变化等因素外，识别输出空间的复杂性也是一大困难，由于文字由数量是由不固定的字母组成，因此，自然场景文字识别需要从图片中识别长度不固定的序列。目前文字识别的主要方法是通过整体分析策略实现，即先将待识别文本图像编码，再进行序列解码直接得出整个字符串；但在具体应用过程中，其会出现识别结果多识别或漏识别字符的问题，导致文本识别准确度较低。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练、文本识别方法、装置、设备和介质。第一方面，本公开提供了一种文本识别模型训练方法，包括：获取训练样本，所述训练样本包括文本图像；构建初始分类模型，并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量；其中，所述多维二值向量为包括至少两个概率值的二值向量，所述概率值用于指示所述训练样本中字符的类别概率；利用初始识别模型，根据所述训练样本中每个字符的多维二值向量，获得预测文本；基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，获得训练后的文本识别模型。第二方面，本公开提供了一种文本识别方...

【技术保护点】
1.一种文本识别模型训练方法，其特征在于，所述方法包括：/n获取训练样本，所述训练样本包括文本图像；/n构建初始分类模型，并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量；其中，所述多维二值向量为包括至少两个概率值的二值向量，所述概率值用于指示所述训练样本中字符的类别概率；/n利用初始识别模型，根据所述训练样本中每个字符的多维二值向量，获得预测文本；/n基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，获得训练后的文本识别模型。/n

【技术特征摘要】
1.一种文本识别模型训练方法，其特征在于，所述方法包括：
获取训练样本，所述训练样本包括文本图像；
构建初始分类模型，并根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量；其中，所述多维二值向量为包括至少两个概率值的二值向量，所述概率值用于指示所述训练样本中字符的类别概率；
利用初始识别模型，根据所述训练样本中每个字符的多维二值向量，获得预测文本；
基于预设损失函数，根据所述预测文本对所述初始分类模型和所述初始识别模型进行训练，获得训练后的文本识别模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述初始分类模型的输出结果确定出所述训练样本中每个字符对应的多维二值向量，包括：
针对训练样本中的每个目标字符对应的字符图像，获取包含目标字符的部分图像信息的第一图像，利用所述初始分类模型根据所述第一图像确定所述目标字符对应的类别概率；
重复执行利用滑动窗方式调整所述第一图像中的图像信息，并利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率的步骤，得到所述目标字符对应的至少两个类别概率；
根据预设概率阈值对所述目标字符对应的至少两个类别概率进行二值化处理，得到所述目标字符对应的多维二值向量。

3.根据权利要求2所述的方法，其特征在于，所述利用滑动窗方式调整所述第一图像中的图像信息，包括：
基于预设方向，采用滑动窗口遮掩所述目标字符对应的字符图像中的局部图像信息，得到所述第一图像。

4.根据权利要求2所述的方法，其特征在于，所述利用所述初始分类模型根据所述第一图像确定目标字符对应的类别概率，包括：
将所述第一图像分别输入所述初始分类模型的至少两个串联的卷积层中，并将所述至少两个串联的卷积层的输出结果进行叠加，得到所述训练样本中目标字符的特征映射；
对所述训练样本中目标字符的特征映射进行卷积操作，得到所述训练样本中目标字符对应的类别概率。

5.根据权利要求1所述的方法，其特征在于，所述训练样本包括所述文本图像的转录内容，所述方法还包括：
响应所述转录内容的字符串长度小于预设的第一长度值，将预设的占位符号添加至所述转录内容的末尾位置，得到标准长度的转录内容。

...

【专利技术属性】
技术研发人员：王翔，秦勇，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人