字符检测模型训练方法及组件，文本识别方法及组件技术

技术编号：34530404 阅读：12 留言：0更新日期：2022-08-13 21:22

本申请公开了计算机技术领域内的一种字符检测模型训练方法及组件，文本识别方法及组件。本申请能够训练得到字符检测模型，该字符检测模型能够检测任一图像中的每个字符的位置及方向，因此就算图像中的文字弯曲、变形或随意分布，字符检测模型都可以确定字符在图像中的分布位置，从而可实现更细颗粒度的字符级文字检测和提取，文字定位和检测精确率更高。可见本申请提供的字符检测模型针对模板类图像、无规则类图像都能进行文字检测和提取，模型通用性更佳。相应地，本申请提供的一种字符检测模型训练组件、一种文本识别方法及组件，也同样具有上述技术效果。也同样具有上述技术效果。也同样具有上述技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
字符检测模型训练方法及组件，文本识别方法及组件

[0001]本申请涉及计算机
，特别涉及一种字符检测模型训练方法及组件，文本识别方法及组件。

技术介绍

[0002]目前，现有的文本识别技术主要用于对模板类的图像进行文字识别，例如：提取证件、卡牌、单据类图像中的文字，而难以对随机拍摄的图像、无规则文字的图像进行文字提取。也即，以模板类图像作为输入数据的模型无法对无规则图像进行文字检测和提取，导致无规则图像中的文字定位和检测精确率偏低。
[0003]因此，如何针对无规则文字的图像进行文字检测和提取，是本领域技术人员需要解决的问题。

技术实现思路

[0004]有鉴于此，本申请的目的在于提供一种字符检测模型训练方法及组件，文本识别方法及组件，以针对无规则文字的图像进行文字检测和提取。其具体方案如下：
[0005]第一方面，本申请提供了一种字符检测模型训练方法，包括：
[0006]从训练集中获取目标图像，所述训练集包括多个图像，每个图像中的每一字符标注有位置标签和方向标签；
[0007]将所述目标图像输入待训练模型，以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息；
[0008]针对所述目标图像中的每一字符，计算所述位置信息和所述位置标签之间的位置损失，计算所述方向信息和所述方向标签之间的方向损失，并基于所述位置损失和所述方向损失确定单字符损失；
[0009]基于所述目标图像中的所有字符的单字符损失确定综合损失；
[0010]若所述综...

【技术保护点】

【技术特征摘要】
1.一种字符检测模型训练方法，其特征在于，包括：从训练集中获取目标图像，所述训练集包括多个图像，每个图像中的每一字符标注有位置标签和方向标签；将所述目标图像输入待训练模型，以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息；针对所述目标图像中的每一字符，计算所述位置信息和所述位置标签之间的位置损失，计算所述方向信息和所述方向标签之间的方向损失，并基于所述位置损失和所述方向损失确定单字符损失；基于所述目标图像中的所有字符的单字符损失确定综合损失；若所述综合损失符合模型收敛条件，则将所述待训练模型作为字符检测模型；否则，基于所述综合损失更新所述待训练模型的模型参数，并在所述训练集中重新选择图像作为所述目标图像，以利用重新选择的目标图像对更新后的待训练模型进行迭代训练。2.根据权利要求1所述的方法，其特征在于，所述将所述目标图像输入待训练模型，以使所述待训练模型输出所述目标图像中每一字符的位置信息和方向信息，包括：将所述目标图像输入所述待训练模型，以使所述待训练模型从所述目标图像中提取轮廓特征和深度语义特征，融合所述轮廓特征和所述深度语义特征得到特征图，基于所述特征图确定所述目标图像中每一字符的位置信息和方向信息。3.根据权利要求2所述的方法，其特征在于，融合所述轮廓特征和所述深度语义特征得到特征图，包括：拼接所述轮廓特征和所述深度语义特征得到所述特征图；和/或将所述轮廓特征和所述深度语义特征相加得到所述特征图。4.根据权利要求2所述的方法，其特征在于，所述基于所述特征图确定所述目标图像中每一字符的位置信息和方向信息，包括：对所述特征图进行前景和背景分割，得到前景像素特征；对所述前景像素特征进行字符分割，得到所述目标图像中每一字符对应的像素特征；基于所述目标图像中每一字符对应的像素特征确定所述目标图像中每一字符的位置信息和方向信息。5.根据权利要求1至4任一项所述的方法，其特征在于，还包括：若所述综合损失不符合模型收敛条件，则对本次输入所述待训练模型的目标图像进行尺寸缩放调整和...

【专利技术属性】
技术研发人员：王雄，
申请(专利权)人：深信服科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人