字段识别方法、装置、电子设备、存储介质和程序产品制造方法及图纸

技术编号：28871757 阅读：12 留言：0更新日期：2021-06-15 23:04

本公开公开了字段识别方法、装置、电子设备、存储介质和程序产品，涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于OCR场景下。具体实现方案为：预测图像数据包括的多个字段；提取每个字段的特征信息；基于所述多个字段的特征信息，构建所述多个字段的共同编码特征；基于多个查询向量对所述共同编码特征进行解码，得到所述多个查询向量对应的多个解码特征，任一所述查询向量关联目标字段和一个候选字段；从所述多个解码特征中确定目标解码特征，并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。本公开可以提高图像数据的字段识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
字段识别方法、装置、电子设备、存储介质和程序产品
本公开涉及人工智能领域，具体为计算机视觉和深度学习技术，可应用于光学字符识别(OpticalCharacterRecognition，OCR)场景下。
技术介绍
在实际应用中使用到的图像数据往往是多样式的，例如：不同样式的票据图像数据、不同样式的铭牌图像数据等。目前识别图像数据的关联字段主要是通过预先设置适用特定样式的模板进行识别，不同模板只能识别特定样式的图像数据的关联字段。
技术实现思路
本公开提供了一种字段识别方法、装置、电子设备、存储介质和程序产品。根据本公开的一方面，提供了一种字段识别方法，包括：预测图像数据包括的多个字段；提取每个字段的特征信息；基于所述多个字段的特征信息，构建所述多个字段的共同编码特征；基于多个查询向量对所述共同编码特征进行解码，得到所述多个查询向量对应的多个解码特征，任一所述查询向量关联目标字段和一个候选字段；从所述多个解码特征中确定目标解码特征，并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。根据本公开的另一方面，提供了一种字段识别装置，包括：预测模块，用于预测图像数据包括的多个字段；提取模块，用于提取每个字段的特征信息；构建模块，用于基于所述多个字段的特征信息，构建所述多个字段的共同编码特征；解码模块，用于基于多个查询向量对所述共同编码特征进行解码，得到所述多个查询向量对应的多个解码特征，任一所述...

【技术保护点】
1.一种字段识别方法，包括：/n预测图像数据包括的多个字段；/n提取每个字段的特征信息；/n基于所述多个字段的特征信息，构建所述多个字段的共同编码特征；/n基于多个查询向量对所述共同编码特征进行解码，得到所述多个查询向量对应的多个解码特征，任一所述查询向量关联目标字段和一个候选字段；/n从所述多个解码特征中确定目标解码特征，并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。/n

【技术特征摘要】
1.一种字段识别方法，包括：
预测图像数据包括的多个字段；
提取每个字段的特征信息；
基于所述多个字段的特征信息，构建所述多个字段的共同编码特征；
基于多个查询向量对所述共同编码特征进行解码，得到所述多个查询向量对应的多个解码特征，任一所述查询向量关联目标字段和一个候选字段；
从所述多个解码特征中确定目标解码特征，并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。

2.根据权利要求1所述的方法，其中，所述提取每个字段的特征信息，包括：
提取每个字段的图像特征、位置特征和文本语义特征，其中，所述特征信息为所述图像特征、位置特征和文本语义特征的融合特征信息。

3.根据权利要求1所述的方法，其中，所述基于所述多个字段的特征信息，构建所述多个字段的共同编码特征，包括：
通过预先配置的多层特征编码器预测所述多个字段在多个维度上的综合共同编码特征，其中，所述多层特征编码器的第一层输入包括所述多个字段的特征信息，所述多层特征编码器的第n层的输入为包括第n-1层的输出，n为大于1的整数。

4.根据权利要求3所述的方法，任一所述查询向量包括所述目标字段的标识信息和一个候选字段的标识信息；
所述方法还包括：
为每个字段分配标识信息，并将每个字段的标识信息更新至对应的特征信息中；
其中，所述多层特征编码器的第一层输入包括所述多个字段的包括标识信息的特征信息。

5.根据权利要求1所述的方法，其中，所述基于多个查询向量对所述共同编码特征进行解码，得到所述多个查询向量对应的多个解码特征，包括：
通过预先配置的多层特征解码器对所述共同编码特征进行多次解码操作，得到所述多个查询向量对应的多个解码特征，其中，每次解码操作过程中，所述多层特征解码器的第一层的输入包括一个所述查询向量和所述共同编码特征，所述多层特征编码器的第n层的输入为包括第n-1层的输出，n为大于1的整数。

6.根据权利要求1所述的方法，其中，所述从所述多个解码特征中确定目标解码特征，并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段，包括：
分别对所述多个解码特征进行降维处理，得到多个一维解码特征，并计算每个一维解码特征的匹配条件概率，并将目标一维解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段，所述目标一维解码特征的匹配条件概率满足预设条件。

7.一种字段识别装置，包括：
预测模块，用于预测图像数据包括的多个字段；
提取模块，用于提取每个字段的特征信息；
构建模块，用于基于所述多个字段的特征信息，构...

【专利技术属性】
技术研发人员：李煜林，张晓强，钦夏孟，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人