文本识别方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：29758834 阅读：17 留言：0更新日期：2021-08-20 21:12

本公开实施例公开了文本识别方法、装置、电子设备及计算机可读存储介质，所述方法包括获取待识别的图像，所述待识别的图像包括多个文本块；通过第一编码器，对图像中的文本块中的文字序列进行编码，获得多个文本块对应的多个语义向量；通过第二编码器，对于所述多个文本块中的每个文本块，基于文本块的语义向量、文本块的周围文本块的语义向量、文本块的图形空间特征、文本块的周围文本块的图形空间特征，获得文本块的目标向量表示；基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵，获得所述图像中的文本块的识别结果。本公开实施例利用图像文本块的空间关系和语义信息进行文本块聚合，提高了文本识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、电子设备及计算机可读存储介质
本公开涉及计算机应用
，具体涉及一种文本识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
在卡证结构化任务中，需要识别卡证图像中的特定实体文本，其中，卡证图像中的文本包括丰富且具有特定意义的实体信息，例如，人名、地名、组织名等。由于卡证图像中的文本包括丰富的非序列化的空间上下文信息，而空间上下文信息需要结合空间拓扑关系和语义进行建模，即需要将卡证图像中不同的文本块进行聚合，从而形成完整的实体文本内容，但是文本块聚合关系不能简单描述为上、下、左、右关系，因此，如何充分利用卡证图像中的空间上下文信息以及如何进行文本块聚合成为亟待解决的技术问题。
技术实现思路
为了解决相关技术中的问题，本公开实施例提供一种文本识别方法、装置、电子设备及计算机可读存储介质。第一方面，本公开实施例中提供了一种文本识别的方法。具体地，所述文本识别的方法，包括：获取待识别的图像，其中，所述待识别的图像包括多个文本块，每个所述文本块具有相应的图形空间特征；通过第一编码器，对所述图像中的文本块中的文字序列进行编码，获得所述多个文本块对应的多个语义向量；通过第二编码器，对于所述多个文本块中的每个文本块，基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征，获得所述文本块对应的目标向量表示，其中，所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示；<...

【技术保护点】
1.一种文本识别方法，其特征在于，包括：/n获取待识别的图像，其中，所述待识别的图像包括多个文本块，每个所述文本块具有相应的图形空间特征；/n通过第一编码器，对所述图像中的文本块中的文字序列进行编码，获得所述多个文本块对应的多个语义向量；/n通过第二编码器，对于所述多个文本块中的每个文本块，基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征，获得所述文本块对应的目标向量表示，其中，所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示；/n基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵，或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量，获得所述图像中的文本块的识别结果，每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度，所述文本块的对应文本块集合包括所述文本块和所述周围文本块。/n

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：
获取待识别的图像，其中，所述待识别的图像包括多个文本块，每个所述文本块具有相应的图形空间特征；
通过第一编码器，对所述图像中的文本块中的文字序列进行编码，获得所述多个文本块对应的多个语义向量；
通过第二编码器，对于所述多个文本块中的每个文本块，基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征，获得所述文本块对应的目标向量表示，其中，所述目标向量表示是指融合了空间上下文语义和图形空间特征的向量表示；
基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵，或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量，获得所述图像中的文本块的识别结果，每个文本块对应的邻接矩阵表示所述文本块的对应文本块集合中各文本块两两之间的远近程度，所述文本块的对应文本块集合包括所述文本块和所述周围文本块。

2.根据权利要求1所述的方法，其特征在于：
所述第一编码器是长短期记忆LSTM编码器或变换Transformer编码器；
所述通过第一编码器，对所述图像中的文本块中的文字序列进行编码，获得所述多个文本块对应的多个语义向量，包括：通过所述第一编码器，对所述图像中的多个文本块中的每个文本块的文字序列分别进行编码，获得所述多个文本块各自的语义向量。

3.根据权利要求1所述的方法，其特征在于：
所述第二编码器包括以下任意一种编码器：图卷积网络GCN编码器、长短期记忆LSTM编码器、变换Transformer编码器；
所述文本块的图形空间特征包括所述文本块的位置坐标和/或所述文本块的尺寸和/或所述文本块与其他文本块之间的分隔图形的位置坐标和/或所述文本块与其他文本块之间的分隔图形的尺寸。

4.根据权利要求1所述的方法，其特征在于，所述文本块的周围文本块包括所述多个文本块中除所述文本块之外的文本块或所述多个文本块中除所述文本块之外的与所述文本块之间的距离小于预设阈值的文本块。

5.根据权利要求1所述的方法，其特征在于：
所述通过第二编码器，对于所述多个文本块中的每个文本块，基于所述文本块的语义向量、所述文本块的周围文本块的语义向量、所述文本块的图形空间特征、所述文本块的周围文本块的图形空间特征，获得所述文本块对应的目标向量表示，包括：
将所述文本块的语义向量、所述文本块的尺寸、所述文本块的位置坐标进行拼接，将所述文本块的周围文本块的语义向量、所述文本块的周围文本块的尺寸、所述文本块的周围文本块的位置坐标进行拼接，将拼接结果输入所述第二编码器，获得所述文本块对应的所述目标向量表示。

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵，或者基于所述多个文本块对应的多个目标向量表示、多个图形空间特征、多个邻接矩阵、多个语义向量，获得所述图像中的文本块的识别结果，包括：
针对所述多个文本块中的每个文本块，基于所述文本块的目标向量表示、所述文本块的图形空间特征、所述文本块的邻接矩阵，获得所述文本块的特征表达；
基于所述多个文本块对应的多个特征表达，或者基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达，获得所述图像中的文本块的识别结果。

7.根据权利要求6所述的方法，其特征在于，所述基于所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果，包括：
通过第三编码器，基于所述多个文本块对应的多个特征表达，获得聚合信息矩阵，所述聚合信息矩阵表示所述多个文本块的聚合规则；
将所述多个文本块对应的多个特征表达和所述聚合信息矩阵输入语言表示模型，获得所述多个文本块的候选聚合结果的概率；
将所述语言表示模型的输入和所述概率一起输入命名实体识别NER模型，获得所述图像中的文本的识别结果。

8.根据权利要求6所述的方法，其特征在于，所述基于所述多个文本块对应的多个语义向量和所述多个文本块对应的多个特征表达获得所述图像中的文本的识别结果，包括：
通过第三编码器，基于所述多个文本块对应的多个特征表达，获得聚合信息矩阵，所述聚合信息矩阵表示所述多个文本块的聚合规则；
将所述多个文本块对应的多个语义向量、所述多个文本块对应的多...

【专利技术属性】
技术研发人员：罗楚威，王永攀，郑琪，高飞宇，张诗禹，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人