一种文本行图片的解码方法、装置和设备制造方法及图纸

技术编号：29675804 阅读：14 留言：0更新日期：2021-08-13 21:58

本申请实施例公开了一种文本行图片的解码方法、装置和设备，Transformer模型的解码器至少连接第一模块和第二模块，在该解码器对文本行图片进行一次解码时，将前次的解码结果输入所述解码器，对文本行图片进行当次解码，从第一模块获得第一字符，从第二模块获得第二字符；将前次的解码结果依次拼接第一字符和第二字符获得当次的解码结果。可见，本申请提供的方法中，Transformer模型一次解码出多个字符，而克服了目前Transformer模型的解码器一次只能解码一个字符导致解码效率较低的问题，提高了对文本行图片的解码效率，从而提高了对文本行图片的识别效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本行图片的解码方法、装置和设备
本申请涉及图像处理
，特别是涉及一种文本行图片的解码方法、装置和设备。
技术介绍
光学字符识别(英文：OpticalCharacterRecognition，简称：OCR)技术，能够识别图片中的文字信息。其中，Transformer模型作为OCR技术的一种实现方式，识别效果较好。Transformer模型中的解码器，每次仅能够解码出文本行图片中的一个字符，如果待识别的文本行图片中包括的字符较多时，由于解码器需要执行的次数较多而导致Transformer模块的识别效率大打折扣。基于此，亟待提供一种更加高效的解码方法，能够快速的实现对文本行图片中字符的解码，从而提高Transformer模型对文本行图片的识别效率。
技术实现思路
本申请实施例提供了一种文本行图片的解码方法、装置和设备，能够使得Transformer模型中的解码器一次解码多个字符，从而使得Transformer模型能够快速的识别文本行图片，提高基于Transformer模型的OCR技术的识别效率。第一方面，本申请实施例提供了一种文本行图片的解码方法，该方法应用于Transformer模型，所述Transformer模型的解码器分别连接第一模块和第二模块，所述方法包括：将前次的解码结果输入所述解码器，对文本行图片进行解码，从所述第一模块获得第一字符，从所述第二模块获得第二字符；将所述前次的解码结果依次拼接所述第一字符和所述第二字符，获得当次的解码结果。r>作为一个示例，所述第一模块包括第一全连接层和第一损失层，所述第二模块包括第二全连接层和第二损失层。作为一个示例，所述方法还包括：将起始符输入所述解码器，对所述文本行图片进行首次解码，从所述第一模块获得第三字符，其中，所述起始符用于指示所述文本行图片中文本行的开始，所述第三字符为所述文本行图片中文本行的第一个字符。作为一个示例，所述方法还包括：确定所述第一字符为结束符，则，获得所述文本行图片的最终解码结果，所述最终解码结果为所述前次的解码结果，其中，所述结束符用于指示所述文本行图片中文本行的结束。作为一个示例，所述方法还包括：确定所述第二字符为结束符，则，获得所述文本行图片的最终解码结果，所述最终解码结果为所述前次的解码结果拼接所述第一字符，其中，所述结束符用于指示所述文本行图片中文本行的结束。作为一个示例，所述解码器还连接第三模块，则，对文本行图片进行解码，还包括：从所述第三模块获得第四字符，所述当次的解码结果包括所述前次的解码结果依次拼接所述第一字符、所述第二字符和所述第四字符。第二方面，本申请实施例还提供了一种文本行图片的解码装置，该装置应用于Transformer模型，所述Transformer模型的解码器分别连接第一模块和第二模块，所述装置包括：解码单元和获得单元。其中：解码单元，用于将前次的解码结果输入所述解码器，对文本行图片进行解码，从所述第一模块获得第一字符，从所述第二模块获得第二字符；获得单元，用于将所述前次的解码结果依次拼接所述第一字符和所述第二字符，获得当次的解码结果。作为一个示例，所述第一模块包括第一全连接层和第一损失层，所述第二模块包括第二全连接层和第二损失层。作为一个示例，所述解码单元，还用于：将起始符输入所述解码器，对所述文本行图片进行首次解码，从所述第一模块获得第三字符，其中，所述起始符用于指示所述文本行图片中文本行的开始，所述第三字符为所述文本行图片中文本行的第一个字符。作为一个示例，所述获得单元，还用于：确定所述第一字符为结束符，则，获得所述文本行图片的最终解码结果，所述最终解码结果为所述前次的解码结果，其中，所述结束符用于指示所述文本行图片中文本行的结束。作为一个示例，所述获得单元，还用于：确定所述第二字符为结束符，则，获得所述文本行图片的最终解码结果，所述最终解码结果为所述前次的解码结果拼接所述第一字符，其中，所述结束符用于指示所述文本行图片中文本行的结束。作为一个示例，所述解码器还连接第三模块，则，所述解码单元，还用于：从所述第三模块获得第四字符，所述当次的解码结果包括所述前次的解码结果依次拼接所述第一字符、所述第二字符和所述第四字符。第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括：处理器和存储器；所述存储器，用于存储指令或计算机程序；所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行上述第一方面提供的方法。第四方面，本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面提供的方法。由此可见，本申请实施例具有如下有益效果：本申请实施例提供了一种文本行图片的解码方法，该方法中Transformer模型的解码器至少连接第一模块和第二模块，在该解码器对文本行图片进行一次解码时，可以将前次的解码结果输入所述解码器，对文本行图片进行当次解码，从所述第一模块获得第一字符，从所述第二模块获得第二字符；从而，将所述前次的解码结果依次拼接所述第一字符和所述第二字符，获得当次的解码结果。其中，解码器连接的模块例如可以包括全连接层和损失层。可见，通过解码器连接至少两个能够并行处理的模块，能够并行对文本行图片解码并将输出的字符和前次的解码结果进行拼接，使得Transformer模型一次解码出多个字符，而克服了目前Transformer模型的解码器一次只能解码一个字符导致解码效率较低的问题，提高了Transformer模型对文本行图片的解码效率，从而使得基于Transformer模型的OCR技术对文本行图片进行更加快速的识别成为可能。附图说明图1为一种Transformer模型的结构示意图；图2为本申请实施例提供的一张待解码的文本行图片的示意图；图3为图1的Transformer模型对图2的文本行图片进行解码的过程意图；图4为本申请实施例提供的一种Transformer模型的结构示意图；图5为本申请实施例提供的一种文本行图片的解码方法的流程示意图；图6为本申请实施例提供的文本行图片的解码方法的一示例的示意图；图7为本申请实施例提供的另一种文本行图片的解码方法的流程示意图；图8为本申请实施例提供的文本行图片的解码方法的另一示例的示意图；图9为本申请实施例中一种文本行图片的解码装置的结构示意图；图10为本申请实施例中一种电子设备的结构示意图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，并非对本申请的限定。另外，还需要说明的是，为便于描述，附图中仅示出了与本申请相关的部分，并非全部结本文档来自技高网...

【技术保护点】
1.一种文本行图片的解码方法，其特征在于，应用于Transformer模型，所述Transformer模型的解码器分别连接第一模块和第二模块，所述方法包括：/n将前次的解码结果输入所述解码器，对文本行图片进行解码，从所述第一模块获得第一字符，从所述第二模块获得第二字符；/n将所述前次的解码结果依次拼接所述第一字符和所述第二字符，获得当次的解码结果。/n

【技术特征摘要】
1.一种文本行图片的解码方法，其特征在于，应用于Transformer模型，所述Transformer模型的解码器分别连接第一模块和第二模块，所述方法包括：
将前次的解码结果输入所述解码器，对文本行图片进行解码，从所述第一模块获得第一字符，从所述第二模块获得第二字符；
将所述前次的解码结果依次拼接所述第一字符和所述第二字符，获得当次的解码结果。

2.根据权利要求1所述的方法，其特征在于，所述第一模块包括第一全连接层和第一损失层，所述第二模块包括第二全连接层和第二损失层。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：
将起始符输入所述解码器，对所述文本行图片进行首次解码，从所述第一模块获得第三字符，其中，所述起始符用于指示所述文本行图片中文本行的开始，所述第三字符为所述文本行图片中文本行的第一个字符。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：
确定所述第一字符为结束符，则，获得所述文本行图片的最终解码结果，所述最终解码结果为所述前次的解码结果，其中，所述结束符用于指示所述文本行图片中文本行的结束。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：
确定所述第二字符为结束符，则，获得所述文本行图片的最终解码结果，所述最终解码结果为所述前次的解码结果拼接所述第一字符，其中，所述结束符用于指示所述文本行图片中文本行的结束。<...

【专利技术属性】
技术研发人员：蔡悦，卢永晨，黄灿，王长虎，
申请(专利权)人：北京有竹居网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人