场景文本任务处理方法、系统、设备及存储介质技术方案

技术编号：41158549 阅读：4 留言：0更新日期：2024-04-30 18:21

本发明专利技术公开了一种场景文本任务处理方法、系统、设备及存储介质，在预训练阶段中对场景文本图像中普遍存在的两类特征（风格特征与内容特征）进行解耦，通过解耦表征学习，指导模型分解场景文本图像中的内容特征与风格特征，以更好的完成各种场景文本任务，同时获得了更有判别力的表征；训练完毕后，可以在完成不同任务时选择不同特征进行实现，使模型能够更好的完成不同的场景文本任务。大量的实验证明了本发明专利技术性能优于以往的方法，对于场景文本识别、编辑、擦除任务都具有先进的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及场景文本任务处理，尤其涉及一种场景文本任务处理方法、系统、设备及存储介质。

技术介绍

1、语言作为一种重要的信息载体被广泛存在于自然场景中。场景文本是场景理解和感知中的一个重要课题。场景文本的识别、编辑以及擦除是场景文本领域的关键任务。这些任务被广泛应用于人机交互、自动驾驶等领域。

2、传统方法一般只能实现单一任务，对于多任务的实现通常使用表征学习的方式。这些方法利用表征学习来提高图像特征质量，从而提高模型在不同下游任务上的性能。在场景文本领域内，这些工作一般采用掩码图像建模和特征对比学习来对主干网络进行预训练。然后，使用预先训练好的主干网络对特定任务的解码器进行微调。尽管这种方法实现了优越的性能，但很明显，这种方法对不同的场景文本任务使用相同的特征是欠优的，并没有考虑文本图像的特殊性。

3、有鉴于此，特提出本专利技术。

技术实现思路

1、本专利技术的目的是提供一种场景文本任务处理方法、系统、设备及存储介质，通过解耦表征学习，指导模型分解场景文本图像中的内容特征与风格特征，以更好的完成各种场景文本任务。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种场景文本任务处理方法，包括：

4、构建场景文本任务处理模型，包括：视觉编码器、解耦网络与多任务的解码器；

5、训练所述场景文本任务处理模型，训练过程包括预训练与微调两个部分，预训练时，获取包含多个文本图像对的解耦训练数据集，每一文本图像对包含

6、利用训练后的场景文本任务处理模型执行场景文本任务。

7、一种场景文本任务处理系统，包括：

8、模型构建单元，用于构建场景文本任务处理模型，包括：视觉编码器、解耦网络与多任务的解码器；

9、模型训练单元，用于训练所述场景文本任务处理模型，训练过程包括预训练与微调两个部分，预训练时，获取包含多个文本图像对的解耦训练数据集，每一文本图像对包含的两幅文本图像具有相同背景与字体风格，且文字内容不同；使用视觉编码器分别提取每一文本图像对中每一幅文本图像的视觉特征，并通过解耦网络解耦为内容特征与风格特征，利用同一文本图像对中两幅文本图像的风格特征计算对齐损失；将每一幅文本图像的内容特征分别输入至多任务的解码器获得文本识别结果，利用文本识别结果计算识别损失；将文本图像对中一幅文本图像的风格特征与内容特征，以及另一幅图像中的文本提示输入至多任务的解码器，获得所述另一幅图像的重建结果，利用重建结果计算重建损失；结合计算出的所有损失对所述场景文本任务处理模型进行预训练；

10、任务处理单元，用于利用训练后的场景文本任务处理模型执行场景文本任务。

11、一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

12、其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

13、一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

14、由上述本专利技术提供的技术方案可以看出，对场景文本图像中普遍存在的两类特征（风格特征与内容特征）进行解耦，最终在完成不同任务时通过选择不同特征进行实现，达到更好地完成多个下游任务（即场景文本任务）的目的。

本文档来自技高网...

【技术保护点】

1.一种场景文本任务处理方法，其特征在于，包括：

2.根据权利要求1所述的一种场景文本任务处理方法，其特征在于，所述使用视觉编码器分别提取每一文本图像对中每一幅文本图像的视觉特征，并通过解耦网络解耦为内容特征与风格特征包括：

3.根据权利要求1所述的一种场景文本任务处理方法，其特征在于，所述对齐损失表示为：

4.根据权利要求1所述的一种场景文本任务处理方法，其特征在于，所述将每一幅文本图像的内容特征分别输入至多任务的解码器获得文本识别结果包括：

5.根据权利要求1或4所述的一种场景文本任务处理方法，其特征在于，所述识别损失表示为：

6.根据权利要求4所述的一种场景文本任务处理方法，其特征在于，所述将文本图像对中一幅文本图像的风格特征与内容特征，以及另一幅文本图像中的文本提示输入至多任务的解码器，获得重建背景图像与所述另一幅文本图像的重建结果包括：

7.根据权利要求6所述的一种场景文本任务处理方法，其特征在于，门控注入机制层的处理过程与相关的拼接过程表示为：

8.一种场景文本任务处理系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

...

【技术特征摘要】

1.一种场景文本任务处理方法，其特征在于，包括：

3.根据权利要求1所述的一种场景文本任务处理方法，其特征在于，所述对齐损失表示为：

5.根据权利要求1或4所述的一种场景文本任务处理方法，其特征在于，所述识别损失表示为：

6.根据权利要求4所...

【专利技术属性】
技术研发人员：张勇东，张博强，谢洪涛，王裕鑫，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人