文本检测制造技术

技术编号：39824893 阅读：6 留言：0更新日期：2023-12-29 15:59

本公开提供了一种文本检测

全部详细技术资料下载

【技术实现步骤摘要】
文本检测、文本检测模型优化、数据标注的方法、装置

[0001]本公开涉及人工智能
，具体为计算机视觉
、
深度学习
、
大模型等
，可应用于人工智能的内容生成等场景，尤其涉及一种文本检测方法
、
文本检测模型优化方法
、
用于文本检测的数据标注的方法
、
装置
、
电子设备
、
计算机可读存储介质和计算机程序产品
。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为
(
如学习
、
推理
、
思考
、
规划等
)
的学科，既有硬件层面的技术也有软件层面的技术
。
人工智能硬件技术一般包括如传感器
、
专用人工智能芯片
、
云计算
、
分布式存储
、
大数据处理等技术；人工智能软件技术主要包括计算机视觉技术
、
语音识别技术
、
自然语言处理技术以及机器学习
/
深度学习
、
大数据处理技术
、
知识图谱技术等几大方向
。
[0003]通用文本检测是计算机视觉技术的重要任务，其是指在图像中定位和识别文本行的过程
。
在许多应用场景中，如车牌识别
、
身份证识别
、
>票据卡证识别等，文本检测的准确性对整个系统的性能表现有着较大影响
。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法
。
除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术
。
类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认
。

技术实现思路

[0005]本公开提供了一种文本检测方法
、
文本检测模型优化方法
、
用于文本检测的数据标注的方法
、
装置
、
电子设备
、
计算机可读存储介质和计算机程序产品
。
[0006]根据本公开的一方面，提供了一种文本检测方法，包括：获取包含文本的图像的图像特征，以及用于对定位文本进行提示的提示信息特征；对图像特征进行编码操作，以得到经编码的图像特征；基于经编码的图像特征与提示信息特征之间的相关性，确定用于解码操作的锚定框，锚定框用于在解码操作中提供与文本的位置相关的位置参考信息；以及基于经编码的图像特征与提示信息特征之间的注意力交互，以及锚定框提供的位置参考信息，执行解码操作以得到在图像中定位文本的检测框
。
[0007]根据本公开的一方面，提供了一种文本检测模型优化方法，包括：在当前的循环迭代中，基于当前的文本检测模型，执行如上所述的文本检测方法，以得到在图像中定位文本的当前预测检测框，其中，用于对定位文本进行提示的提示信息特征基于前一次循环迭代得到的前次预测检测框生成；确定当前预测检测框与前次预测检测框之间的差异；响应于确定当前预测检测框与前次预测检测框之间的差异大于或等于预定阈值，对当前的文本检测模型进行优化，并执行下一次迭代循环；以及响应于确定当前预测检测框与前次预测检测框之间的差异小于预定阈值，停止执行下一次迭代循环，并将当前的文本检测模型作为优化后的文本检测模型
。
[0008]根据本公开的一方面，提供了一种用于文本检测的数据标注方法，包括：获取包含待标注文本的图像；执行半自动数据标注过程或全自动数据标注过程，其中，在半自动数据标注过程中，执行如上所述的文本检测方法，以得到在图像中定位待标注文本的标注检测框，其中，用于对定位待标注文本进行提示的提示信息特征基于人工的指定而生成；在全自动数据标注过程中，执行如上所述的文本检测模型优化方法，以得到在图像中定位待标注文本的标注检测框，其中，用于对定位待标注文本进行提示的提示信息特征基于前一次循环迭代得到的前次预测检测框生成；以及将标注检测框确定为标注文本的数据标注结果
。
[0009]根据本公开的一方面，提供了一种文本检测装置，包括：特征获取模块，被配置为获取包含文本的图像的图像特征；提示编码器模块，被配置为获取用于对定位文本进行提示的提示信息特征；编码器模块，被配置为对图像特征进行编码操作，以得到经编码的图像特征；查询选择模块，被配置为基于经编码的图像特征与提示信息特征之间的相关性，确定用于解码操作的锚定框，锚定框用于在解码操作中提供与文本的位置相关的位置参考信息；以及解码器模块，被配置为基于经编码的图像特征与提示信息特征之间的注意力交互，以及锚定框提供的位置参考信息，执行解码操作以得到在图像中定位文本的检测框
。
[0010]根据本公开的一方面，提供了一种文本检测模型优化装置，包括：如上所述的文本检测装置，被配置为在当前的循环迭代中，基于当前的文本检测模型，得到在图像中定位文本的当前预测检测框，其中，用于对定位文本进行提示的提示信息特征基于前一次循环迭代得到的前次预测检测框生成；差异确定模块，被配置为确定当前预测检测框与前次预测检测框之间的差异；循环执行模块，被配置为响应于确定当前预测检测框与前次预测检测框之间的差异大于或等于预定阈值，对当前的文本检测模型进行优化，并执行下一次迭代循环；以及循环停止模块，被配置为响应于确定当前预测检测框与前次预测检测框之间的差异小于预定阈值，停止执行下一次迭代循环，并将当前的文本检测模型作为优化后的文本检测模型
。
[0011]根据本公开的一方面，提供了一种用于文本检测的数据标注装置，包括：图像获取模块，被配置为获取包含待标注文本的图像；标注执行模块，被配置为执行半自动数据标注过程或全自动数据标注过程，其中，在半自动数据标注过程中，利用如上所述的文本检测装置得到在图像中定位待标注文本的标注检测框，其中，用于对定位待标注文本进行提示的提示信息特征基于人工的指定而生成；在全自动数据标注过程中，利用如上所述的文本检测模型优化装置得到在图像中定位待标注文本的标注检测框，其中，用于对定位待标注文本进行提示的提示信息特征基于前一次循环迭代得到的前次预测检测框生成；以及标注确定模块，被配置为将标注检测框确定为标注文本的数据标注结果
。
[0012]根据本公开的另一方面，提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器，其中，存储器存储有能够被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法
。
[0013]根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行如上所述的方法
。
[0014]根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种文本检测方法，包括：获取包含文本的图像的图像特征，以及用于对定位所述文本进行提示的提示信息特征；对所述图像特征进行编码操作，以得到经编码的图像特征；基于所述经编码的图像特征与所述提示信息特征之间的相关性，确定用于解码操作的锚定框，所述锚定框用于在所述解码操作中提供与所述文本的位置相关的位置参考信息；以及基于所述经编码的图像特征与所述提示信息特征之间的注意力交互，以及所述锚定框提供的所述位置参考信息，执行所述解码操作以得到在所述图像中定位所述文本的检测框
。2.
根据权利要求1所述的方法，其中，所述基于所述经编码的图像特征与所述提示信息特征之间的相关性，确定用于解码操作的锚定框，包括：计算所述经编码的图像特征与所述提示信息特征之间的相似度；按照所述相似度的大小，对经由所述编码操作输出的候选锚定框进行排序；以及选取所述候选锚定框中所述相似度的大小满足预定条件的候选锚定框以用于所述解码操作
。3.
根据权利要求1或2所述的方法，其中，所述提示信息特征指示所述文本的所述检测框的坐标和
/
或所述文本的内容
。4.
根据权利要求3所述的方法，其中，所述获取用于对所述文本的检测进行提示的提示信息特征，包括：将所述坐标相对于所述图像进行归一化，以得到归一化的坐标；获取所述坐标对应的绝对位置编码信息；以及将所述归一化的坐标与所述绝对位置编码信息相加，以生成所述提示信息特征
。5.
根据权利要求3或4所述的方法，其中，所述坐标包括下列至少一者：所述检测框的中心点的坐标
、
所述检测框内的多个点对应的坐标
、
所述检测框的多个角点对应的坐标
。6.
根据权利要求5所述的方法，其中，所述检测框包括多边形
。7.
根据权利要求3所述的方法，其中，所述获取用于对所述文本的检测进行提示的提示信息特征，包括：经由对比语言
‑
图像预训练
CLIP
模型的文本分支对所述文本的内容进行编码，以生成所述提示信息特征
。8.
根据权利要求1至7中任一项所述的方法，其中，所述解码操作基于自注意机制和交叉注意力机制二者，在所述自注意机制中，所述经编码的图像特征或所述提示信息特征被用作查询向量
、
键向量和值向量，在所述交叉注意力机制中，所述提示信息特征被用作所述查询向量，并且所述经编码的图像特征被用作所述键向量和所述值向量
。9.
根据权利要求1至8中任一项所述的方法，其中，所述检测框对应于不同的文本粒度，每种文本粒度的所述检测框具有相应的置信度
。10.
根据权利要求9所述的方法，其中，所述文本粒度包括完整文本行
、
紧凑文本行或键
值文本对
。11.
根据权利要求1至
10
中任一项所述的方法，其中，所述文本检测基于无监督自蒸馏
‑
滑动窗口转换器
DINO
‑
SwinL
大模型执行
。12.
根据权利要求
11
所述的方法，其中，所述
DINO
‑
SwinL
大模型基于结构化文本
StrucText2.0
方法被预训练
。13.
一种文本检测模型优化方法，包括：在当前的循环迭代中，基于当前的文本检测模型，执行根据权利要求1至
12
中任一项所述的文本检测方法，以得到在图像中定位文本的当前预测检测框，其中，用于对定位所述文本进行提示的提示信息特征基于前一次循环迭代得到的前次预测检测框生成；确定所述当前预测检测框与所述前次预测检测框之间的差异；响应于确定所述当前预测检测框与所述前次预测检测框之间的差异大于或等于预定阈值，对所述当前的文本检测模型进行优化，并执行下一次迭代循环；以及响应于确定所述当前预测检测框与所述前次预测检测框之间的差异小于所述预定阈值，停止执行下一次迭代循环，并将所述当前的文本检测模型作为优化后的文本检测模型
。14.
根据权利要求
13
所述的方法，还包括：响应于所述当前的循环迭代为第一次循环迭代，在执行所述当前的循环迭代之前，将所述图像输入所述文本检测模型以得到所述文本的初步预测检测框，其中，在所述当前的循环迭代中，使用所述初步预测检测框作为所述前次预测检测框
。15.
一种用于文本检测的数据标注方法，包括：获取包含待标注文本的图像；执行半自动数据标注过程或全自动数据标注过程，其中，在所述半自动数据标注过程中，执行根据权利要求1至
12
中任一项所述的文本检测方法，以得到在所述图像中定位所述待标注文本的标注检测框，其中，用于对定位所述待标注文本进行提示的提示信息特征基于人工的指定而生成；在所述全自动数据标注过程中，执行根据权利要求
13
或
14
所述的文本检测模型优化方法，以得到在所述图像中定位所述待标注文本的标注检测框，其中，用于对定位所述待标注文本进行提示的提示信息特征基于前一次循环迭代得到的前次预测检测框生成；以及将所述标注检测框确定为所述标注文本的数据标注结果
。16.
一种文本检测装置，包括：特征获取模块，被配置为获取包含文本的图像的图像特征；提示编码器模块，被配置为获取用于对定位所述文本进行提示的提示信息特征；编码器模块，被配置为对所述图像特征进行编码操作，以得到经编码的图像特征；查询选择模块，被配置为基于所述经编码的图像特征与所述提示信息特征之间的相关性，确定用于解码操作的锚定框，所述锚定框用于在所述解码操作中提供与所述文本的位置相关的位置参考信息；以及解码器模块，被配置为基于所述经编码的图像特征与所述提示信息特征之间的注意力交互，以及所述锚定框提供的所述位置参考信息，执行所述解码操作以得到在所述图像中定位所述文本的检测框
。17.
根据权利要求
16
所述的装置，其中，所述查询选择模块包括：
相似度计算模块，...

【专利技术属性】
技术研发人员：万星宇，章成全，吕鹏原，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人