文本检测方法和文本检测模型的训练方法、装置制造方法及图纸

技术编号：36255805 阅读：18 留言：0更新日期：2023-01-07 09:51

本公开提供了一种文本检测方法和文本检测模型的训练方法、装置，涉及人工智能领域，具体涉及计算机视觉、深度学习和图像处理等技术领域，可应用于OCR等场景。文本检测方法包括：提取文本图像的图像特征；采用解码器来根据预定查询特征序列对图像特征进行解码，得到解码特征序列；根据解码特征序列，预测得到多个预测结果；每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息；以及根据关联信息和分类信息，确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合，得到文本检测结果。得到文本检测结果。得到文本检测结果。

全部详细技术资料下载

【技术实现步骤摘要】
文本检测方法和文本检测模型的训练方法、装置

[0001]本公开涉及人工智能领域，具体涉及计算机视觉、深度学习和图像处理等
，可应用于OCR等场景。

技术介绍

[0002]随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术对图像进行处理，实现图像中文本的检测。在自然场景下，图像中文本包括的多个字符之间的间距和形状通常会影响文本的检测精度。

技术实现思路

[0003]本公开旨在提供一种提高文本检测精度的文本检测方法和文本检测模型的训练方法、装置、设备、介质。
[0004]根据本公开的一个方面，提供了一种文本检测方法，包括：提取文本图像的图像特征；采用解码器来根据预定查询特征序列对图像特征进行解码，得到解码特征序列；其中，解码特征序列中的解码特征与预定查询特征序列中的查询特征一一对应；根据解码特征序列，预测得到多个预测结果；多个预测结果与解码特征序列中的解码特征一一对应；每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息；以及根据关联信息和分类信息，确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合，得到文本检测结果，其中，分类信息用于指示位置信息指示位置处是否有字符。
[0005]根据本公开的另一个方面，提供了一种文本检测模型的训练方法，其中，文本检测模型包括特征提取网络、解码器和预测网络，该方法包括：采用特征提取网络提取...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法，包括：提取文本图像的图像特征；采用解码器来根据预定查询特征序列对所述图像特征进行解码，得到解码特征序列；其中，所述解码特征序列中的解码特征与所述预定查询特征序列中的查询特征一一对应；根据所述解码特征序列，预测得到多个预测结果；多个所述预测结果与所述解码特征序列中的解码特征一一对应；每个所述预测结果包括位置信息、与所述位置信息对应的分类信息、以及所述位置信息指示位置处的字符与多个所述预测结果中位置信息指示位置处的多个字符之间的关联信息；以及根据所述关联信息和所述分类信息，确定指示位置处有字符的位置信息并对所述多个字符中具有关联关系的字符的位置信息进行整合，得到文本检测结果，其中，所述分类信息用于指示所述位置信息指示位置处是否有字符。2.根据权利要求1所述的方法，其中，所述采用解码器来根据预定查询特征序列对所述图像特征进行解码，得到解码特征序列包括：根据所述图像特征得到键特征和值特征；根据所述预定查询特征序列得到查询特征；以及将所述查询特征、所述键特征和所述值特征输入所述解码器，得到所述解码器输出的解码特征序列。3.根据权利要求2所述的方法，其中，所述根据所述图像特征得到键特征和值特征包括：对所述文本图像进行位置编码，得到位置特征；融合所述位置特征和所述图像特征，得到融合特征；以及根据所述融合特征得到所述键特征和所述值特征。4.根据权利要求1所述的方法，其中，所述分类信息包括有字符的概率值；所述关联信息包括关联度；所述根据所述关联信息和所述分类信息，确定指示位置处有字符的位置信息并对所述多个字符中具有关联关系的字符的位置信息进行整合，得到文本检测结果包括：根据所述概率值和预定概率阈值，确定多个所述预测结果包括的多个位置信息中指示位置处具有字符的位置信息，作为目标位置信息；根据所述目标位置信息指示位置处的目标字符彼此之间的关联度，将所述目标字符中具有关联关系的字符组成字符组，得到至少一个字符组；以及根据每个所述字符组中字符的位置信息，确定每个所述字符组对应的文本行的位置信息，得到所述文本检测结果。5.一种文本检测模型的训练方法，其中，所述文本检测模型包括特征提取网络、解码器和预测网络；所述方法包括：采用所述特征提取网络提取作为样本的文本图像的图像特征；所述文本图像具有对应的指示信息，所述指示信息指示与所述文本图像对应的字符检测结果；采用所述解码器来根据预定查询特征序列对所述图像特征进行解码，得到解码特征序列；其中，所述解码特征序列中的解码特征与所述预定查询特征序列中的查询特征一一对应；
采用所述预测网络来根据所述解码特征序列预测得到多个预测结果，多个所述预测结果与所述解码特征序列中的解码特征一一对应；每个所述预测结果包括预测位置信息、与所述预测位置信息对应的分类信息、以及所述预测位置信息指示位置处的字符与多个所述检测结果中预测位置信息指示位置处的多个字符之间的预测关联信息；以及根据多个所述预测结果和所述字符检测结果，对所述文本检测模型进行训练，其中，所述分类信息用于指示所述预测位置信息指示位置处是否有字符。6.根据权利要求5所述的方法，其中，所述字符检测结果包括所述文本图像包括的M个字符的实际位置信息；所述分类信息包括有字符的预测概率值；所述根据多个所述预测结果和所述字符检测结果，对所述文本检测模型进行训练包括：对多个所述预测结果包括的N个预测位置信息和所述M个字符的实际位置信息行匹配，得到P个位置信息对，每个位置信息对包括所述N个预测位置信息中的一个第一位置信息和所述M个字符的实际位置信息中与所述第一位置信息匹配的第二位置信息；以及根据与所述第一位置信息对应的分类信息所包括的预测概率值与第一值之间的差异，以及与所述N个预测位置信息中除所述第一位置信息外其他位置信息对应的分类信息所包括的预测概率值与第二值之间的差异，对所述文本检测模型进行训练，其中，所述第二值小于所述第一值。7.根据权利要求5所述的方法，其中，所述字符检测结果包括文本图像包括的M个字符的实际位置信息；所述根据多个所述预测结果和所述字符检测结果，对所述文本检测模型进行训练包括：对多个所述预测结果包括的N个预测位置信息和所述M个字符的实际位置信息行匹配，得到P个位置信息对，每个所述位置信息对包括所述N个预测位置信息中的一个第一位置信息和所述M个字符的实际位置信息中与所述第一位置信息匹配的第二位置信息；以及根据所述位置信息对中第一位置信息与所述第二位置信息之间的差异，对所述文本检测模型进行训练。8.根据权利要求5所述的方法，其中，所述字符检测结果包括文本图像包括的M个字符的实际位置信息及指示所述M个字符彼此之间的关联关系的实际关联信息；所述根据多个所述预测结果和所述字符检测结果，对所述文本检测模型进行训练包括：对多个所述预测结果包括的N个预测位置信息和所述M个字符的实际位置信息行匹配，得到P个位置信息对，每个位置信息对包括所述N个预测位置信息中的一个第一位置信息和所述M个字符的实际位置信息中与所述第一位置信息匹配的第二位置信息；以及根据P个所述第一位置信息指示位置处的P个第一字符彼此之间的预测关联信息，与所述P个第二位置信息对应的P个第二字符彼此之间的实际关联信息之间的差异，对所述文本检测模型进行训练。9.根据权利要求5所述的方法，其中，所述文本检测模型还包括嵌入网络；所述方法还包括：采用所述嵌入网络对随机数据序列进行编码，得到所述预定查询特征序列。10.根据权利要求5所述的方法，其中，所述采用所述解码器来根据预定查询特征序列对所述图像特征进行解码，得到解码特征序列包括：根据所述图像特征得到键特征和值特征；
根据所述预定查询特征序列得到查询特征；以及将所述查询特征、所述键特征和所述值特征输入所述解码器，得到所述解码器输出的解码特征序列。11.根据权利要求10所述的方法，其中，所述根据所述图像特征得到键特征和值特征包括：对所述文本图像进行位置编码，得到位置特征；融合所述位置特征和所述图像特征，得到融合特征；以及根据所述融合特征得到所述键特征和所述值特征。12.一种文本检测装置，包括：特征提取模块，用于提取文本图像的图像特征；特征解码模块，用于采用解码器来根据预定查询特征序列对所述图像特征进行解码，得到解码特征序列；其中，所述解码特征序列中的解码特征与所述预定查询特征序列中的查询特征一一对应；预测模块，用于根据所述解码特征序列，预测得到多个预测结果；多个所述预测结果与所述解码特征序列中的解码特征一一对应；每个所述预测结果包括位置信息、与...

【专利技术属性】
技术研发人员：吕鹏原，范森，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人