文本检测方法和文本检测模型的训练方法、装置制造方法及图纸

技术编号:36255805 阅读:18 留言:0更新日期:2023-01-07 09:51
本公开提供了一种文本检测方法和文本检测模型的训练方法、装置,涉及人工智能领域,具体涉及计算机视觉、深度学习和图像处理等技术领域,可应用于OCR等场景。文本检测方法包括:提取文本图像的图像特征;采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;根据解码特征序列,预测得到多个预测结果;每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息;以及根据关联信息和分类信息,确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果。得到文本检测结果。得到文本检测结果。

【技术实现步骤摘要】
文本检测方法和文本检测模型的训练方法、装置


[0001]本公开涉及人工智能领域,具体涉及计算机视觉、深度学习和图像处理等
,可应用于OCR等场景。

技术介绍

[0002]随着计算机技术和网络技术的发展,深度学习技术在众多领域得到了广泛应用。例如,可以采用深度学习技术对图像进行处理,实现图像中文本的检测。在自然场景下,图像中文本包括的多个字符之间的间距和形状通常会影响文本的检测精度。

技术实现思路

[0003]本公开旨在提供一种提高文本检测精度的文本检测方法和文本检测模型的训练方法、装置、设备、介质。
[0004]根据本公开的一个方面,提供了一种文本检测方法,包括:提取文本图像的图像特征;采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;其中,解码特征序列中的解码特征与预定查询特征序列中的查询特征一一对应;根据解码特征序列,预测得到多个预测结果;多个预测结果与解码特征序列中的解码特征一一对应;每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位置处的多个字符之间的关联信息;以及根据关联信息和分类信息,确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果,其中,分类信息用于指示位置信息指示位置处是否有字符。
[0005]根据本公开的另一个方面,提供了一种文本检测模型的训练方法,其中,文本检测模型包括特征提取网络、解码器和预测网络,该方法包括:采用特征提取网络提取作为样本的文本图像的图像特征;文本图像具有对应的指示信息,指示信息指示与文本图像对应的字符检测结果;采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;其中,解码特征序列中的解码特征与预定查询特征序列中的查询特征一一对应;采用预测网络来根据解码特征序列预测得到多个预测结果,多个预测结果与解码特征序列中的解码特征一一对应;每个预测结果包括预测位置信息、与预测位置信息对应的分类信息、以及预测位置信息指示位置处的字符与多个检测结果中预测位置信息指示位置处的多个字符之间的预测关联信息;以及根据多个预测结果和字符检测结果,对文本检测模型进行训练,其中,分类信息指示预测位置信息指示位置处是否有字符。
[0006]根据本公开的另一个方面,提供了一种文本检测装置,包括:特征提取模块,用于提取文本图像的图像特征;特征解码模块,用于采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;其中,解码特征序列中的解码特征与预定查询特征序列中的查询特征一一对应;预测模块,用于根据解码特征序列,预测得到多个预测结果;多个预测结果与解码特征序列中的解码特征一一对应;每个预测结果包括位置信息、与位置信息对应的分类信息、以及位置信息指示位置处的字符与多个预测结果中位置信息指示位
置处的多个字符之间的关联信息;以及检测结果获得模块,用于根据关联信息和分类信息,确定指示位置处有字符的位置信息并对多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果,其中,分类信息用于指示位置信息指示位置处是否有字符。
[0007]根据本公开的另一个方面,提供了一种文本检测模型的训练装置,其中,文本检测模型包括特征提取网络、解码器和预测网络,该装置包括:特征提取模块,用于采用特征提取网络提取作为样本的文本图像的图像特征;文本图像具有对应的指示信息,指示信息指示与文本图像对应的字符检测结果;特征解码模块,用于采用解码器来根据预定查询特征序列对图像特征进行解码,得到解码特征序列;其中,解码特征序列中的解码特征与预定查询特征序列中的查询特征一一对应;预测模块,用于采用预测网络来根据解码特征序列预测得到多个预测结果,多个预测结果与解码特征序列中的解码特征一一对应;每个预测结果包括预测位置信息、与预测位置信息对应的分类信息、以及预测位置信息指示位置处的字符与多个检测结果中预测位置信息指示位置处的多个字符之间的预测关联信息;以及模型训练模块,用于根据多个预测结果和字符检测结果,对文本检测模型进行训练,其中,分类信息用于指示预测位置信息指示位置处是否有字符。
[0008]根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的文本检测方法和/或文本检测模型的训练方法。
[0009]根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的文本检测方法和/或文本检测模型的训练方法。
[0010]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现本公开提供的文本检测方法和/或文本检测模型的训练方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的文本检测方法和文本检测模型的训练方法、装置的应用场景示意图;
[0014]图2是根据本公开实施例的文本检测方法的流程示意图;
[0015]图3是根据本公开实施例的文本检测的原理示意图;
[0016]图4是根据本公开实施例的对图像特征进行解码的原理示意图;
[0017]图5是根据本公开实施例的文本检测模型的训练方法的流程示意图;
[0018]图6是根据本公开实施例的训练文本检测模型的原理示意图;
[0019]图7是根据本公开实施例的文本检测装置的结构框图;
[0020]图8是根据本公开实施例的文本检测模型的训练装置的结构框图;以及
[0021]图9是用来实施本公开实施例的文本检测方法和/或文本检测模型的训练方法的
电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]自然场景下的文本检测技术可以被广泛应用于社会的各行各业,例如可以应用于教育、医疗、金融等领域。随着文本检测技术的发展,由文本检测技术派生的卡证票据的识别、文档的自动化录入、拍照搜题等技术极大地提升了传统行业的智能化程度和生产效率,为人们的日常学习和生活带来了很多便利。
[0024]例如,可以基于候选框的两级方案或者基于实例分割的方案来实现文本检测。基于候选框的两级方案可以先检测得到文本候选框,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本检测方法,包括:提取文本图像的图像特征;采用解码器来根据预定查询特征序列对所述图像特征进行解码,得到解码特征序列;其中,所述解码特征序列中的解码特征与所述预定查询特征序列中的查询特征一一对应;根据所述解码特征序列,预测得到多个预测结果;多个所述预测结果与所述解码特征序列中的解码特征一一对应;每个所述预测结果包括位置信息、与所述位置信息对应的分类信息、以及所述位置信息指示位置处的字符与多个所述预测结果中位置信息指示位置处的多个字符之间的关联信息;以及根据所述关联信息和所述分类信息,确定指示位置处有字符的位置信息并对所述多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果,其中,所述分类信息用于指示所述位置信息指示位置处是否有字符。2.根据权利要求1所述的方法,其中,所述采用解码器来根据预定查询特征序列对所述图像特征进行解码,得到解码特征序列包括:根据所述图像特征得到键特征和值特征;根据所述预定查询特征序列得到查询特征;以及将所述查询特征、所述键特征和所述值特征输入所述解码器,得到所述解码器输出的解码特征序列。3.根据权利要求2所述的方法,其中,所述根据所述图像特征得到键特征和值特征包括:对所述文本图像进行位置编码,得到位置特征;融合所述位置特征和所述图像特征,得到融合特征;以及根据所述融合特征得到所述键特征和所述值特征。4.根据权利要求1所述的方法,其中,所述分类信息包括有字符的概率值;所述关联信息包括关联度;所述根据所述关联信息和所述分类信息,确定指示位置处有字符的位置信息并对所述多个字符中具有关联关系的字符的位置信息进行整合,得到文本检测结果包括:根据所述概率值和预定概率阈值,确定多个所述预测结果包括的多个位置信息中指示位置处具有字符的位置信息,作为目标位置信息;根据所述目标位置信息指示位置处的目标字符彼此之间的关联度,将所述目标字符中具有关联关系的字符组成字符组,得到至少一个字符组;以及根据每个所述字符组中字符的位置信息,确定每个所述字符组对应的文本行的位置信息,得到所述文本检测结果。5.一种文本检测模型的训练方法,其中,所述文本检测模型包括特征提取网络、解码器和预测网络;所述方法包括:采用所述特征提取网络提取作为样本的文本图像的图像特征;所述文本图像具有对应的指示信息,所述指示信息指示与所述文本图像对应的字符检测结果;采用所述解码器来根据预定查询特征序列对所述图像特征进行解码,得到解码特征序列;其中,所述解码特征序列中的解码特征与所述预定查询特征序列中的查询特征一一对应;
采用所述预测网络来根据所述解码特征序列预测得到多个预测结果,多个所述预测结果与所述解码特征序列中的解码特征一一对应;每个所述预测结果包括预测位置信息、与所述预测位置信息对应的分类信息、以及所述预测位置信息指示位置处的字符与多个所述检测结果中预测位置信息指示位置处的多个字符之间的预测关联信息;以及根据多个所述预测结果和所述字符检测结果,对所述文本检测模型进行训练,其中,所述分类信息用于指示所述预测位置信息指示位置处是否有字符。6.根据权利要求5所述的方法,其中,所述字符检测结果包括所述文本图像包括的M个字符的实际位置信息;所述分类信息包括有字符的预测概率值;所述根据多个所述预测结果和所述字符检测结果,对所述文本检测模型进行训练包括:对多个所述预测结果包括的N个预测位置信息和所述M个字符的实际位置信息行匹配,得到P个位置信息对,每个位置信息对包括所述N个预测位置信息中的一个第一位置信息和所述M个字符的实际位置信息中与所述第一位置信息匹配的第二位置信息;以及根据与所述第一位置信息对应的分类信息所包括的预测概率值与第一值之间的差异,以及与所述N个预测位置信息中除所述第一位置信息外其他位置信息对应的分类信息所包括的预测概率值与第二值之间的差异,对所述文本检测模型进行训练,其中,所述第二值小于所述第一值。7.根据权利要求5所述的方法,其中,所述字符检测结果包括文本图像包括的M个字符的实际位置信息;所述根据多个所述预测结果和所述字符检测结果,对所述文本检测模型进行训练包括:对多个所述预测结果包括的N个预测位置信息和所述M个字符的实际位置信息行匹配,得到P个位置信息对,每个所述位置信息对包括所述N个预测位置信息中的一个第一位置信息和所述M个字符的实际位置信息中与所述第一位置信息匹配的第二位置信息;以及根据所述位置信息对中第一位置信息与所述第二位置信息之间的差异,对所述文本检测模型进行训练。8.根据权利要求5所述的方法,其中,所述字符检测结果包括文本图像包括的M个字符的实际位置信息及指示所述M个字符彼此之间的关联关系的实际关联信息;所述根据多个所述预测结果和所述字符检测结果,对所述文本检测模型进行训练包括:对多个所述预测结果包括的N个预测位置信息和所述M个字符的实际位置信息行匹配,得到P个位置信息对,每个位置信息对包括所述N个预测位置信息中的一个第一位置信息和所述M个字符的实际位置信息中与所述第一位置信息匹配的第二位置信息;以及根据P个所述第一位置信息指示位置处的P个第一字符彼此之间的预测关联信息,与所述P个第二位置信息对应的P个第二字符彼此之间的实际关联信息之间的差异,对所述文本检测模型进行训练。9.根据权利要求5所述的方法,其中,所述文本检测模型还包括嵌入网络;所述方法还包括:采用所述嵌入网络对随机数据序列进行编码,得到所述预定查询特征序列。10.根据权利要求5所述的方法,其中,所述采用所述解码器来根据预定查询特征序列对所述图像特征进行解码,得到解码特征序列包括:根据所述图像特征得到键特征和值特征;
根据所述预定查询特征序列得到查询特征;以及将所述查询特征、所述键特征和所述值特征输入所述解码器,得到所述解码器输出的解码特征序列。11.根据权利要求10所述的方法,其中,所述根据所述图像特征得到键特征和值特征包括:对所述文本图像进行位置编码,得到位置特征;融合所述位置特征和所述图像特征,得到融合特征;以及根据所述融合特征得到所述键特征和所述值特征。12.一种文本检测装置,包括:特征提取模块,用于提取文本图像的图像特征;特征解码模块,用于采用解码器来根据预定查询特征序列对所述图像特征进行解码,得到解码特征序列;其中,所述解码特征序列中的解码特征与所述预定查询特征序列中的查询特征一一对应;预测模块,用于根据所述解码特征序列,预测得到多个预测结果;多个所述预测结果与所述解码特征序列中的解码特征一一对应;每个所述预测结果包括位置信息、与...

【专利技术属性】
技术研发人员:吕鹏原范森章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1