用于文本检测的深度学习模型训练方法及文本检测方法技术

技术编号：30792541 阅读：15 留言：0更新日期：2021-11-16 07:56

本公开提供了用于文本检测的深度学习模型训练方法及文本检测方法，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景。给出了用于文本检测的深度学习模型训练方法，单字符分割子网络输出的单字符分割预测结果，文本行分割子网络输出的文本行分割预测结果，训练后的深度学习模型可以用于文本区域的检测；并且可以同时实现单字符分割及文本行分割的预测，从而能够结合两种文本分割方式来进行文本检测，能够进一步提高文本区域检测的准确性。够进一步提高文本区域检测的准确性。够进一步提高文本区域检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
用于文本检测的深度学习模型训练方法及文本检测方法

[0001]本公开人工智能
，具体为计算机视觉和深度学习

技术介绍

[0002]随着深度学习技术的发展，基于深度学习模型的文本检测已经广泛应用于工业界和学术界，如旅游即时翻译，纸质文档电子化，招牌识别，图片文字审核等，而要实现对图像中的文本进行检测，首先要确定图像中的文本区域。

技术实现思路

[0003]本公开提供了一种用于文本检测的深度学习模型训练方法及文本检测方法的方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面，提供了一种用于文本检测的深度学习模型训练方法，所述方法包括：
[0005]获取待训练的深度学习模型，其中，深度学习模型包括单字符预测网络及文本行预测网络，所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络，所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络；
[0006]选取一第一类样本数据及当前选取的第一类样本数据的标签数据；
[0007]将当前选取的第一类样本数据输入到深度学习模型中，得到当前选取的第一类样本数据的预测结果，其中，所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值；
[0008]根据当前选取的第一类样本数据的预测结果及标签数据，调整深度学习模型的训练参数，得到训练后的深度学习模型。
[0009]根据本公开的第二方面，提供了一种文本检测方法，包括：
[0010]获取待...

【技术保护点】

【技术特征摘要】
1.一种用于文本检测的深度学习模型训练方法，所述方法包括：获取待训练的深度学习模型，其中，深度学习模型包括单字符预测网络及文本行预测网络，所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络，所述文本行预测网络包括文本行分割子网络及第二字符数量预测子网络；选取一第一类样本数据及当前选取的第一类样本数据的标签数据；将当前选取的第一类样本数据输入到深度学习模型中，得到当前选取的第一类样本数据的预测结果，其中，所述预测结果包括单字符分割预测结果、第一字符数量预测值、文本行分割预测结果、第二字符数量预测值；根据当前选取的第一类样本数据的所述预测结果及标签数据，调整深度学习模型的训练参数，得到训练后的深度学习模型。2.根据权利要求1所述的方法，其中，所述深度学习模型还包括编码器网络、第一解码器网络、第二解码器网络；所述将当前选取的第一类样本数据输入到深度学习模型中，得到当前选取的第一类样本数据的预测结果，包括：利用所述编码器网络对当前选取的第一类样本数据进行特征提取，得到全局特征；利用所述第一解码器网络对所述全局特征进行特征提取，得到第一高层特征；利用所述第二解码器网络对所述全局特征进行特征提取，得到第二高层特征；利用所述单字符分割子网络对所述第一高层特征进行处理，得到输出的单字符分割预测结果，利用所述第一字符数量预测子网络对所述第一高层特征进行处理，得到第一字符数量预测值；利用所述文本行分割子网络对所述第二高层特征进行处理，得到的文本行分割预测结果，利用所述第二字符数量预测子网络对所述第二高层特征进行处理，得到第二字符数量预测值。3.根据权利要求2所述的方法，其中，所述第一类样本数据的标签数据包括字符数量真值、单字符分割真值结果、文本行分割真值结果中的至少一项；所述根据当前选取的第一类样本数据的预测结果及标签数据，调整深度学习模型的训练参数的步骤，包括以下步骤中的至少一项：根据当前选取的第一类样本数据的单字符分割预测结果及当前选取的第一类样本数据的单字符分割真值结果，计算第一损失；根据所述第一损失，调整所述编码器网络、第一解码器网络、单字符分割子网络中至少一个网络的训练参数；根据当前选取的第一类样本数据的第一字符数量预测值及当前选取的第一类样本数据的字符数量真值，计算第二损失；根据所述第二损失，调整所述编码器网络、第一解码器网络、第一字符数量预测子网络中至少一个网络的训练参数；根据当前选取的第一类样本数据的文本行分割预测结果及当前选取的第一类样本数据的文本行分割真值结果，计算第三损失；根据所述第三损失，调整所述编码器网络、第二解码器网络、文本行分割子网络中至少一个网络的训练参数；根据当前选取的第一类样本数据的第二字符数量预测值及当前选取的第一类样本数据的字符数量真值，计算第四损失；根据所述第四损失，调整所述编码器网络、第二解码器网络、第二字符数量预测子网络中至少一个网络的训练参数。
4.根据权利要求1
‑
3任一所述的方法，其中，所述方法还包括：基于多个第一类样本数据的第一字符数量预测值及第二字符数量预测值，确定第一字符数量预测值与第二字符数量预测值的相对熵，得到第一相对熵；根据所述第一相对熵，调整所述第一字符数量预测子网络和所述第二字符数量预测子网络中至少一个网络的训练参数。5.根据权利要求1所述的方法，其中，所述得到训练后的深度学习模型，包括：继续选取第一类样本数据对深度学习模型进行有监督训练，并利用第二类样本数据对对深度学习模型无监督训练，直至满足预设训练结束条件，得到训练后的深度学习模型。6.根据权利要求5所述的方法，其中，所述利用第二类样本数据对对深度学习模型无监督训练，包括：获取多个第二类样本数据；分别对各所述第二类样本数据进行数据增广，得到各所述第二类样本数据对应的第三类样本数据；分别将各所述第二类样本数据输入到训练后的深度学习模型中，得到所述第一字符数量预测子网络输出的各所述第二类样本数据的第三字符数量预测值；分别将各所述第三类样本数据输入到训练后的深度学习模型中，得到所述第二字符数量预测子网络输出的各所述第三类样本数据的第四字符数量预测值；基于各所述第二类样本数据的第三字符数量预测值及各所述第三类样本数据的第四字符数量预测值，确定第三字符数量预测值与第四字符数量预测值的相对熵，得到第二相对熵；根据所述第二相对熵，调整所述第一字符数量预测子网络和所述第二字符数量预测子网络中至少一个网络的训练参数。7.一种文本检测方法，包括：获取待检测数据；将所述待检测数据输入到预先训练的深度学习模型中，得到所述待检测数据的单字符分割预测结果及文本行分割预测结果，其中，所述深度学习模型基于权利要求1
‑
6任一所述的用于文字检测的深度学习模型训练方法训练得到；根据所述待检测数据的单字符分割预测结果及文本行分割预测结果，确定所述待检测数据中的文本区域。8.根据权利要求7所述的方法，其中，所述根据所述待检测数据的单字符分割预测结果及文本行分割预测结果，确定所述待检测数据中的文本区域，包括：根据所述待检测数据的单字符分割预测结果，将所述待检测数据中预测有字符的区域标记为第一数值，将没有字符的区域标记为第二数据，得到第一二值图；根据所述待检测数据的文本行分割预测结果，将所述待检测数据中预测有字符的区域标记为第一数值，将没有字符的区域标记为第二数据，得到第二二值图；将所述第一二值图中第一数值的区域与所述第二二值图中第一数值的区域取并集，得到所述待检测数据的文本区域。9.根据权利要求7所述的方法，其中，所述深度学习模型为去除第一字符数量预测子网络及第二字符数量预测子网络的深度学习模型。
10.一种用于文本检测的深度学习模型训练装置，所述装置包括：深度学习模型获取模块，用于获取待训练的深度学习模型，其中，深度学习模型包括单字符预测网络及文本行预测网络，所述单字符分割网络包括单字符分割子网络及第一字符数量预测子网络，所述文本行预测网络包括文本行分割子网络及第二字符数量预测子...

【专利技术属性】
技术研发人员：范森，王晓燕，吕鹏原，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人