一种基于多模态融合的店铺店名文字提取方法技术

技术编号：41718346 阅读：57 留言：0更新日期：2024-06-19 12:44

本发明专利技术公开了一种基于多模态融合的店铺店名文字提取方法，包括：构建街景图像的店铺招牌数据集；将店铺招牌数据输入到文本检测模型中，获取各个文字的位置特征，同时得到文字区域框，并裁剪对应的文字图像；(4)将文字区域框中的文字图像输入到文本识别模型中，输出各个文字的图像特征，同时得到文字识别结果；(5)将各个文字的位置特征与图像特征作为新的数据集；(6)利用新数据集训练图神经网络用于文字分类；(7)在应用过程中，先获取街景图像的位置特征和图像特征，融合后再送入图神经网络，判断是否为店名文字；(8)将判断为店名文字的文字根据阅读顺序依次输出。利用本发明专利技术，使用的数据量较少，且提取的店名文字准确率较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于字符检测、识别与分类领域，尤其是涉及一种基于多模态融合的店铺店名文字提取方法。

技术介绍

1、商店招牌在街景图像中提供了重要的信息，而自然场景中的字符识别是计算机视觉的重要研究方向。街景店招牌字符检测识别技术是两者的结合，广泛应用于地图导航推荐、智慧城市规划分析、商圈商业价值分析等实用领域，具有较高的研究和商业价值。

2、随着深度学习的发展，现有的一些深度学习网络已经在实际的应用场景中实现部分功能。如公开号为cn114663870a的中国专利文献公开了一种基于图像识别技术进行店铺门头招牌识别的方法及装置，通过合并门头分类模型和招牌元素识别模型的识别结果，来判断线下店铺门头招牌图像中的信息是否满足要求；公开号为cn115661703的中国专利文献公开了一种基于深度学习的门店招牌信息提取的方法，改进特征提取结构，并增强金字塔特征，提高检测的精度；公开号为cn113344121b的中国专利文献公开了训练招牌分类模型和招牌分类的方法，预测时得到基于图像特征的预测结果、基于语义特征的预测结果、基于图像特征和语义特征的融合...

【技术保护点】

1.一种基于多模态融合的店铺店名文字提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法，其特征在于，步骤(1)中，构建街景图像的店铺招牌数据集时，需要裁剪出包含店铺招牌的最小矩形图像作为图像数据，其数据标签为该店铺招牌图像中的店名文字。

3.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法，其特征在于，步骤(2)中，对文本检测模型Mask-RCNN和文字识别模型SAR进行预训练的数据数量需要超过5万，以此来使得模型具有更好的泛化性和鲁棒性。

4.根据权利要求1所述的基于多模态融合的店铺店名文字提取...

【技术特征摘要】

1.一种基于多模态融合的店铺店名文字提取方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法，其特征在于，步骤(2)中，对文本检测模型mask-rcnn和文字识别模型sar进行预训练的数据数量需要超过5万，以此来使得模型具有更好的泛化性和鲁棒性。

4.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法，其特征在于，步骤(3)中，使用mask-rcnn对店铺招牌中的文字进行检测分割，然后对分割出的区域求取最小内接矩阵，作为文字区域框，随后对区域框的四边分别扩大一个像素点，再将对应的文字图像裁剪下来。

5.根据权...

【专利技术属性】
技术研发人员：杜威东，谢磊，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人