【技术实现步骤摘要】
本专利技术属于字符检测、识别与分类领域,尤其是涉及一种基于多模态融合的店铺店名文字提取方法。
技术介绍
1、商店招牌在街景图像中提供了重要的信息,而自然场景中的字符识别是计算机视觉的重要研究方向。街景店招牌字符检测识别技术是两者的结合,广泛应用于地图导航推荐、智慧城市规划分析、商圈商业价值分析等实用领域,具有较高的研究和商业价值。
2、随着深度学习的发展,现有的一些深度学习网络已经在实际的应用场景中实现部分功能。如公开号为cn114663870a的中国专利文献公开了一种基于图像识别技术进行店铺门头招牌识别的方法及装置,通过合并门头分类模型和招牌元素识别模型的识别结果,来判断线下店铺门头招牌图像中的信息是否满足要求;公开号为cn115661703的中国专利文献公开了一种基于深度学习的门店招牌信息提取的方法,改进特征提取结构,并增强金字塔特征,提高检测的精度;公开号为cn113344121b的中国专利文献公开了训练招牌分类模型和招牌分类的方法,预测时得到基于图像特征的预测结果、基于语义特征的预测结果、基于图像特征和语义特征的融合
...【技术保护点】
1.一种基于多模态融合的店铺店名文字提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法,其特征在于,步骤(1)中,构建街景图像的店铺招牌数据集时,需要裁剪出包含店铺招牌的最小矩形图像作为图像数据,其数据标签为该店铺招牌图像中的店名文字。
3.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法,其特征在于,步骤(2)中,对文本检测模型Mask-RCNN和文字识别模型SAR进行预训练的数据数量需要超过5万,以此来使得模型具有更好的泛化性和鲁棒性。
4.根据权利要求1所述的基于多模态融
...【技术特征摘要】
1.一种基于多模态融合的店铺店名文字提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法,其特征在于,步骤(1)中,构建街景图像的店铺招牌数据集时,需要裁剪出包含店铺招牌的最小矩形图像作为图像数据,其数据标签为该店铺招牌图像中的店名文字。
3.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法,其特征在于,步骤(2)中,对文本检测模型mask-rcnn和文字识别模型sar进行预训练的数据数量需要超过5万,以此来使得模型具有更好的泛化性和鲁棒性。
4.根据权利要求1所述的基于多模态融合的店铺店名文字提取方法,其特征在于,步骤(3)中,使用mask-rcnn对店铺招牌中的文字进行检测分割,然后对分割出的区域求取最小内接矩阵,作为文字区域框,随后对区域框的四边分别扩大一个像素点,再将对应的文字图像裁剪下来。
5.根据权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。