【技术实现步骤摘要】
本专利技术涉及场景文本识别的,尤其是指一种基于优化多模态视觉与语言处理的场景文本识别方法。
技术介绍
1、场景文本识别是计算机视觉领域的一项重要任务,旨在从现实环境中的图像中精准识别文本信息,广泛应用于信息处理、自动驾驶以及数字化文档管理等领域。例如,它可以帮助搜索引擎、社交媒体平台和图像数据库更高效地索引和分类图像;在自动驾驶中,通过识别交通标志和路牌提升驾驶安全性;在文档管理中,将印刷文件或手写笔记转化为可编辑的数字格式,从而优化文档的存储与检索效率。总体而言,场景文本识别在构建智能化和数字化社会中具有重要价值,并将持续推动技术的创新与应用。与传统的光学字符识别技术不同,场景文本识别需要应对更加复杂的现实场景,包括文本模糊、遮挡、倾斜、弯曲变形以及光照变化等问题。这些复杂性不仅增加了研究的难度,也对算法的鲁棒性和泛化能力提出了更高的要求。
2、先前的方法主要将场景文本识别视为一项视觉任务,仅使用视觉模型来解决。这种方法完全依赖于视觉信息,处理低质量或遮挡文本图像时性能较差。最近,多模态方法取得了令人鼓舞的结果,它可以分为
...【技术保护点】
1.基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,在步骤S2,所述卷积-Transformer混合神经网络包括两个卷积模块和一个Vision-Transformer模块;对于一个维度为H×W×3的图像x,首先通过两个卷积模块捕获视觉特征的低层空间信息,随后经过一个Vision-Transformer模块,用于捕获视觉特征的高层语义信息;在每个模块之间,使用步幅为2的卷积进行下采样,将特征图减少到其先前空间分辨率的一半;该图像x经过两个卷积模块和
...【技术特征摘要】
1.基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,在步骤s2,所述卷积-transformer混合神经网络包括两个卷积模块和一个vision-transformer模块;对于一个维度为h×w×3的图像x,首先通过两个卷积模块捕获视觉特征的低层空间信息,随后经过一个vision-transformer模块,用于捕获视觉特征的高层语义信息;在每个模块之间,使用步幅为2的卷积进行下采样,将特征图减少到其先前空间分辨率的一半;该图像x经过两个卷积模块和一个vision-transformer模块处理后,将得到三个不同比例的特征图和
3.根据权利要求2所述的基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,在步骤s3,所述自掩码解码器由带有掩码的注意力机制组成,在带有掩码的注意力机制中,query是基于可学习的位置编码函数生成,同时,通过整合视觉模型的字符概率向量和位置信...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。