基于优化多模态视觉与语言处理的场景文本识别方法技术

技术编号:45581567 阅读:10 留言:0更新日期:2025-06-20 22:01
本发明专利技术公开了一种基于优化多模态视觉与语言处理的场景文本识别方法,首先,将图像数据归一化;然后将预处理后的数据输入到优化的视觉模型中。视觉模型通过卷积‑Transformer混合神经网络提取多尺度空间和语义特征,并利用多尺度注意力机制以增强特征表达能力;语言模型对视觉模型输出的字符概率向量进行校正,并引入可学习位置编码来优化特征的表示。通过设计双向多模态交互模块,融合视觉和语言特征,使用自适应融合机制生成高质量的多模态联合特征表示。在应用阶段,通过高效的推理框架对优化后的模型进行部署,显著提升场景文本识别的速度与准确性。

【技术实现步骤摘要】

本专利技术涉及场景文本识别的,尤其是指一种基于优化多模态视觉与语言处理的场景文本识别方法


技术介绍

1、场景文本识别是计算机视觉领域的一项重要任务,旨在从现实环境中的图像中精准识别文本信息,广泛应用于信息处理、自动驾驶以及数字化文档管理等领域。例如,它可以帮助搜索引擎、社交媒体平台和图像数据库更高效地索引和分类图像;在自动驾驶中,通过识别交通标志和路牌提升驾驶安全性;在文档管理中,将印刷文件或手写笔记转化为可编辑的数字格式,从而优化文档的存储与检索效率。总体而言,场景文本识别在构建智能化和数字化社会中具有重要价值,并将持续推动技术的创新与应用。与传统的光学字符识别技术不同,场景文本识别需要应对更加复杂的现实场景,包括文本模糊、遮挡、倾斜、弯曲变形以及光照变化等问题。这些复杂性不仅增加了研究的难度,也对算法的鲁棒性和泛化能力提出了更高的要求。

2、先前的方法主要将场景文本识别视为一项视觉任务,仅使用视觉模型来解决。这种方法完全依赖于视觉信息,处理低质量或遮挡文本图像时性能较差。最近,多模态方法取得了令人鼓舞的结果,它可以分为简单的多模态融合方法本文档来自技高网...

【技术保护点】

1.基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,在步骤S2,所述卷积-Transformer混合神经网络包括两个卷积模块和一个Vision-Transformer模块;对于一个维度为H×W×3的图像x,首先通过两个卷积模块捕获视觉特征的低层空间信息,随后经过一个Vision-Transformer模块,用于捕获视觉特征的高层语义信息;在每个模块之间,使用步幅为2的卷积进行下采样,将特征图减少到其先前空间分辨率的一半;该图像x经过两个卷积模块和一个Vision-T...

【技术特征摘要】

1.基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,在步骤s2,所述卷积-transformer混合神经网络包括两个卷积模块和一个vision-transformer模块;对于一个维度为h×w×3的图像x,首先通过两个卷积模块捕获视觉特征的低层空间信息,随后经过一个vision-transformer模块,用于捕获视觉特征的高层语义信息;在每个模块之间,使用步幅为2的卷积进行下采样,将特征图减少到其先前空间分辨率的一半;该图像x经过两个卷积模块和一个vision-transformer模块处理后,将得到三个不同比例的特征图和

3.根据权利要求2所述的基于优化多模态视觉与语言处理的场景文本识别方法,其特征在于,在步骤s3,所述自掩码解码器由带有掩码的注意力机制组成,在带有掩码的注意力机制中,query是基于可学习的位置编码函数生成,同时,通过整合视觉模型的字符概率向量和位置信...

【专利技术属性】
技术研发人员:吴永贤朱泽森钟灿琨
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1