【技术实现步骤摘要】
本专利技术涉及文本定位,特别是涉及一种场景文本定位方法、装置、介质及产品。
技术介绍
1、自然场景中的文本包含着高层次的语义信息,是重要的信息源,这些信息可以广泛应用于各种基于计算机视觉的领域,例如自动驾驶和工业自动化。因此,有效检测与识别场景文本图片(即对包含文本的自然场景进行拍摄所得到的图片)中的文本,捕捉利用其中丰富而重要的信息,能够有效辅助设备获得更精确的环境信息,在人机交互等应用场景中扮演着重要的角色。
2、相比于常规物体,文本行长宽比例、角度方向、分布形式、形变程度、字体类型、语言种类、颜色亮度和残缺模糊等变化范围很大,而丰富、复杂的背景图像会引起文本的透视形变,其相似多样的纹理也增大了对文本的干扰性,此外,遮挡、低分辨率、失真、模糊、过低/高亮度、阴影等不完善的成像条件更增大了任务难度。
3、通常,场景文本检测为在完整的场景文本图片中检测文本并输出文本所在位置,场景文本识别为对已经检测提取的文本集中的裁剪图片进行文本内容的识别。场景文本定位算法自然利用场景文本检测和场景文本识别的任务关联性,通过构建
...【技术保护点】
1.一种场景文本定位方法,其特征在于,包括:
2.根据权利要求1所述的一种场景文本定位方法,其特征在于,以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果,具体包括:
3.根据权利要求1所述的一种场景文本定位方法,其特征在于,所述编码器包括依次连接的多层编码层,所述编码层为基于多尺度动态注意力机制的编码层;
4.根据权利要求2所述的一种场景文本定位方法,其特征在于,在以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果之前,还包括:
5
...【技术特征摘要】
1.一种场景文本定位方法,其特征在于,包括:
2.根据权利要求1所述的一种场景文本定位方法,其特征在于,以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果,具体包括:
3.根据权利要求1所述的一种场景文本定位方法,其特征在于,所述编码器包括依次连接的多层编码层,所述编码层为基于多尺度动态注意力机制的编码层;
4.根据权利要求2所述的一种场景文本定位方法,其特征在于,在以所述场景文本图片作为输入,利用训练好的场景文本定位模型进行场景文本定位,得到场景文本定位结果之前,还包括:
5.根据权利要求4所述的一种场景文本定位方法,其特征在于,在利用所述数据集对所述初始场景文本定位模型进行训练之前,还包括:对所述数据集进行数据增广,得到增广后数据集,并以所述增广后数据集作为新的数据集;所述数据增广包括随机裁剪、随机旋转和随机翻转。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。