【技术实现步骤摘要】
基于像素点级注意力机制的商品可读文字甄别方法
[0001]本专利技术涉及计算机视觉领域,具体涉及一种基于像素点级注意力机制的商品可读文字甄别方法。
技术介绍
[0002]识别商品图片中的文字并将其转化为可读的文字序列,有利于向盲人传达商品的信息。而现有的OCR技术在识别商品图片中的文字时,会将其中部分图案或其他不可读的部分错误地识别成文字,最终形成错误的文字序列,影响盲人对于信息的理解。
[0003]现有技术的解决方式是在将图片转化为可读文字序列时,通过预训练语言模型剔除其中不连贯的信息,但是这种方式对语料的依赖性大,且矫正结果单一,没有充分利用图片中的视觉信息。
[0004]上述问题是目前亟待解决的。
技术实现思路
[0005]本专利技术要克服现有技术的上述缺点,提供一种基于像素点级注意力机制的商品可读文字甄别办法。
[0006]为了解决上述技术问题,基于像素点级注意力机制的商品可读文字甄别办法,包括如下步骤:
[0007]S110,通过OCR技术得到商品图片上文字块的坐标和
【技术保护点】
【技术特征摘要】
1.基于像素点级注意力机制的商品图片可读文字甄别方法,其特征在于,包括如下步骤:S110,通过OCR技术得到商品图片上文字块的坐标和对应的文字;S120,利用像素点级注意力机制获取图片中所有像素单元的注意力权重;S130,利用注意力权重计算各文字块的可读置信度;S140,设置置信度阈值,在构建商品图片对应的文本输出时根据阈值筛选出可读的文字块。2.如权利要求1所述的基于像素点级注意力机制的商品图片可读文字甄别方法,其特征在于,步骤S110包括:S1101,对商品图片采用高斯滤波降噪和均值平滑方式进行预处理;S1102,使用PSENet模型对商品图片进行文本检测,得到商品图片中n个文本块的坐标集合S1103,根据文本块坐标集合切割出各文本块对应的子图集合S1104,使用CRNN模型对切割的文本块子图进行文本识别,得到商品图片中n个文本块对应的文本内容3.如权利要求1所述的基于像素点级注意力机制的商品图片可读文字甄别方法,其特征在于,步骤S120包括:S1201,对商品图片像素点集合Z,像素点z
i
∈Z对应的初步注意力权重由全图的其它像素点共同决定,全图的初步注意力权重矩阵的计算方式为A=ZWZ
T
;S1202,得到全图的初步注意力权重矩阵后,对各处像素点的初步注意力权重值采用激活函数处理,得到各像素点对应的注意力权重值,计算方式为A
′
=sigmoid(A)。4.如权利要求1所述的基于像素点级注意力机制的商...
【专利技术属性】
技术研发人员:王永攀,卜佳俊,于智,李亮城,邓雅卿,宋明黎,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。