社交图片文本识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30167647 阅读:27 留言:0更新日期:2021-09-25 15:24
本发明专利技术涉及场景文本检测领域,尤其涉及一种社交图片文本识别方法、装置、计算机设备及存储介质,其方法包括:获取社交图片的二维图像特征;通过全局注意力交互机制对二维图像特征进行特征提取,得到二维视觉特征;将二维视觉特征输入字符视觉特征模型,获得一维字符视觉特征;将一维字符视觉特征输入字符语义特征模型,获得一维字符语义特征;通过融合特征算法对一维字符视觉特征和一维字符语义特征进行动态融合处理,得到社交图片的字符信息。本发明专利技术可对社交图片的字符语义特征进行矫正补充,提高了字符识别的准确率,且实现了并行处理,加快了识别处理速度,提高实时交互能力。提高实时交互能力。提高实时交互能力。

【技术实现步骤摘要】
社交图片文本识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及场景文本检测领域,尤其涉及一种社交图片文本识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]目前,STR(scene text recognition,识别出自然场景图片中的文本信息)技术被广泛应用在各种社交场景中。
[0003]在现有STR技术中,主要通过视觉特征的提取来实现识别图片中的文本信息,忽略了字符间的语义特征。当字符间存在间隙时,只通过视觉特征的提取进行文本识别,很容易导致识别到的文本信息不准确。其次,现有STR技术对图像特征的解码大多数基于RNN(循环神经网络),但由于RNN的训练速度较慢,不适用于实时交互的社交场景。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种社交图片文本识别方法、装置、计算机设备及存储介质,以解决现有STR技术中,识别不准确、速度较慢的问题。
[0005]一种社交图片文本识别方法,包括:
[0006]获取社交图片的二维图像特征;
[0007]通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;
[0008]将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;
[0009]将所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;
[0010]通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。
[0011]一种社交图片文本识别装置,包括:
[0012]二维图像特征模块,用于获取社交图片的二维图像特征;
[0013]二维视觉特征模块,用于通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;
[0014]一维字符视觉特征模块,用于将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;
[0015]一维字符语义特征模块,用于所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;
[0016]字符信息模块,用于通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理
器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述社交图片文本识别方法。
[0018]一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述社交图片文本识别方法。
[0019]上述社交图片文本识别方法、装置、计算机设备及存储介质,通过获取社交图片的二维图像特征;通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;将所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。可对社交图片的字符语义特征进行矫正补充,提高了字符识别的准确率,且实现了并行处理,加快了识别处理速度,提高实时交互能力。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中社交图片文本识别方法的一应用环境示意图;
[0022]图2是本专利技术一实施例中社交图片文本识别方法的一流程示意图;
[0023]图3是本专利技术一实施例中社交图片文本识别装置的一结构示意图;
[0024]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]本实施例提供的社交图片文本识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0027]在一实施例中,如图2所示,提供一种社交图片文本识别方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
[0028]S10、获取社交图片的二维图像特征。
[0029]可理解的,社交图片指社交场景中产生的图片,包括但不限于社交视频中产生的图片。通过卷积神经网络对社交图片进行特征提取处理,得到二维图像特征。其中,卷积神经网络可以是Resnet50(残差神经网络)或Vgg16(Visual Geometry Group,视觉集合几何组合)等。
[0030]S20、通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征。
[0031]可理解的,注意力交互机制包括全局注意力交互机制和局部注意力交互机制。全局注意力交互机制是基于Transformer结构的注意力交互机制。其中,Transformer结构包括Encoder(编码器)和Decoder(解码器)。全局注意力交互机制考虑所有编码器的隐藏层状态,且在计算每一个解码器的状态的同时考虑所有编码器的输入。局部注意力交互机制只选择性考虑一部分编码器的隐藏层状态。基于全局注意力交互机制可增强社交图片的视觉特征。
[0032]具体的,对二维图像特征进行维度转换处理,得到与二维图像特征对应的一维图像特征,例如,二维图像特征为256*8*8(8表示特征图的高和宽),经过维度转换后,得到一维图像特征为256*64,即256*(8*8)=256*64。其中,256*64表示每个特征图有64个像素点,每个像素点的特征向量是256维。并记录二维图像特征与一维图像特征之间的位置编码。例如,a00=b0,a10=b8,a20=b16,其中,a00表示A像素点在二维图像特征中的位置信息,b0表示A像素点在一维图像特征中的位置信息。将一维图像特征输入多头注意力机制的多头Transformer中,得到多头一维图像特征。例如,多头注意力本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交图片文本识别方法,其特征在于,包括:获取社交图片的二维图像特征;通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;将所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。2.如权利要求1所述的社交图片文本识别方法,其特征在于,所述通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征,包括:对所述二维图像特征进行维度转换处理,得到与所述二维图像特征对应的一维图像特征,并记录所述二维图像特征与所述一维图像特征之间的位置编码;将所述一维图像特征输入多头注意力机制,得到多头一维图像特征;根据所述位置编码将所述多头一维特征图像进行维度转换处理,得到所述二维视觉特征。3.如权利要求2所述的社交图片文本识别方法,其特征在于,将所述一维图像特征输入多头注意力机制,得到多头一维图像特征,包括:使用若干预设维度转化规则对所述一维图像特征进行处理,获得对应的若干一维向量,一个预设维度转化规则对应一个一维向量;拼接所述若干一维向量,得到所述多头一维图像特征。4.如权利要求1所述的社交图片文本识别方法,其特征在于,所述将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征,包括:通过字符视觉特征模型对所述二维视觉特征进行字符识别,获取所述二维视觉特征中字符的字符位置;根据所述字符位置提取所述二维视觉特征的一维字符视觉特征。5.如权利要求4所述的社交图片文本识别方法,其特征在于,所述字符视觉特征模型包括:Vchar
t
=softmax(Wv(LeakyRelu(W
q
f(R
t
)+W
k
V)))V其中,Vchar
t
为一维字符视觉特征,V为所述二维视觉特征,W
v
为Value向量,W
k
为key向量,W
q
为Query向量,f(R
t
)为嵌入函数;LeakyRelu(W
q
f(R
t
)+W
k<...

【专利技术属性】
技术研发人员:李志韬王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1