【技术实现步骤摘要】
社交图片文本识别方法、装置、计算机设备及存储介质
[0001]本专利技术涉及场景文本检测领域,尤其涉及一种社交图片文本识别方法、装置、计算机设备及存储介质。
技术介绍
[0002]目前,STR(scene text recognition,识别出自然场景图片中的文本信息)技术被广泛应用在各种社交场景中。
[0003]在现有STR技术中,主要通过视觉特征的提取来实现识别图片中的文本信息,忽略了字符间的语义特征。当字符间存在间隙时,只通过视觉特征的提取进行文本识别,很容易导致识别到的文本信息不准确。其次,现有STR技术对图像特征的解码大多数基于RNN(循环神经网络),但由于RNN的训练速度较慢,不适用于实时交互的社交场景。
技术实现思路
[0004]基于此,有必要针对上述技术问题,提供一种社交图片文本识别方法、装置、计算机设备及存储介质,以解决现有STR技术中,识别不准确、速度较慢的问题。
[0005]一种社交图片文本识别方法,包括:
[0006]获取社交图片的二维图像特征;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种社交图片文本识别方法,其特征在于,包括:获取社交图片的二维图像特征;通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征;将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征;将所述一维字符视觉特征输入字符语义特征模型,获得所述字符语义特征模型得输出的与所述一维字符视觉特征对应的一维字符语义特征;通过融合特征算法对所述一维字符视觉特征和所述一维字符语义特征进行动态融合处理,得到所述社交图片的字符信息。2.如权利要求1所述的社交图片文本识别方法,其特征在于,所述通过全局注意力交互机制对所述二维图像特征进行特征提取,得到二维视觉特征,包括:对所述二维图像特征进行维度转换处理,得到与所述二维图像特征对应的一维图像特征,并记录所述二维图像特征与所述一维图像特征之间的位置编码;将所述一维图像特征输入多头注意力机制,得到多头一维图像特征;根据所述位置编码将所述多头一维特征图像进行维度转换处理,得到所述二维视觉特征。3.如权利要求2所述的社交图片文本识别方法,其特征在于,将所述一维图像特征输入多头注意力机制,得到多头一维图像特征,包括:使用若干预设维度转化规则对所述一维图像特征进行处理,获得对应的若干一维向量,一个预设维度转化规则对应一个一维向量;拼接所述若干一维向量,得到所述多头一维图像特征。4.如权利要求1所述的社交图片文本识别方法,其特征在于,所述将所述二维视觉特征输入字符视觉特征模型,获得所述字符视觉特征模型输出的与所述二维视觉特征对应的一维字符视觉特征,包括:通过字符视觉特征模型对所述二维视觉特征进行字符识别,获取所述二维视觉特征中字符的字符位置;根据所述字符位置提取所述二维视觉特征的一维字符视觉特征。5.如权利要求4所述的社交图片文本识别方法,其特征在于,所述字符视觉特征模型包括:Vchar
t
=softmax(Wv(LeakyRelu(W
q
f(R
t
)+W
k
V)))V其中,Vchar
t
为一维字符视觉特征,V为所述二维视觉特征,W
v
为Value向量,W
k
为key向量,W
q
为Query向量,f(R
t
)为嵌入函数;LeakyRelu(W
q
f(R
t
)+W
k<...
【专利技术属性】
技术研发人员:李志韬,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。